画像認識 - 異端開発室 | 奇想天外なアイデアがコードで現実になる場所

画像認識

Kimiの多モーダル性能評価：テキスト生成は強力だが画像認識には専用モデルが必要

汎用中国語ドメインにおける画像理解：Kimiの言語優位性と視覚的限界近年、大規模言語モデル（LLM）は多モーダル処理能力を急速に進化させている。特にKimiは、**長文生成・論理推論・知識ベース質問応答**において卓越した性能を示す。しかし、「画像を見て説明する」ような真の視覚理解タスクでは、専門的に設計されたビジョンモデルに大きく劣る。 Kimiの本質的な強 ...

6月27日 00:49 投稿

Eコマース画像審査の自動化：Aliの中国語認識モデルを統合した実践例

Eコマース画像審査の自動化：Aliの中国語認識モデルを統合した実践例 Eコマースプラットフォームの運用において、商品画像のコンプライアンス審査は頻度が高く、コストのかかる作業です。従来の人的審査は効率が悪く、疲労や主観的な判断により漏れや誤判定が発生するリスクがあります。AIビジョン技術の進化により、**画像内容の自動認識と審査**がプラットフォームの ...

6月25日 16:46 投稿

PyTorchを用いた自動車ナンバープレート認識システムの実装

環境設定 import torch import torchvision from torchvision import transforms, datasets import torch.nn as nn import torch.nn.functional as F from torch.utils.data import DataLoader, Dataset import os import PIL import pathlib import numpy as np import pandas as pd import matplotlib.pyplot as plt # デバイス設定 device = torch.device("cuda" if to ...

6月24日 16:48 投稿

出版業界の変革：イラスト著作権検知AIツールの開発アイデア

出版業界の変革：イラスト著作権検知AIツールの開発アイデア序論：出版業界の著作権課題とAIの可能性従来の出版業界では、イラストの使用に伴い、著作権の帰属不明瞭、著作権侵害リスクの高い、人的レビューの効率低下という3つの主要な課題がありました。特にデジタル出版物の爆発的な増加に伴い、編集チームは膨大な画像から適切なイラストを選び、個々のイラストの著 ...

6月22日 21:11 投稿

StepFun/GOT-OCR-2.0-hfのセットアップと環境構築

StepFunが開発したGOT-OCR-2.0-hfは、多言語対応の高性能OCRモデルであり、日常的な文書から複雑な図表や数式、楽譜に至るまで幅広いコンテンツを高精度で認識可能です。1024×1024ピクセルの高解像度入力に対応し、複数ページの一括処理や動的領域分割、色・座標指定による選択的認識など柔軟な機能を備えています。Apache 2.0ライセンスで公開されており、Hugging Face経 ...

5月31日 08:15 投稿

TextInとSpring Bootを連携させた画像認識の実装

概要画像認識とは画像認識は、コンピュータビジョンと機械学習技術を活用して画像内の情報を解釈・識別するプロセスです。この技術により、画像から文字、物体、シーンなどの情報を抽出し、編集可能かつ検索可能なデータに変換できます。画像認識は、監視システム、ソーシャルメディアの分析、医療画像処理、自動運転車の視覚システムなど幅広い分野で応用されています ...

5月24日 20:47 投稿

DeepSeek OCR APIの完全ガイド：画像とPDFの文字認識を実装する技術ドキュメント

DeepSeek OCR APIの概要と導入 DeepSeek OCRは画像とPDFの文字認識を高精度で実行できるAPIを提供します。画像処理、複雑な表組み認識、PDFの多ページ処理など、さまざまなシナリオに対応する機能を備えています。HTTPリクエストで簡単に統合可能であり、開発者は画像やPDFから構造化されたテキストを抽出できます。 APIエンドポイント一覧 POST /ocr/image：画像の文字 ...

5月22日 23:14 投稿

VGGネットワーク：モジュラー設計による画像認識モデル

深層ニューラルネットワークの設計において、モジュラー構造を導入した代表的なアーキテクチャがVGGネットワークである。VGGは畳み込み層の繰り返しブロックを基本単位とし、画像認識タスクにおける高い精度を実現した。 VGGブロックの構成 VGGブロックは複数の畳み込み層とプーリング層で構成される。各畳み込み層の特徴は：カーネルサイズ：3×3 パディング：1（ ...

5月18日 08:45 投稿

高齢者向け薬剤パッケージ認識システムの構築

視覚支援技術による高齢者の服薬ミス防止日本の高齢化が進む中、視力の低下や記憶力の衰えに伴い、誤った薬の服用や飲み忘れ、重複投与といった問題が深刻化しています。厚生労働省の調査によると、65歳以上の高齢者の約35%が過去に何らかの服薬エラーを経験しており、その主な要因の一つが薬の包装容器の見分けにくさです。こうした課題に対し、AIを活用した画 ...

5月17日 15:19 投稿

ホットタグ