OCR - 異端開発室 | 奇想天外なアイデアがコードで現実になる場所

OCR

Eコマース画像審査の自動化：Aliの中国語認識モデルを統合した実践例

Eコマース画像審査の自動化：Aliの中国語認識モデルを統合した実践例 Eコマースプラットフォームの運用において、商品画像のコンプライアンス審査は頻度が高く、コストのかかる作業です。従来の人的審査は効率が悪く、疲労や主観的な判断により漏れや誤判定が発生するリスクがあります。AIビジョン技術の進化により、**画像内容の自動認識と審査**がプラットフォームの ...

6月25日 16:46 投稿

アフィン変換におけるせん断変換の研究と応用

アフィン変換は、平行移動、反転、回転、スケーリング、せん断変換の5つの変換の組み合わせです。せん断変換は上記の5つ目の変換です。画像のせん断は、投影面上での平面物体の非直角投影を表します。せん断により、画像内の図形が歪みます。一般的には、水平方向のせん断と垂直方向のせん断の2種類があります。（下図参照）具体的な数学的説明については、以下のブログ ...

6月9日 22:31 投稿

StepFun/GOT-OCR-2.0-hfのセットアップと環境構築

StepFunが開発したGOT-OCR-2.0-hfは、多言語対応の高性能OCRモデルであり、日常的な文書から複雑な図表や数式、楽譜に至るまで幅広いコンテンツを高精度で認識可能です。1024×1024ピクセルの高解像度入力に対応し、複数ページの一括処理や動的領域分割、色・座標指定による選択的認識など柔軟な機能を備えています。Apache 2.0ライセンスで公開されており、Hugging Face経 ...

5月31日 08:15 投稿

TextInとSpring Bootを連携させた画像認識の実装

概要画像認識とは画像認識は、コンピュータビジョンと機械学習技術を活用して画像内の情報を解釈・識別するプロセスです。この技術により、画像から文字、物体、シーンなどの情報を抽出し、編集可能かつ検索可能なデータに変換できます。画像認識は、監視システム、ソーシャルメディアの分析、医療画像処理、自動運転車の視覚システムなど幅広い分野で応用されています ...

5月24日 20:47 投稿

DeepSeek OCR APIの完全ガイド：画像とPDFの文字認識を実装する技術ドキュメント

DeepSeek OCR APIの概要と導入 DeepSeek OCRは画像とPDFの文字認識を高精度で実行できるAPIを提供します。画像処理、複雑な表組み認識、PDFの多ページ処理など、さまざまなシナリオに対応する機能を備えています。HTTPリクエストで簡単に統合可能であり、開発者は画像やPDFから構造化されたテキストを抽出できます。 APIエンドポイント一覧 POST /ocr/image：画像の文字 ...

5月22日 23:14 投稿

自動テストにおけるCAPTCHA対応手法の実践ガイド

Webアプリケーションの自動テストや負荷テストを行う際、ログイン時に表示されるCAPTCHA（画像認証・計算式・漢字入力など）は大きな障壁となる。以下に、現実的な解決策を複数紹介する。開発環境での一時無効化最も単純な方法は、テスト環境限定で認証コードのチェック処理をコメントアウトすること。本番環境では使用不可だが、CI/CDパイプライン内での安定したテスト ...

5月15日 00:42 投稿