DeepSeek OCR APIの完全ガイド:画像とPDFの文字認識を実装する技術ドキュメント

DeepSeek OCR APIの概要と導入

DeepSeek OCRは画像とPDFの文字認識を高精度で実行できるAPIを提供します。画像処理、複雑な表組み認識、PDFの多ページ処理など、さまざまなシナリオに対応する機能を備えています。HTTPリクエストで簡単に統合可能であり、開発者は画像やPDFから構造化されたテキストを抽出できます。

APIエンドポイント一覧

  • POST /ocr/image:画像の文字認識を実行するエンドポイント
  • POST /process/document:PDFファイルを処理し、構造化データを抽出するエンドポイント

画像認識APIの詳細

リクエストパラメータ

パラメータ説明デフォルト値
fileバイナリファイル処理対象の画像ファイル必須
mode文字列認識モード(basic, structured, tableなど)"basic"
highlightブール認識結果のハイライト表示false
outputSize整数出力画像の解像度1024

認識モードの種類

  • basic:基本的なテキスト抽出
  • structured:構造化されたJSON形式で出力
  • table:表組みデータをCSV形式で返す

Pythonでの実装例


import requests

api_endpoint = "http://ocr.example.com/ocr/image"
payload = {
"mode": "structured",
"highlight": True
}
file_data = {"file": open("sample.jpg", "rb")}

response = requests.post(api_endpoint, data=payload, files=file_data)
print(response.json()["recognized_text"])

PDF処理APIの詳細

主要なパラメータ

パラメータ説明デフォルト値
documentバイナリファイル処理するPDFファイル必須
format文字列出力形式(markdown, html, json)"markdown"
extractImageブール画像の抽出可否true
resolution整数PDFのレンダリング解像度144

主な機能

  • マルチフォーマット出力(Markdown/HTML/JSON)
  • 画像抽出機能
  • 高精度の表認識
  • 解像度調整機能

高度な機能と応用例

テキスト位置検出

ハイライト機能を有効にすると、画像内のテキスト座標を取得できます。特定のキーワード位置を特定するアプリケーションに最適です。

カスタム認識

「custom_prompt」パラメータを使用して、特定のフォーマットで認識結果を取得できます。例:「請求書の金額のみ抽出」など。

ローカル環境への導入方法

  1. リポジトリのクローン:
    git clone https://example.com/deepseek-ocr.git
  2. コンテナの起動:
    cd deepseek-ocr && docker-compose up -d
  3. アクセスURL:http://localhost:8000

タグ: OCR API PDF処理 画像認識 Python

5月23日 08:14 投稿