DeepSeek OCR APIの概要と導入
DeepSeek OCRは画像とPDFの文字認識を高精度で実行できるAPIを提供します。画像処理、複雑な表組み認識、PDFの多ページ処理など、さまざまなシナリオに対応する機能を備えています。HTTPリクエストで簡単に統合可能であり、開発者は画像やPDFから構造化されたテキストを抽出できます。
APIエンドポイント一覧
POST /ocr/image:画像の文字認識を実行するエンドポイントPOST /process/document:PDFファイルを処理し、構造化データを抽出するエンドポイント
画像認識APIの詳細
リクエストパラメータ
| パラメータ | 型 | 説明 | デフォルト値 |
|---|---|---|---|
| file | バイナリファイル | 処理対象の画像ファイル | 必須 |
| mode | 文字列 | 認識モード(basic, structured, tableなど) | "basic" |
| highlight | ブール | 認識結果のハイライト表示 | false |
| outputSize | 整数 | 出力画像の解像度 | 1024 |
認識モードの種類
- basic:基本的なテキスト抽出
- structured:構造化されたJSON形式で出力
- table:表組みデータをCSV形式で返す
Pythonでの実装例
import requests
api_endpoint = "http://ocr.example.com/ocr/image"
payload = {
"mode": "structured",
"highlight": True
}
file_data = {"file": open("sample.jpg", "rb")}
response = requests.post(api_endpoint, data=payload, files=file_data)
print(response.json()["recognized_text"])
PDF処理APIの詳細
主要なパラメータ
| パラメータ | 型 | 説明 | デフォルト値 |
|---|---|---|---|
| document | バイナリファイル | 処理するPDFファイル | 必須 |
| format | 文字列 | 出力形式(markdown, html, json) | "markdown" |
| extractImage | ブール | 画像の抽出可否 | true |
| resolution | 整数 | PDFのレンダリング解像度 | 144 |
主な機能
- マルチフォーマット出力(Markdown/HTML/JSON)
- 画像抽出機能
- 高精度の表認識
- 解像度調整機能
高度な機能と応用例
テキスト位置検出
ハイライト機能を有効にすると、画像内のテキスト座標を取得できます。特定のキーワード位置を特定するアプリケーションに最適です。
カスタム認識
「custom_prompt」パラメータを使用して、特定のフォーマットで認識結果を取得できます。例:「請求書の金額のみ抽出」など。
ローカル環境への導入方法
- リポジトリのクローン:
git clone https://example.com/deepseek-ocr.git - コンテナの起動:
cd deepseek-ocr && docker-compose up -d - アクセスURL:http://localhost:8000