DeepSeek OCR APIの完全ガイド：画像とPDFの文字認識を実装する技術ドキュメント

DeepSeek OCR APIの概要と導入

DeepSeek OCRは画像とPDFの文字認識を高精度で実行できるAPIを提供します。画像処理、複雑な表組み認識、PDFの多ページ処理など、さまざまなシナリオに対応する機能を備えています。HTTPリクエストで簡単に統合可能であり、開発者は画像やPDFから構造化されたテキストを抽出できます。

APIエンドポイント一覧

POST /ocr/image：画像の文字認識を実行するエンドポイント
POST /process/document：PDFファイルを処理し、構造化データを抽出するエンドポイント

画像認識APIの詳細

リクエストパラメータ

パラメータ	型	説明	デフォルト値
file	バイナリファイル	処理対象の画像ファイル	必須
mode	文字列	認識モード（basic, structured, tableなど）	"basic"
highlight	ブール	認識結果のハイライト表示	false
outputSize	整数	出力画像の解像度	1024

認識モードの種類

basic：基本的なテキスト抽出
structured：構造化されたJSON形式で出力
table：表組みデータをCSV形式で返す

Pythonでの実装例


import requests

api_endpoint = "http://ocr.example.com/ocr/image"
payload = {
"mode": "structured",
"highlight": True
}
file_data = {"file": open("sample.jpg", "rb")}

response = requests.post(api_endpoint, data=payload, files=file_data)
print(response.json()["recognized_text"])

PDF処理APIの詳細

主要なパラメータ

パラメータ	型	説明	デフォルト値
document	バイナリファイル	処理するPDFファイル	必須
format	文字列	出力形式（markdown, html, json）	"markdown"
extractImage	ブール	画像の抽出可否	true
resolution	整数	PDFのレンダリング解像度	144

主な機能

マルチフォーマット出力（Markdown/HTML/JSON）
画像抽出機能
高精度の表認識
解像度調整機能

高度な機能と応用例

テキスト位置検出

ハイライト機能を有効にすると、画像内のテキスト座標を取得できます。特定のキーワード位置を特定するアプリケーションに最適です。

カスタム認識

「custom_prompt」パラメータを使用して、特定のフォーマットで認識結果を取得できます。例：「請求書の金額のみ抽出」など。

ローカル環境への導入方法

リポジトリのクローン：

git clone https://example.com/deepseek-ocr.git

コンテナの起動：
```
cd deepseek-ocr && docker-compose up -d
```
アクセスURL：http://localhost:8000

タグ: OCR API PDF処理画像認識 Python

5月22日 23:14 投稿

異端開発室