top_image

OCR Tesseract Engine プラグイン

GdPicture.NET SDK のロイヤリティフリーの OCR と検索可能な PDF の拡張

このプラグインにより、強力な OCR が提供されます。 GdPicture OCR Tesseract は、OCR 技術を必要とするアプリケーションを開発するための 100% ロイヤリティフリーの光学式文字認識エンジンです。
開発者は、数行のコードで、マネージ アプリケーションと非マネージ アプリケーションに堅牢で高速でマルチスレッドの OCR サポートを追加できます。


主な機能

  • 完全な Unicode をサポートする OCR SDK。

  • マルチスレッド サポート (デモ アプリケーションは GdPicture.NET SDK パッケージに含まれています)。

  • 文字認識の信頼性

  • 文字位置を取得します。

  • フォント情報 (スタイル、ファミリーなど) を取得。

  • 段落情報 (位置揃え、配置、境界ボックスなど) を取得。

  • テキストを出力。

  • PDF/A OCR 生成 (PDF 画像 + 隠された検索可能なテキスト) のサポート。

  • 非常に小さいサイズの Unicode 文字で PDF と PDF/A を生成可能。

  • 英語、フランス語、イタリア語、ドイツ語、スペイン語、ブラジル ポルトガル語、日本語、ベトナム語、中国語、ロシア語、ポーランド語、オランダ語などの 100 以上の言語をサポートします。

  • 数字のみ、英字のみ、または「ホワイトリスト」文字のみを認識できます。さらに、ブラックリストの文字を指定するためのオプション。

  • OCR コンテキスト サポート。 エンジンがドキュメント、単一単語、単一文字、テキスト ブロック、縦向きテキストなどを処理するかどうかを定義。

  • 高速エリア処理

  • 自動ドキュメント方向検出

  • 自動スキュー補正

  • OCR の精度とスピードを向上させる自動画像補正。

  • ブロック、段落、行、単語、および文字を検出するためのセグメンテーション機能。

  • 変数によって完全にカスタマイズ可能

  • PDF/OCR 作成用の組み込みマルチスレッド エンジン。

  • 100 以上のフォーマットを認識し、DOCX、HTML、PDF、およびテキストファイルに変換。

  • Any-CPU : 32 ビット版と 64 ビット版。

  • マルチスレッド アプリケーションで動作。

  • 100 以上のその他の機能...

 


GdPicture OCR SDK

GdPicture OCR Tesseract プラグインは、Google のオープンソース Tesseract OCR エンジンの継続的改良版に基づいて、GdPicture.NET に画像の特定領域のテキスト認識や、スキャンした文書、画像、または既存の PDF 文書からの検索可能な PDF/A ファイル (PDF-OCR) を作成する機能を追加します。

GdPicture OCR Tesseract プラグインは、組み込みのマルチスレッドサポートを提供し、100 以上の言語を処理し (完全なリストはここにあります)、100 以上の文書フォーマットを処理することができます。


 

評価版ダウンロード