OCR Xpress
Linux 用 OCR 開発ツールキット

 

日本語にも対応したテキスト認識と抽出用 SDK

製品概要

テキスト認識と抽出用の開発ツールキット

OCR Xpress v3.2 リリース (2016.3.31) - 新機能の詳細はこちら

OCR Xpress は、Linux アプリケーションに光学式文字認識 (OCR) とテキスト抽出を追加するためのソリューションです。OCR SDK は、モノクロまたはカラー画像からテキストを抽出し、検索可能な PDF またはテキストに変換するための迅速かつ簡単な方法を提供します。

主な機能: OCR 認識
対応する開発環境: C/C++ on Linux 64bit

OCR Xpress を使用して、画像または PDF からテキストを抽出

簡単なインテグレーション

  • 簡単なセットアップ、迅速なインテグレーションのために簡単に使用できる Linux C/C++ API。
  • わずか 9行のコードで、アプリケーションに OCR Xpress を追加できます。


多彩なアウトプット

  • 検索可能な PDF ファイル (image-over-text ファイル)
  • テキスト ファイル
  • イン・メモリー データ構造


正確な結果

  • 手入力を減らします。
  • 業界の最高基準と一致
  • 信頼値に対する結果をチェック

仕様

テクニカルな仕様は、開発者にフレームワーク オプション、互換性のあるプログラミング環境、サンプルコード、利用可能な現行のビルド バージョンの情報を提供します。

開発環境

Linux
C/C++ on Linux

必要要件

Linux に OCR Xpress をインストールする前に、以下の最小要件を満たしているか確認してください:

  • 64-bit Intel ベースのプラットフォーム
  • LIBC 2.5 またはそれ以上
  • GCC 4.2 またはそれ以上
  • Java ランタイム環境: Oracle Java SE 1.6.0.23 またはそれ以降 (License Manager および Server Licensing Utility を実行するため)

オペレーティング システム

OCR Xpress for Linux は、以下のオペレーティング システムで検証しました:

  • Ubuntu 14.04 LTS (64-bit)
  • CentOS 6.6

OCR Xpress v3 現行ビルド

最新のライブラリを入手するには、SDK をダウンロードし、再インストールしてください。既存の登録データは維持されます。

Linux 64-bit
v3.2

オンラインヘルプ

 OCR Xpress for Linux

機能

OCR Xpress の機能の完全なリストは、リリース時に定期的に更新されます。OCR Xpress のサポート をご確認ください。


高速で簡単

シンプルで簡単なセットアップは、あなたのアプリケーションにすばやく統合するための API を簡単に使用できます。高度な API は、開発者がわずか 9行のコードで画像をテキストまたは検索可能な PDF に変換することを可能にします。他の複雑な実装のために、開発者は、ページ、段落、テキスト行、文字データなどのデータ構造での文書情報にアクセスすることができます。


正確

業界の最高基準を満たす高精度で、画像をテキストに変換し、手動のデータ入力を減らします。信頼値を抽出結果をチェックするために返します。


ページ全体の光学式文字認識

1ページ全体およびマルチページの画像をテキスト出力に変換します。マルチページ、検索可能な PDF ファイルへの出力を可能にします。


画像とテキストの自動セグメンテーション

テキスト内に写真や画像が散在している様々なページレイアウトに対応します。Image-over-text PDF 出力は、画像の上にテキストが配置される検索可能なテキストと、ページのフォントサイズを変更するための調整を持ちます。


テキストと PDF ファイルの生成

画像を検索可能にするために、image-over-text PDF ファイルにエクスポートします。ECM システムの画像ベースのドキュメント用にメタデータまたはタグ データの更新で使用するため、テキスト ファイルにエクスポートします。


出力データ構造

レイアウト、コンテンツ、認識信頼度に関する情報を提供する出力構造を通じて結果にアクセスします。開発者は、1つのテキスト行、その行内の 1単語、行または単語内の 1文字などを含む複数のレベルでテキストにアクセスできます。



新機能

OCR Xpress v3.2 の機能

OCR Xpress v3.2 では、自動ページの向き補正が含まれます。

このアップデートにより、任意の回転角度 (0,90,180,270度) でページを送出し、正しい結果を得ることができます。

利用可能な向きのオプション:

  • 向きの検出: 検出された向きの文字は読み取れますが、元の画像上の文字の座標の提供を残します。PDF 出力は、元の画像になります(回転したまま)
  • 向きの検出と補正: 送信されたとき、画像を時計回りに 90度回転させた場合、OCR Xpress は最初に反時計回りに回転し、次に OCR 認識を実行し、補正された画像に基づく出力を生成します。
  • 画像の向きが正しいと仮定し、テキストを正立で読み込む: 回転したテキストは、読み取りに失敗します。 このモードを使用するとき、正しい向きのページは若干速く読み取れます。
  • 日本語を含む多数の言語がサポートされています。

 

OCR Xpress v3.0 の機能

(2015.8.27 リリース)

OCR Xpress™ for Linux は、強力なページ全体の光学式文字認識 (OCR) 製品です。エンドユーザーに配布するための検索可能なドキュメントを非圧縮 BMP ファイルから生成することが可能です。テキストまたはテキストと画像など様々な形式の検索可能なドキュメントがサポートされています。OCR Xpress for Linux SDK は、スタンドアロンの OCR エンジンとして、または ImageGear Professional などの他の Accusoft 製品とともに使用することができます。

主な機能

  • ページ全体の光学式文字認識 (OCR) のための新しいコンポーネントの作成
  • テキストファイルおよびテキスト上の画像の PDF の生成が可能
  • ドキュメントの構造化されたアウトプット
  • テキスト認識 (OCR)
  • 元のカラー画像を検索可能なドキュメントにエクスポートする機能を含むモノクロおよびカラー画像での操作実行
  • 画像とテキストの自動セグメンテーション
  • 様々なドキュメント形式にエクスポート

OCR Xpress の制限事項

OCR Xpress for Linux は、スタンドアロンの OCTR エンジンとして設計されていますが、最適な結果を達成するために、入力画像上で実行される必要があるいくつかの画像の前処理があります。

OCR Xpress for Linux は :

  • 入力画像の傾き補正 (デスキュー) 機能はありません。
  • 入力画像の回転機能はありません。
  • 非圧縮の BMP ファイルのみ読み込みます。
  • 英数字 OCR 認識のみ (日本語の認識は、v3.2 で追加されました)

Accusoft 社では、ドキュメント認識アプリケーションで併用できる ImageGear Professional などの他の製品を用意しています。
画像の前処理が必要な場合は、これらの機能を提供する Accusoft コンポーネントを使用することをお勧めします。

製品に関するお問合せは、弊社営業までお問合せください。