フォーム処理アプリ FormAssist で 「画像のみ PDF」 を読み込む

フォーム処理用の FormAssist アプリケーションの概要

FormAssist は、FormSuite に含まれる入力画像を後で処理するためにフォームセットをすばやく設定、構築、およびテストするために使用できるアプリケーションです。

また、フォームセットのテストに使用できるデスクトップフォーム処理ワークフローも含まれています。

フォームセットの作成プロセスは次のとおりです。

  • フォームテンプレートとして使用する画像ファイルの選択
  • 各テンプレート画像の OCR、ICR、OMR、または Clip フィールドを処理するための定義を指定します。

フォームセットの作成はフォーム処理の前に実行する必要があります。 FormAssist アプリケーションを使用すると、個々のフィールドごとに処理属性を簡単に指定できます。

FormAssist を使用すると、処理対象の 1 つ以上の記入済みフォーム画像を選択して、表示される指示に基づいて処理中の画像を調べることができます。 処理手順は次のとおりです。

  • 画像の機能強化
  • フォーム識別 (入力画像とフォームテンプレートのマッチング)
  • テンプレートと OCR、ICR、OMR、バーコード認識、画像クリッピングなどの定義された各フィールドの処理を調整します。

FormSuite に含まれる製品の FormAssist を使用すると、フォームからデータを自動的に抽出することが簡単になります。 Accusoft では、現在、互換性のある PDF 文書から直接画像データを抽出することをサポートする新しいアップデートに取り組んでいます。

スキャンした文書を FormAssist と FormSuite を使って、できるだけ簡単に処理できるようにします。 ただし、スキャナーから作成された PDF 文書はベンダーによって異なります。 そのため、開発中に、Accusoft テストセット内で作成されたドキュメントの中から見つけられる最も単純な特性セットを探しました。

スキャンした文書には 1 ページに 1 つの画像があり、目に見えるテキストは存在しません。 そのため、これらの文書をサポートするために、「画像のみの PDF」 文書を構成するものを定義しました。 これらの条件は次のとおりです。

  1. 各ページには厳密に 1 つの画像がなければなりません。
  2. 各ページに目に見えるテキストがあってはいけません。

 

この画像のこのページには画像が 1 つしかありません、しかし、表示可能なテキスト レイヤーがあるため、「画像のみ」 ではありません。

Brother、Cannon、Epson、Ricoh、および Xerox のスキャナーを含む一般的なスキャナーは、文書をスキャンするときに、これらの特性を持つ PDF を生成します。 一部のスキャナーは、内部の OCR エンジンを介して画像を実行し、画像内で検出された文字の上に隠れたテキスト レイヤーを追加することで、検索可能なドキュメントを作成できます。 今回の目的のために、文書が画像のみであるかどうかを決定するときに、このような検索可能な文書内に存在するような目に見えないテキスト レイヤーを無視することを選びました。

ImagXpress v13.7 での改善

これらの規則を使って、FormAssist 内で使用される ImagXpress API の一部を拡張することによって、画像のみのサポートを実装しました。 また、このチェックはページごとに行われます。 特定のページをドキュメントから個別にロードすることができ、そのページは、ドキュメントの他のページがそうでなくても (それが基準を満たす場合) 画像のみとして受け入れられます。

このアップデートでは、すでに使用している他の画像ファイルと同じ方法で互換性のある PDF を FormAssist に読み込むことができます。 互換性のある PDF は、その内容がデコードされてDevice Independent Bitmap (DIB) に抽出され、TIFF や JPEG のような ImagXpress や FormSuite でサポートされている他の画像タイプの DIB のように処理できます。 これにより、スキャンした PDF 文書を処理ワークフロー内ですぐに使用できます。 文書変換や追加処理は不要です。

この新機能は ImagXpress API の一部として追加されているので、すぐにプロジェクトに ImagXpress を含むことによって新しい画像のみの PDF 処理を利用することができます。 必要なのは、テキストや余分な画像のない、お客様自身の 「画像のみの PDF」 のセットです。

FormSuite 製品とは

構造化フォームから迅速にデータを抽出する機能をアプリケーションに組み込むことができます。インテリジェントな認識とクリーンアップ、修正および拡張機能を介して、スキャンされたフォームから正確なデータを取得します。

FormSuite は、フォーム処理アプリケーションを開発するために必要となるすべてのコンポーネントがバンドルされています。

■ FormFix : フォーム認識とフォームドロップアウト、OMR 認識

■ SmartZone : ゾーン OCR と ICR

■ ScanFix Xpress : 画像クリーンアップとエンハンスメント

■ ImagXpress : 画像の表示/圧縮/伸張、TWAIN、アノテーション、その他多数の機能

ImagXpress 製品の詳細は、こちらをご参照ください。

FormAssist を含む FormSuite 製品の詳細は、こちらをご参照ください。

FormAssist の スタートガイド (ヘルプ)

参照記事:

(2019年 5月 20日)  Image-Only PDF in FormAssist

シェアする

  • このエントリーをはてなブックマークに追加

フォローする