pdf2Data

はじめに

PDF処理向けiText 7 pdf2Data

pdf2Dataは、JavaおよびC#(.NET)用のiText 7アドオンであり、PDFドキュメントからデータを簡単に抽出することができます。

テンプレートで定義する選択ルールに基づいて、PDF文書内にあるデータを認識するフレームワークを提供します。

メリット

iText 7 pdf2Dataを使う理由

データは重要な商品であり、認識できる以上のデータがPDF文書に隠されています。

当然のことながら、このデータを手動で収集するのは時間がかかり、入力ミスのリスクだけでなく、  セキュリティ上の問題も高くなります。

pdf2Dataを使用すると、 データを安全な方法で抽出するプロセスを自動化できます。

 

pdf2Data icon svg
PDF版請求書や文書からのデータ抽出を自動化

テンプレートで重要な情報を定義し、Javaや.NETでのプログラミングを用いて自動的に取り出すことで、 大量のPDFから データを抽出して処理します。 

pdf2Data icon svg
抽出したいデータ部分を具体的に定義する

pdf2Dataテンプレートエディタを用いて、 テンプレートに抽出したい情報をすばやく定義します(PDF版 請求書の右上端に常にある住所のフィールドなど)。

pdf2Data icon svg
既存の文書処理への統合

pdf2Dataはオープン標準を使用して統合を容易にし、これにより、既存ワークフローへの統合を 容易かつ迅速に行います。これにはJava用SDKと.NET用SDK、ならびにコマンドラインインターフェイスが含まれています。

主な特徴

iText 7 pdf2dataのコア機能

pdf2Dataは、請求書やその他の商業ドキュメントなど、同じ形式で作成されたPDF文書のテンプレート上の領域、フォント、パターン、利息表を定義することで動作します。

その後、セレクターを使って利息の領域を定義できます。

各セレクターはさまざまな方法を使用して重要な情報を識別し、ニーズに合わせて単独または組み合わせて使用できます。 

iText
PDF文書からデータを抽出

iText 7 Coreの コンテンツ抽出機能を活用すると、テキストや画像に対する忠実度の高い認識プロセスを行うことができます。

iText
直感的な抽出設定

このアドオンは拡張とカスタマイズできる柔軟性を持つ総合的でオリジナルな機能を備えています。統合のしやすさとオープンスタンダードに重きを置いています。

iText
テンプレートを使用して抽出を合理化

目的の領域と選択ルールを定義すれば、必要なコンテンツを正確に取得できます。

iText
PDFやデータのワークフローに統合

抽出したコンテンツのページ座標にアクセスして、さらなる処理の為にデータを構造化され、再利用ができる形式で出力します。

How iText pdf2Data works

Many PDF documents businesses need to process, such as registration forms, invoices etc. follow a common structure. If we take the example of an invoice document, addresses, purchase order numbers and similar document elements tend to be located in one place, and only the content such as item descriptions, quantities and cost of items change from invoice to invoice.

iText pdf2Data offers an easy way to extract data from such PDF documents by defining areas and rules in a template which correspond to the content you want to extract. The template can then be visually validated with other documents to confirm data is recognized correctly, before being parsed by the pdf2Data SDK to process all subsequent documents matching that template.

Unlike AI-based alternatives, you don’t need hundreds of samples and intensive supervision to train the recognition process. The content recognition is controlled by the template you configure, meaning no training is required before you can begin extracting data. You only need one example document to enable data extraction from all subsequent documents.

AI recognition has other disadvantages too. Any changes to the required output (such as adding a new field) will require models to be retrained, and multiple language support is minimal at best. Documents using the same layout but containing content in different languages can give wildly inconsistent results.

iText pdf2Data on the other hand suffers from none of these drawbacks. Making modifications to templates is quick and easy, and it offers excellent language support.

How iText pdf2Data works

By using the intuitive browser-based pdf2Data Editor, it’s easy to create a template for data extraction. Simply create a template PDF based on a sample document, by defining data field selectors for areas of interest. Selectors are configurable rules to detect different types of content for extraction.

There are approximately two dozen selectors to choose from which enable iText pdf2Data to intelligently recognize and extract text, and other content such as images or barcodes. The selectors can be configured to detect:

  • page range and the position on the page
  • specific font styles, font color, and text patterns
  • fixed keywords next to the data
  • automatic recognition of table structures

In addition, many selectors can be combined to fine-tune the detection parameters.

Your extraction template will then be used to parse all future PDFs matching the template. Using the pdf2Data Editor, you can upload a document to test your extraction template and make sure the data field selectors are configured correctly to recognize the data you require.

iText pdf2Data extraction results
Once you have configured an extraction template, you can test it to ensure accurate data capture and extraction.

Similar to our document generation solution iText DITO, iText pdf2Data allows anyone to leverage iText's powerful PDF capabilities, not just developers. It's simple to create or refine document templates to recognize and automatically extract data, which can then be easily reused by whoever needs it. By intelligently extracting data from documents in a smart and structured way, the data can easily be repurposed for analysis, reports, or whatever you want.

Developers are only needed to deploy the pdf2Data Editor and integrate the pdf2Data SDK into your document workflow. From then on, you can configure a template, verify the data, and set iText pdf2Data to work.

You can find installation instructions, tutorials, and detailed documentation for all data field selectors in our Knowledge Base.

 

 

Schedule a demo

Discover the power of iText pdf2Data with a guided demo from the iText engineering team.

When you request a demo, a specialist will contact you within two business days to inquire details and set up a time for the walk-through. The link for the demo will be sent to you shortly after submitting your request here. If you did not receive it, check your “spam” or “junk email” folders.

2022_Global_DemoRequestpdf2Data

Toggle dropdown
Toggle dropdown
Toggle dropdown
 

iText DITO, a data-driven template-based PDF generator

Now you’ve got data extraction through templating done and dusted, are you interested in a template-based solution for PDF creation from data?

Image
An example iText DITO template
お問い合わせ

それでも問題が解決しませんか? 

お寄せいただいたご質問には、喜んでお答えいたします。当社へご連絡ください。内容を確認次第、追ってご連絡いたします。

問い合わせる
常に最新情報を得る

11,000人以上の購読者に加わって、iTextの新しい製品、アップデート、ヒント、記述的な解決策や出来事に関する最新情報を得ることでiText PDF専門家になりましょう。

今すぐ購読