pdf2Data

제품 소개

iText 7 pdf2Data

pdf2Data는 PDF 처리를 자동화하고 동일한 형식을 갖춘 대량의 PDF 문서에서 데이터를 쉽게 추출할 수 있습니다. 템플릿에 정의할 수 있는 선택 규칙에 따라 PDF 문서 내의 데이터를 인식하는 프레임워크를 제공합니다.pdf2Data는 자사의 iText 7용 상용 라이선스 애드온이며, 이 제품을 상용이나 비공개 소스로 사용하기 위해서는 iText 7 Core 및 pdf2Data의 상용 라이선스가 필요합니다. 견적을 요청하여 프로젝트에 대한 라이선스 허가 및 가격 책정에 대해 더 알아보세요.

How iText pdf2Data works

Many PDF documents businesses need to process, such as registration forms, invoices etc. follow a common structure. If we take the example of an invoice document, addresses, purchase order numbers and similar document elements tend to be located in one place, and only the content such as item descriptions, quantities and cost of items change from invoice to invoice.

iText pdf2Data offers an easy way to extract data from such PDF documents by defining areas and rules in a template which correspond to the content you want to extract. The template can then be visually validated with other documents to confirm data is recognized correctly, before being parsed by the pdf2Data SDK to process all subsequent documents matching that template.

Unlike AI-based alternatives, you don’t need hundreds of samples and intensive supervision to train the recognition process. The content recognition is controlled by the template you configure, meaning no training is required before you can begin extracting data. You only need one example document to enable data extraction from all subsequent documents.

AI recognition has other disadvantages too. Any changes to the required output (such as adding a new field) will require models to be retrained, and multiple language support is minimal at best. Documents using the same layout but containing content in different languages can give wildly inconsistent results.

iText pdf2Data on the other hand suffers from none of these drawbacks. Making modifications to templates is quick and easy, and it offers excellent language support.

Using the pdf2Data template creator

By using the intuitive browser-based pdf2Data template creator, it’s easy to create a template for data extraction. Simply create a template PDF based on a sample document, by defining selectors for areas of interest. Selectors are configurable rules to detect different types of content for extraction.

Many selectors are available to define, including Date, Time, Image, Barcode, Table, Price etc. enabling pdf2Data to intelligently recognize and extract data and other content. The selectors can be configured to detect:

  • page range and the position on the page
  • specific font styles, font color, and text patterns
  • fixed keywords next to the data
  • automatic recognition of table structures

Defining selectors in the pdf2Data template creator

The pdf2Data template creator was designed to allow non-developers such as business users or functional analysts to define and modify templates as required, enabling more collaborative workflows.

Want to try it out? We have an online demo of pdf2Data to test with an example document, or one you upload yourself.

The recognition process is based on the following steps:

Step 1. Upload a sample PDF document (this will become our template).
Step 2. Select data in the document you would like to extract and define relevant extraction rules (selectors) for the correct data extraction.
Step 3. Upload any other PDF document based on the same template and confirm your data was recognized correctly.
Step 4. Start using the template in the pdf2Data server-side component. You can integrate it into your document workflow as a Java or .NET library, or as a command-line application, enabling you to process potentially millions of documents with ease.

Using the pdf2Data SDK to extract data

Below you can see an example of using the pdf2Data SDK to parse a pre-defined template. After loading the license file required to enable pdf2Data to work, you can parse a document against your template and extract the data with just a couple of lines of code.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
// Make sure to load license file before invoking any code
LicenseKey.loadLicenseFile(pathToLicenseFile);
 
// Parse template into an object that will be used later on
Template template = Pdf2DataExtractor.parseTemplateFromPDF(pathToPdfTemplate);
 
// Create an instance of Pdf2DataExtractor for the parsed template
Pdf2DataExtractor extractor = new Pdf2DataExtractor(template);
 
// Feed file to be parsed against the template. Can be called multiple times for different files
ParsingResult result = extractor.recognize(pathToFileToParse);
 
// Save result to XML or explore the ParsingResult object to fetch information programmatically
result.saveToXML(pathToOutXmlFile);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
// Make sure to load license file before invoking any code
LicenseKey.LoadLicenseFile(pathToLicenseFile);
 
// Parse template into an object that will be used later on
Template template = Pdf2DataExtractor.ParseTemplateFromPDF(pathToPdfTemplate);
 
// Create an instance of Pdf2DataExtractor for the parsed template
Pdf2DataExtractor extractor = new Pdf2DataExtractor(template);
 
// Feed file to be parsed against the template. Can be called multiple times for different files
ParsingResult result = extractor.Recognize(pathToFileToParse);
 
// Save result to XML or explore the ParsingResult object to fetch information programmatically
result.SaveToXML(pathToOutXmlFile);

Data is extracted in XML format, such as the example below:

<?xml version="1.0" encoding="UTF-8"?>
<elements>
  <data name="DATE">
    <text x="61.4" y="519.83" width="38.56" height="8.0" page="1">08/12/2016</text>
    <text x="96.28" y="477.57" width="38.56" height="8.0" page="2">16/01/2017</text>
  </data>
  <data name="END_USER_ADDRESS">
    <text x="102.25" y="612.39" width="98.84" height="40.0" page="1">Angela Merkel
To the att. of Angela Merkel
059-X025 KucheMacherStraße
71060 Sandelfängen Germany</text>
  </data>
  <data name="FAX">
    <text x="486.04" y="727.53" width="58.16" height="9.0" page="1">+32 92 70 33 75</text>
  </data>
</elements>

 

Resources

Here you will find the needed resources to install, configure and use the iText pdf2Data components. If you’re looking for a demonstration of how iText pdf2Data works, make sure to check out our online demo where you can test it with an example document, or one you upload yourself.

기능 및 이점

iText 7 pdf2Data를 선택해야 하는 이유는 무엇입니까?

데이터는 중요한 상품이며, 생각보다 PDF 문서에 투자하는 시간이 많을 것입니다. 물론 이러한 데이터를 수작업으로 수집하는 것은 많은 시간을 소요하며, 입력 오류와 보안 문제의 위험을 증가시킵니다. pdf2Data를 이용하면 데이터 추출 프로세스를 안전한 방법으로 자동화할 수 있습니다. pdf2Data의 이점에 대해 더 읽어보세요. 

 

pdf2Data icon svg
PDF 청구서 및 문서에서 데이터 추출 자동화

템플릿 내에서 중요한 정보를 정의하고, Java 및 .NET 프로그래밍을 통해 자동으로 추출하여 대량의 PDF에서 데이터를 추출 및 처리합니다. 

pdf2Data icon svg
추출하고자 하는 데이터의 특정 부분 정의

pdf2Data 템플릿 에디터로 템플릿 내에서 추출하고자 하는 정보를 빠르게 정의할 수 있습니다. 예를 들어, PDF 청구서의 오른쪽 상단에 항상 위치한 주소 필드가 해당됩니다.

pdf2Data icon svg
기존 문서 프로세스에 통합

pdf2Data는 공개 표준을 사용하여 통합을 용이하게하므로 기존 워크 플로에 쉽고 빠르게 통합 할 수 있습니다. 여기에는 Java 및 .NET용 SDK와 명령어 인터페이스가 포함됩니다.

주요 기능

iText 7 pdf2data의 핵심 성능

pdf2Data는 동일한 형식으로 생성된 모든 PDF에 사용되는 청구서나 입력 양식과 같은 템플릿 내의 영역, 폰트, 패턴, 관심 있는 표를 정의하여 사용합니다. 그 후 선택기로 관심 있는 영역을 정의할 수 있습니다. 각 선택기는 중요한 정보를 식별하는 여러 방법을 사용하며, 병행하거나 단독으로 사용하여 원하는 바를 충족할 수 있습니다. 

iText
PDF 문서에서 데이터 추출

텍스트 및 이미지의 고정밀 인식을 위해 iText 7 Core 콘텐츠 추출을 활용합니다.

iText
직관적인 추출 구성

이 애드온은 확장 및 사용자 설정이 가능한 유연성을 갖추었으며, 폭넓고 독창적인 기능성을 갖추고 있습니다. 손쉬운 통합 및 공개 표준에 중점을 둡니다.

iText
추출 간소화를 위한 템플릿 사용

관심 영역 및 선택 규칙을 정의하여 원하는 정확한 콘텐츠를 얻을 수 있습니다.

iText
PDF 및/또는 데이터 워크플로에 통합

추출한 콘텐츠의 페이지 위치에 대한 접근이 가능하며, 추가적인 처리를 위한 구조화되고 재사용 가능한 형식으로 데이터를 출력합니다.

iText DITO, a data-driven template-based PDF generator

Now you’ve got data extraction through templating done and dusted, are you interested in a template-based solution for PDF creation from data?

이미지
iText DITO invoice template
문의

문의가 해결되지 않았습니까? 

저희가 도와드리겠습니다. 연락해 주시면 빠르게 답변해 드리겠습니다.

문의하기
최신 정보를 받아보세요

11,000명 이상의 가입자와 함께 새로운 제품, 업데이트, 팁, 기술 솔루션 및 기회에 대한 최신 정보를 받아보시면서 iText PDF 전문가가 되어보세요.

지금 구독하기