pdf2Data

Описание

iText 7 pdf2Data для обработки PDF

pdf2Data — это дополнение iText 7 для Java и C# (.NET), позволяющее с легкостью извлекать данные из PDF-документов.

Оно предоставляет платформу для распознавания данных в документах PDF на основе правил выбора, определяемых в шаблоне.

How iText pdf2Data works

Many PDF documents businesses need to process, such as registration forms, invoices etc. follow a common structure. If we take the example of an invoice document, addresses, purchase order numbers and similar document elements tend to be located in one place, and only the content such as item descriptions, quantities and cost of items change from invoice to invoice.

iText pdf2Data offers an easy way to extract data from such PDF documents by defining areas and rules in a template which correspond to the content you want to extract. The template can then be visually validated with other documents to confirm data is recognized correctly, before being parsed by the pdf2Data SDK to process all subsequent documents matching that template.

Unlike AI-based alternatives, you don’t need hundreds of samples and intensive supervision to train the recognition process. The content recognition is controlled by the template you configure, meaning no training is required before you can begin extracting data. You only need one example document to enable data extraction from all subsequent documents.

AI recognition has other disadvantages too. Any changes to the required output (such as adding a new field) will require models to be retrained, and multiple language support is minimal at best. Documents using the same layout but containing content in different languages can give wildly inconsistent results.

iText pdf2Data on the other hand suffers from none of these drawbacks. Making modifications to templates is quick and easy, and it offers excellent language support.

Using the pdf2Data template creator

By using the intuitive browser-based pdf2Data template creator, it’s easy to create a template for data extraction. Simply create a template PDF based on a sample document, by defining selectors for areas of interest. Selectors are configurable rules to detect different types of content for extraction.

Many selectors are available to define, including Date, Time, Image, Barcode, Table, Price etc. enabling pdf2Data to intelligently recognize and extract data and other content. The selectors can be configured to detect:

  • page range and the position on the page
  • specific font styles, font color, and text patterns
  • fixed keywords next to the data
  • automatic recognition of table structures

Defining selectors in the pdf2Data template creator

The pdf2Data template creator was designed to allow non-developers such as business users or functional analysts to define and modify templates as required, enabling more collaborative workflows.

Want to try it out? We have an online demo of pdf2Data to test with an example document, or one you upload yourself.

The recognition process is based on the following steps:

Step 1. Upload a sample PDF document (this will become our template).
Step 2. Select data in the document you would like to extract and define relevant extraction rules (selectors) for the correct data extraction.
Step 3. Upload any other PDF document based on the same template and confirm your data was recognized correctly.
Step 4. Start using the template in the pdf2Data server-side component. You can integrate it into your document workflow as a Java or .NET library, or as a command-line application, enabling you to process potentially millions of documents with ease.

Как это работает

Используйте приведенный ниже пример самостоятельно в нашей онлайн демоверсии.

Извлечение данных

1
2
3
4
5
6
7
8
9
10
11
12
13
14
//Обязательно загрузите файл лицензии перед вызовом кода
LicenseKey.loadLicenseFile(pathToLicenseFile);
 
// Преобразуйте шаблон в объект, который будет использоваться позже
Template template = Pdf2DataExtractor.parseTemplateFromPDF(pathToPdfTemplate);
 
// Создайте экземпляр Pdf2DataExtractor для анализируемого шаблона
Средство извлечения Pdf2DataExtractor = новый Pdf2DataExtractor(шаблон);
 
// Файл исходных данных для анализа по шаблону. Может вызываться несколько раз для различных файлов
Результат ParsingResult = extractor.recognize(pathToFileToParse);
 
// Сохраните результат в XML или исследуйте объект ParsingResult для программного извлечения информации
result.saveToXML(pathToOutXmlFile);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
// Обязательно загрузите файл лицензии перед вызовом кода
LicenseKey.LoadLicenseFile(pathToLicenseFile);
 
// Преобразуйте шаблон в объект, который будет использоваться позже
Template template = Pdf2DataExtractor.ParseTemplateFromPDF(pathToPdfTemplate);
 
// Создайте экземпляр Pdf2DataExtractor для анализируемого шаблона
Средство извлечения Pdf2DataExtractor = новый Pdf2DataExtractor(шаблон);
 
// Файл исходных данных для анализа по шаблону. Может вызываться несколько раз для различных файлов
Результат ParsingResult = extractor.Recognize(pathToFileToParse);
 
// Сохраните результат в XML или исследуйте объект ParsingResult для программного извлечения информации
result.SaveToXML(pathToOutXmlFile);

Создание шаблона

Сначала создайте шаблон PDF на основе образца документа, определив селекторы с помощью нужных областей и правил выбора. Это можно сделать в интуитивно понятном редакторе шаблонов pdf2Data, который предлагается в виде веб-приложения.

Пример pdf2Data

Преимущества

Преимущества использования iText 7 pdf2Data

Данные — это важный товар, а в документах PDF может быть находиться больше данных, чем вам кажется.

Сбор этих данных вручную может занять немало времени, повысить опасность возникновения ошибок при вводе и привести к возникновению угроз безопасности.

Благодаря pdf2Data можно автоматизировать процесс извлечения данных безопасным образом.

 

pdf2Data icon svg
Автоматизация извлечения данных из документов и счетов PDF

Извлекайте и обрабатывайте данные из большого количества PDF-файлов: определите важную информацию в шаблоне и автоматически извлекайте ее с помощью программ на Java и .NET. 

pdf2Data icon svg
Определите части данных для извлечения

Быстро определите необходимую для извлечения информацию в шаблоне с помощью редактора шаблонов pdf2Data. Например, поле адреса, которое всегда находится в правом верхнем углу счетов в формате PDF.

pdf2Data icon svg
Интеграция в существующий процесс работы с документами

В дополнении pdf2Data используются открытые стандарты, что позволяет просто и быстро интегрировать его в существующие рабочие процессы. В комплект входят пакеты SDK для Java и .NET, а также интерфейс командной строки.

Ключевые функции

Основные возможности iText 7 pdf2data

pdf2Data работает путем определения нужных областей, шрифтов, шаблонов или таблиц в шаблоне, который используется для всех файлов PDF, созданных в одном формате, таких как счета или другие коммерческие документы.

Затем можно определить нужные области с помощью селекторов.

Все селекторы используют разные способы определения важной информации и могут использоваться вместе или по отдельности в соответствии с вашими требованиями. 

iText
Извлечение данных из документов PDF

Использование функции извлечения содержимого iText 7 Core для обеспечения высокой точности распознавания текста и изображений.

iText
Интуитивно понятная конфигурация извлечения

Это дополнение имеет множество стандартных функций с гибкостью расширения и настройки. Особое внимание удаляется простой интеграции и открытым стандартам.

iText
Использование шаблонов для эффективного извлечения

Определение нужных областей и правил выделения для точного получения необходимого содержимого.

iText
Интеграция в PDF и (или) процессы работы с данными

Вывод данных в структурированном формате с возможностью повторного использования для дальнейшей обработки с доступом к координатам страниц извлеченного содержимого.

iText DITO, a data-driven template-based PDF generator

Now you’ve got data extraction through templating done and dusted, are you interested in a template-based solution for PDF creation from data?

Image
iText DITO invoice template
Контактная информация

Остались вопросы? 

Мы готовы вам помочь. Обратитесь к нам, и мы ответим, как только сможем.

Связаться с нами
Оставаться в курсе

Присоединяйтесь к более чем 11 000 подписчиков и станьте экспертом iText PDF, следя за нашими новыми продуктами, обновлениями, советами, техническими решениями и событиями.

Подпишись сейчас