pdf2Data

Introducción

iText 7 pdf2Data para el procesamiento de PDF

pdf2Data es un complemento de iText 7 para Java y C# (.NET) que facilita la extracción de los datos contenidos en documentos PDF.

Ofrece un entorno que permite reconocer los datos existentes en documentos PDF siguiendo las reglas de selección que usted defina en una plantilla.

How iText pdf2Data works

Many PDF documents businesses need to process, such as registration forms, invoices etc. follow a common structure. If we take the example of an invoice document, addresses, purchase order numbers and similar document elements tend to be located in one place, and only the content such as item descriptions, quantities and cost of items change from invoice to invoice.

iText pdf2Data offers an easy way to extract data from such PDF documents by defining areas and rules in a template which correspond to the content you want to extract. The template can then be visually validated with other documents to confirm data is recognized correctly, before being parsed by the pdf2Data SDK to process all subsequent documents matching that template.

Unlike AI-based alternatives, you don’t need hundreds of samples and intensive supervision to train the recognition process. The content recognition is controlled by the template you configure, meaning no training is required before you can begin extracting data. You only need one example document to enable data extraction from all subsequent documents.

AI recognition has other disadvantages too. Any changes to the required output (such as adding a new field) will require models to be retrained, and multiple language support is minimal at best. Documents using the same layout but containing content in different languages can give wildly inconsistent results.

iText pdf2Data on the other hand suffers from none of these drawbacks. Making modifications to templates is quick and easy, and it offers excellent language support.

Using the pdf2Data template creator

By using the intuitive browser-based pdf2Data template creator, it’s easy to create a template for data extraction. Simply create a template PDF based on a sample document, by defining selectors for areas of interest. Selectors are configurable rules to detect different types of content for extraction.

Many selectors are available to define, including Date, Time, Image, Barcode, Table, Price etc. enabling pdf2Data to intelligently recognize and extract data and other content. The selectors can be configured to detect:

  • page range and the position on the page
  • specific font styles, font color, and text patterns
  • fixed keywords next to the data
  • automatic recognition of table structures

Defining selectors in the pdf2Data template creator

The pdf2Data template creator was designed to allow non-developers such as business users or functional analysts to define and modify templates as required, enabling more collaborative workflows.

Want to try it out? We have an online demo of pdf2Data to test with an example document, or one you upload yourself.

The recognition process is based on the following steps:

Step 1. Upload a sample PDF document (this will become our template).
Step 2. Select data in the document you would like to extract and define relevant extraction rules (selectors) for the correct data extraction.
Step 3. Upload any other PDF document based on the same template and confirm your data was recognized correctly.
Step 4. Start using the template in the pdf2Data server-side component. You can integrate it into your document workflow as a Java or .NET library, or as a command-line application, enabling you to process potentially millions of documents with ease.

Cómo funciona

Pruebe personalmente este ejemplo en la versión demo online:

Extracción de datos

1
2
3
4
5
6
7
8
9
10
11
12
13
14
// Asegurarse de cargar el archivo de licencia antes de ejecutar ningún código.
LicenseKey.loadLicenseFile(pathToLicenseFile);
 
// Analizar la plantilla y cargarla en un objeto que se utilizará más adelante.
Template template = Pdf2DataExtractor.parseTemplateFromPDF(pathToPdfTemplate);
 
// Crear una instancia de Pdf2DataExtractor para la plantilla analizada.
Pdf2DataExtractor extractor = new Pdf2DataExtractor(template);
 
// Alimentar el archivo a analizar con la plantilla. Se puede ejecutar varias veces cuando hay múltiples archivos.
ParsingResult result = extractor.recognize(pathToFileToParse);
 
// Guardar el resultado en XML o explorar el objeto ParsingResult para consultar la información mediante programación.
result.saveToXML(pathToOutXmlFile);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
// Asegurarse de cargar el archivo de licencia antes de ejecutar ningún código.
LicenseKey.LoadLicenseFile(pathToLicenseFile);
 
// Analizar la plantilla y cargarla en un objeto que se utilizará más adelante.
Template template = Pdf2DataExtractor.ParseTemplateFromPDF(pathToPdfTemplate);
 
// Crear una instancia de Pdf2DataExtractor para la plantilla analizada.
Pdf2DataExtractor extractor = new Pdf2DataExtractor(template);
 
// Alimentar el archivo a analizar con la plantilla. Se puede ejecutar varias veces cuando hay múltiples archivos.
ParsingResult result = extractor.Recognize(pathToFileToParse);
 
// Guardar el resultado en XML o explorar el objeto ParsingResult para consultar la información mediante programación.
result.SaveToXML(pathToOutXmlFile);

Creación de plantillas

En primer lugar, cree una plantilla PDF basada en un documento de muestra, definiendo selectores por medio de áreas de interés y reglas de selección. Para ello, puede utilizar el intuitivo editor de plantillas pdf2Data, que ofrecemos como aplicación web:

Ejemplo de pdf2Data

Beneficios

¿Por qué usar iText 7 pdf2Data?

Los datos son un producto básico importante, y puede tener más de lo que cree dentro de sus documentos PDF.

Por supuesto, la recopilación de estos datos de forma manual le tomaría mucho tiempo y aumentaría el riesgo de errores de entrada y problemas de seguridad.

Con pdf2Data puede automatizar el proceso de extracción de datos de forma segura.

 

pdf2Data icon svg
Extracción automática de datos de facturas y documentos en PDF

Extrae y procesa datos de una gran cantidad de PDF al definir la información que es importante para usted en una plantilla y sacarla automáticamente con programación en Java y .NET. 

pdf2Data icon svg
Definición de las partes de información específicas que quiere extraer

Defina rápidamente la información que desea extraer en una plantilla con el editor de plantillas pdf2Data. Como, por ejemplo, el campo de dirección que siempre está en la esquina superior derecha de sus facturas en PDF.

pdf2Data icon svg
Integración en sus procesos de documentos existentes

pdf2Data utiliza estándares abiertos para facilitar la integración, por lo que la integración a los flujos de trabajo existentes se vuelve fácil y rápida. Incluye SDK para Java y .NET, así como una interfaz de línea de comando.

Características clave

Capacidades esenciales de iText 7 pdf2data

pdf2Data permite definir áreas, tipos de letra, patrones o tablas de interés en una plantilla que luego se utilizará para generar los archivos PDF que deban tener el mismo formato, como facturas u otros documentos comerciales.

A continuación, puede definir las áreas de interés con los selectores.

Cada selector utiliza una forma diferente de identificar la información que es importante y puede usarse en conjunto o por sí solo para satisfacer sus necesidades. 

iText
Extraiga datos de documentos PDF

Aproveche la extracción de contenido de iText 7 Core para un proceso de reconocimiento de texto e imágenes de alta fidelidad.

iText
Configuración de extracción intuitiva

Este complemento tiene una funcionalidad integral lista para usar, con la flexibilidad para ampliar y personalizar. Enfoque en la fácil integración y los estándares abiertos.

iText
Use plantillas para agilizar la extracción

Defina áreas de interés y reglas de selección para obtener exactamente el contenido que necesita.

iText
Integración con su flujo de trabajo de datos o PDF

Salida de datos en un formato estructurado y reutilizable para su posterior procesamiento, con acceso a las coordenadas de página del contenido extraído.

iText DITO, a data-driven template-based PDF generator

Now you’ve got data extraction through templating done and dusted, are you interested in a template-based solution for PDF creation from data?

Imagen
iText DITO invoice template
Contacto

¿Aún tiene preguntas? 

Estamos encantados de responder a sus preguntas. Comuníquese con nosotros y le responderemos a la brevedad.

Contáctenos
Manténgase actualizado

Únase a más de 11,000 suscriptores y conviértase en un experto en iText PDF al mantenerse al día con nuestros nuevos productos, actualizaciones, consejos, soluciones técnicas y eventos.

Suscríbase ahora