iText 7 pdf2Data para el procesamiento de PDF
pdf2Data es un complemento de iText 7 para Java y C# (.NET) que facilita la extracción de los datos contenidos en documentos PDF.
Ofrece un entorno que permite reconocer los datos existentes en documentos PDF siguiendo las reglas de selección que usted defina en una plantilla.
¿Por qué usar iText 7 pdf2Data?
Los datos son un producto básico importante, y puede tener más de lo que cree dentro de sus documentos PDF.
Por supuesto, la recopilación de estos datos de forma manual le tomaría mucho tiempo y aumentaría el riesgo de errores de entrada y problemas de seguridad.
Con pdf2Data puede automatizar el proceso de extracción de datos de forma segura.
Extracción automática de datos de facturas y documentos en PDF
Extrae y procesa datos de una gran cantidad de PDF al definir la información que es importante para usted en una plantilla y sacarla automáticamente con programación en Java y .NET.
Definición de las partes de información específicas que quiere extraer
Defina rápidamente la información que desea extraer en una plantilla con el editor de plantillas pdf2Data. Como, por ejemplo, el campo de dirección que siempre está en la esquina superior derecha de sus facturas en PDF.
Integración en sus procesos de documentos existentes
pdf2Data utiliza estándares abiertos para facilitar la integración, por lo que la integración a los flujos de trabajo existentes se vuelve fácil y rápida. Incluye SDK para Java y .NET, así como una interfaz de línea de comando.
Capacidades esenciales de iText 7 pdf2data
pdf2Data permite definir áreas, tipos de letra, patrones o tablas de interés en una plantilla que luego se utilizará para generar los archivos PDF que deban tener el mismo formato, como facturas u otros documentos comerciales.
A continuación, puede definir las áreas de interés con los selectores.
Cada selector utiliza una forma diferente de identificar la información que es importante y puede usarse en conjunto o por sí solo para satisfacer sus necesidades.
Extraiga datos de documentos PDF
Aproveche la extracción de contenido de iText 7 Core para un proceso de reconocimiento de texto e imágenes de alta fidelidad.
Configuración de extracción intuitiva
Este complemento tiene una funcionalidad integral lista para usar, con la flexibilidad para ampliar y personalizar. Enfoque en la fácil integración y los estándares abiertos.
Use plantillas para agilizar la extracción
Defina áreas de interés y reglas de selección para obtener exactamente el contenido que necesita.
Integración con su flujo de trabajo de datos o PDF
Salida de datos en un formato estructurado y reutilizable para su posterior procesamiento, con acceso a las coordenadas de página del contenido extraído.
What iText pdf2Data does
Many PDF documents businesses need to process, such as registration forms, invoices etc. follow a common structure. If we take the example of an invoice document, the invoice number, supplier address, purchase order number and similar document elements tend to be located in one place, and only the content such as item descriptions, quantities and cost of items change from invoice to invoice. By using an example invoice as a template, it is possible to define areas of the document where the data you want to capture is located and categorize it.
iText pdf2Data offers an easy way to extract data from such PDF documents by defining areas and rules in a template which correspond to the content you want to extract. The template can then be visually validated with other documents to confirm data is recognized correctly, before being parsed by the pdf2Data SDK to process all subsequent documents matching that template.
Unlike AI-based alternatives, you don’t need hundreds of samples and intensive supervision to train the recognition process. The content recognition is controlled by the template you configure, meaning no training is required before you can begin extracting data. You only need one example document to enable data extraction from all subsequent documents.
AI recognition has other disadvantages too. Any changes to the required output (such as adding a new field) will require models to be retrained, and multiple language support is minimal at best. Documents using the same layout but containing content in different languages can give wildly inconsistent results.
iText pdf2Data on the other hand suffers from none of these drawbacks. Making modifications to templates is quick and easy, and it offers excellent language support. It also provides powerful table recognition functionality, which is one of the primary shortcomings of other data extraction solutions.

How iText pdf2Data works
By using the intuitive browser-based pdf2Data Editor, it’s easy to create a template for data extraction. Simply create a template PDF based on a sample document, by defining data field selectors for areas of interest. Selectors are configurable rules to detect different types of content for extraction.
There are approximately two dozen selectors to choose from which enable iText pdf2Data to intelligently recognize and extract text, and other content such as images or barcodes. The selectors can be configured to detect:
- page range and the position on the page
- specific font styles, font color, and text patterns
- fixed keywords next to the data
- automatic recognition of table structures
In addition, many selectors can be combined to fine-tune the detection parameters.
Your extraction template will then be used to parse all future PDFs matching the template. Using the pdf2Data Editor, you can upload a document to test your extraction template and make sure the data field selectors are configured correctly to recognize the data you require.
Similar to our document generation solution iText DITO, iText pdf2Data allows anyone to leverage iText's powerful PDF capabilities, not just developers. It's simple to create or refine document templates to recognize and automatically extract data, which can then be easily reused by whoever needs it. By intelligently extracting data from documents in a smart and structured way, the data can easily be repurposed for analysis, reports, or whatever you want.
Developers are only needed to deploy the pdf2Data Editor and integrate the pdf2Data SDK into your document workflow. From then on, you can configure a template, verify the data, and set iText pdf2Data to work.
You can find installation instructions, tutorials, and detailed documentation for all data field selectors in our Knowledge Base.
Recursos
Aquí encontrará los recursos necesarios para instalar y utilizar pdf2Data.
Now you have the data extracted, insert it in a template-based solution
That's template-based data extraction done and dusted. Are you interested in a template-based, collaborative solution to create PDFs from data?
