pdf2Data

Introduction

iText 7 pdf2Data pour le traitement des PDF

pdf2Data est un module complémentaire d’iText 7 pour Java et C# (.NET) qui vous permet d’extraire facilement des données à partir de documents PDF.

Il offre un cadre pour reconnaître les données dans les documents PDF, en fonction de règles de sélection que vous définissez dans un modèle.

How iText pdf2Data works

Many PDF documents businesses need to process, such as registration forms, invoices etc. follow a common structure. If we take the example of an invoice document, addresses, purchase order numbers and similar document elements tend to be located in one place, and only the content such as item descriptions, quantities and cost of items change from invoice to invoice.

iText pdf2Data offers an easy way to extract data from such PDF documents by defining areas and rules in a template which correspond to the content you want to extract. The template can then be visually validated with other documents to confirm data is recognized correctly, before being parsed by the pdf2Data SDK to process all subsequent documents matching that template.

Unlike AI-based alternatives, you don’t need hundreds of samples and intensive supervision to train the recognition process. The content recognition is controlled by the template you configure, meaning no training is required before you can begin extracting data. You only need one example document to enable data extraction from all subsequent documents.

AI recognition has other disadvantages too. Any changes to the required output (such as adding a new field) will require models to be retrained, and multiple language support is minimal at best. Documents using the same layout but containing content in different languages can give wildly inconsistent results.

iText pdf2Data on the other hand suffers from none of these drawbacks. Making modifications to templates is quick and easy, and it offers excellent language support.

Using the pdf2Data template creator

By using the intuitive browser-based pdf2Data template creator, it’s easy to create a template for data extraction. Simply create a template PDF based on a sample document, by defining selectors for areas of interest. Selectors are configurable rules to detect different types of content for extraction.

Many selectors are available to define, including Date, Time, Image, Barcode, Table, Price etc. enabling pdf2Data to intelligently recognize and extract data and other content. The selectors can be configured to detect:

  • page range and the position on the page
  • specific font styles, font color, and text patterns
  • fixed keywords next to the data
  • automatic recognition of table structures

Defining selectors in the pdf2Data template creator

The pdf2Data template creator was designed to allow non-developers such as business users or functional analysts to define and modify templates as required, enabling more collaborative workflows.

Want to try it out? We have an online demo of pdf2Data to test with an example document, or one you upload yourself.

The recognition process is based on the following steps:

Step 1. Upload a sample PDF document (this will become our template).
Step 2. Select data in the document you would like to extract and define relevant extraction rules (selectors) for the correct data extraction.
Step 3. Upload any other PDF document based on the same template and confirm your data was recognized correctly.
Step 4. Start using the template in the pdf2Data server-side component. You can integrate it into your document workflow as a Java or .NET library, or as a command-line application, enabling you to process potentially millions of documents with ease.

Fonctionnement

Voyez vous-même l’exemple ci-dessous grâce à la démonstration en ligne :

Extraction de données

[numérotée]
// Veillez à charger le fichier de licence avant d’appeler tout code.
LicenseKey.loadLicenseFile(pathToLicenseFile);

// Analysez le modèle dans un objet qui sera utilisé plus tard.
Template template = Pdf2DataExtractor.parseTemplateFromPDF(pathToPdfTemplate);

// Créez une instance de Pdf2DataExtractor pour le modèle analysé
Pdf2DataExtractor extractor = new Pdf2DataExtractor(template);

// Chargez le fichier à analyser par rapport au modèle. Il peut être appelé plusieurs fois pour différents fichiers.
ParsingResult result = extractor.recognize(pathToFileToParse);

// Enregistrez le résultat au format XML ou explorez l’objet ParsingResult pour recueillir des informations du point de vue de la programmation.
result.saveToXML(pathToOutXmlFile);
[/numérotée]
[numérotée]
// Veillez à charger le fichier de licence avant d’appeler tout code.
LicenseKey.LoadLicenseFile(pathToLicenseFile);

// Analysez le modèle dans un objet qui sera utilisé plus tard.
Template template = Pdf2DataExtractor.ParseTemplateFromPDF(pathToPdfTemplate);

// Créez une instance de Pdf2DataExtractor pour le modèle analysé.
Pdf2DataExtractor extractor = new Pdf2DataExtractor(template);

// Chargez le fichier à analyser par rapport au modèle. Peut être appelé plusieurs fois pour différents dossiers.
ParsingResult result = extractor.Recognize(pathToFileToParse);

// Enregistrez le résultat au format XML ou explorez
l’objet ParsingResult pour recueillir des informations du point de vue de la programmation.
result.SaveToXML(pathToOutXmlFile);[/numérotée]

Création d’un modèle

Créez d’abord un modèle PDF à partir d’un document type, en définissant des sélecteurs à l’aide de domaines d’intérêt et de règles de sélection. Vous pouvez le faire à l’aide de l’éditeur de modèles intuitif pdf2Data, qui est offert sous forme d’application Web :

Exemple de pdf2Data

Avantages

Pourquoi utiliser iText 7 pdfData ?

Les données sont une marchandise importante et vos documents PDF peuvent renfermer plus de valeur que vous l'imaginez.

Bien entendu, la collecte manuelle de ces données vous prendrait beaucoup de temps et augmenterait le risque d'erreurs de saisie et de problèmes de sécurité.

Avec pdf2Data, vous pouvez automatiser le processus d'extraction des données de manière sécurisée.

 

pdf2Data icon svg
Automatisez l'extraction de données à partir de vos factures et documents en PDF

Extrayez et traitez les données de grandes quantités de PDF en définissant les informations qui vous intéressent dans un modèle et en les extrayant automatiquement lors de la programmation en Java et .NET. 

pdf2Data icon svg
Définissez précisément les parties de données que vous souhaitez extraire

Définissez rapidement les informations que vous souhaitez extraire dans un modèle avec l’éditeur de modèles pdf2Data. Par exemple : le champ d'adresse qui se trouve toujours dans le coin supérieur droit de vos factures en PDF.

pdf2Data icon svg
Le système s'intègre dans vos processus documentaires existants

pdf2Data utilise des normes libres de droit pour une intégration facile et rapide aux flux de travail existants. Il comprend des SDK pour Java et .NET, ainsi qu'une interface de ligne de commande.

Principales fonctionnalités

Principales fonctionnalités d'iText 7 pdfData

pdf2Data fonctionne en définissant les zones, les polices, les motifs ou les tableaux d’intérêt dans un modèle qui est utilisé pour tous les PDF créés au même format, tels qu’une facture ou d’autres documents commerciaux.

Vous pouvez ensuite définir des zones d’intérêt à l'aide de sélecteurs.

Chaque sélecteur utilise une manière différente d’identifier les informations importantes et peut être utilisé conjointement ou seul en fonction de vos besoins. 

iText
Extraire des données de documents PDF

Exploitez l'extraction du contenu d'iText 7 Core pour un processus de reconnaissance haute fidélité du texte et des images.

iText
Configuration d'extraction intuitive

Ce module complémentaire a une fonctionnalité complète prête à l'emploi, avec des possibilités d'extension et de personnalisation. Concentrez-vous sur une intégration facile et des normes libres de droits.

iText
Utilisation de modèles pour rationaliser l'extraction

Définissez les zones d'intérêt et les règles de sélection pour obtenir exactement le contenu dont vous avez besoin.

iText
Intégration dans votre flux de travail PDF et/ou de données

Sortez des données dans un format structuré et réutilisable pour un traitement ultérieur, avec accès aux coordonnées de page du contenu extrait.

iText DITO, a data-driven template-based PDF generator

Now you’ve got data extraction through templating done and dusted, are you interested in a template-based solution for PDF creation from data?

Image
iText DITO invoice template
Contact

Vous avez d'autres questions ?

Nous y répondrons avec plaisir. Contactez-nous et nous reviendrons vers vous sous peu.

Contactez-nous
Restez à jour

Rejoignez plus de 11 000 abonnés et devenez un expert iText PDF en vous tenant au courant de nos nouveaux produits, mises à jour, conseils, solutions techniques et événements.

Abonnez-vous