pdf2Data

Einführung

iText 7 pdf2Data für die PDF-Verarbeitung

pdf2Data ist ein iText 7-Add-On für Java und C# (.NET), mit dem Sie auf einfache Weise Daten aus PDF-Dokumenten extrahieren können.

Es bietet einen Rahmen zur Erkennung von Daten in PDF-Dokumenten, basierend auf Auswahlregeln, die Sie in einer Vorlage definieren.

How iText pdf2Data works

Many PDF documents businesses need to process, such as registration forms, invoices etc. follow a common structure. If we take the example of an invoice document, addresses, purchase order numbers and similar document elements tend to be located in one place, and only the content such as item descriptions, quantities and cost of items change from invoice to invoice.

iText pdf2Data offers an easy way to extract data from such PDF documents by defining areas and rules in a template which correspond to the content you want to extract. The template can then be visually validated with other documents to confirm data is recognized correctly, before being parsed by the pdf2Data SDK to process all subsequent documents matching that template.

Unlike AI-based alternatives, you don’t need hundreds of samples and intensive supervision to train the recognition process. The content recognition is controlled by the template you configure, meaning no training is required before you can begin extracting data. You only need one example document to enable data extraction from all subsequent documents.

AI recognition has other disadvantages too. Any changes to the required output (such as adding a new field) will require models to be retrained, and multiple language support is minimal at best. Documents using the same layout but containing content in different languages can give wildly inconsistent results.

iText pdf2Data on the other hand suffers from none of these drawbacks. Making modifications to templates is quick and easy, and it offers excellent language support.

Using the pdf2Data template creator

By using the intuitive browser-based pdf2Data template creator, it’s easy to create a template for data extraction. Simply create a template PDF based on a sample document, by defining selectors for areas of interest. Selectors are configurable rules to detect different types of content for extraction.

Many selectors are available to define, including Date, Time, Image, Barcode, Table, Price etc. enabling pdf2Data to intelligently recognize and extract data and other content. The selectors can be configured to detect:

  • page range and the position on the page
  • specific font styles, font color, and text patterns
  • fixed keywords next to the data
  • automatic recognition of table structures

Defining selectors in the pdf2Data template creator

The pdf2Data template creator was designed to allow non-developers such as business users or functional analysts to define and modify templates as required, enabling more collaborative workflows.

Want to try it out? We have an online demo of pdf2Data to test with an example document, or one you upload yourself.

The recognition process is based on the following steps:

Step 1. Upload a sample PDF document (this will become our template).
Step 2. Select data in the document you would like to extract and define relevant extraction rules (selectors) for the correct data extraction.
Step 3. Upload any other PDF document based on the same template and confirm your data was recognized correctly.
Step 4. Start using the template in the pdf2Data server-side component. You can integrate it into your document workflow as a Java or .NET library, or as a command-line application, enabling you to process potentially millions of documents with ease.

Wie es funktioniert

Versuchen Sie selbst das untenstehende Beispiel mit der Online-Demo:

Datenextraktion

1
2
3
4
5
6
7
8
9
10
11
12
// Stellen Sie sicher, dass Sie die Lizenzdatei laden, bevor Sie einen Code aufrufen⏎LicenseKey.loadLicenseFile(pathToLicenseFile);
 
// Vorlage in ein Objekt parsen, das später verwendet werden soll auf
Template template = Pdf2DataExtractor.parseTemplateFromPDF(pathToPdfTemplate);
 
// Erstellen Sie eine Instanz von Pdf2DataExtractor für die geparste Vorlage
Pdf2DataExtractor extractor = new Pdf2DataExtractor(template);
 
// Feed-Datei, die gegen die Vorlage geparst werden soll. Kann mehrfach für verschiedene Dateien aufgerufen werden
ParsingResult result = extractor.recognize(pathToFileToParse);
 
// Ergebnis in XML speichern oder das ParsingResult-Objekt untersuchen, um Informationen programmgesteuert abzurufen⏎result.saveToXML(pathToOutXmlFile);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
// Stellen Sie sicher, dass Sie die Lizenzdatei laden, bevor Sie einen Code aufrufen
LicenseKey.LoadLicenseFile(pathToLicenseFile);
 
// Vorlage in ein Objekt parsen, das später verwendet werden soll auf
Template template = Pdf2DataExtractor.ParseTemplateFromPDF(pathToPdfTemplate);
 
// Erstellen Sie eine Instanz von Pdf2DataExtractor für die geparste Vorlage
Pdf2DataExtractor extractor = new Pdf2DataExtractor(template);
 
// Feed-Datei, die gegen die Vorlage geparst werden soll. Kann mehrfach für verschiedene Dateien aufgerufen werden
ParsingResult result = extractor.Recognize(pathToFileToParse);
 
// Ergebnis in XML speichern oder das ParsingResult-Objekt untersuchen, um Informationen programmgesteuert abzurufen
result.SaveToXML(pathToOutXmlFile);

Vorlagenerstellung

Erstellen Sie zunächst eine PDF-Vorlage auf der Grundlage eines Beispieldokuments, indem Sie Selektoren anhand von Interessengebieten und Auswahlregeln definieren. Dies kann über den intuitiven pdf2Data-Vorlageneditor erfolgen, der als Webanwendung angeboten wird:

pdf2Data-Beispiel

Vorteile

Warum iText 7 pdf2Data verwenden?

Daten sind ein wichtiges Gut, und Sie haben vielleicht mehr, als Sie in Ihren PDF-Dokumenten erkennen.

Natürlich würde die manuelle Erfassung dieser Daten viel Zeit in Anspruch nehmen und das Risiko von Eingabefehlern sowie Sicherheitsproblemen erhöhen.

Mit pdf2Data können Sie den Prozess der sicheren Datenextraktion automatisieren.

 

pdf2Data icon svg
Automatisieren Sie die Datenextraktion aus PDF-Rechnungen und -Dokumenten.

Extrahieren und verarbeiten Sie Daten aus großen Mengen von PDFs, indem Sie die für Sie wichtigen Informationen in einer Vorlage definieren und diese mit der  Programmierung in Java und .NET automatisch herausziehen. 

pdf2Data icon svg
Definieren Sie, welche spezifischen Datenteile Sie extrahieren möchten.

Definieren Sie mit dem pdf2Data-Vorlageneditor schnell die gewünschten Informationen, die Sie in einer Vorlage extrahieren möchten. Zum Beispiel das Adressfeld, das sich immer in der rechten oberen Ecke Ihrer PDF-Rechnungen befindet.

pdf2Data icon svg
Integration in Ihre bestehenden Dokumentenprozesse

pdf2Data verwendet offene Standards, um die Integration zu erleichtern, was die Integration in bestehende Workflows einfach und schnell macht. Es enthält SDKs für Java und .NET sowie eine Befehlszeilenschnittstelle.

Schlüsselfunktionen

Kernfunktionen von iText 7 pdf2data

pdf2Data arbeitet, indem es die Bereiche, Schriftarten, Muster oder Tabellen von Interesse in einer Vorlage definiert, die für alle PDFs verwendet wird, die im gleichen Format erstellt werden, wie z. B. eine Rechnung oder andere Geschäftspapiere.

Anschließend können Sie mit Selektoren Bereiche von Interesse definieren.

Jeder Selektor verwendet eine andere Art und Weise, um die wichtigen Informationen zu identifizieren, die in Verbindung oder allein verwendet werden können, um Ihren Bedürfnissen gerecht zu werden. 

iText
Daten aus PDF-Dokumenten extrahieren

Nutzen der Inhaltextraktion für einen hochpräzisen Erkennungsprozess von Text und Bildern.

iText
Intuitive Konfiguration der Extraktion

Dieses Add-on verfügt über eine umfassende, sofort einsatzfähige Funktionalität mit der Flexibilität, es zu erweitern und anzupassen. Fokus auf einfache Integration und offene Standards.

iText
Vorlagen verwenden, um die Extraktion zu optimieren.

Interessengebiete und Auswahlregeln definieren, um genau die Inhalte zu erhalten, die Sie benötigen.

iText
Integration in Ihren PDF- und/oder Daten-Workflow

Datenausgabe in einem strukturierten, wiederverwendbaren Format zur Weiterverarbeitung mit Zugriff auf die Seitenkoordinaten des extrahierten Inhalts.

iText DITO, a data-driven template-based PDF generator

Now you’ve got data extraction through templating done and dusted, are you interested in a template-based solution for PDF creation from data?

Bild
iText DITO invoice template
Kontakt

Haben Sie noch weitere Fragen? 

Gerne beantworten wir Ihre Fragen. Kontaktieren Sie uns und wir werden uns in Kürze mit Ihnen in Verbindung setzen.

Bitte kontaktieren Sie uns
Auf dem Laufenden bleiben

Melden Sie sich mit mehr als 11.000 Abonnenten an und werden Sie ein iText PDF-Experte, indem Sie sich über unsere neuen Produkte, Updates, Tipps, technischen Lösungen und Veranstaltungen informieren.

Abonniere jetzt