pdfOCR+

How it works

Take a look at how easy it is to OCR a list of images and create a PDF file!

Don't forget to specify the path to your local Tesseract Data files using TESS_DATA_FOLDER in the code below. You can always find the most accurate trained LSTM models here.

import com.itextpdf.kernel.pdf.PdfWriter; import com.itextpdf.pdfocr.OcrPdfCreator; import com.itextpdf.pdfocr.tesseract4.Tesseract4LibOcrEngine; import com.itextpdf.pdfocr.tesseract4.Tesseract4OcrEngineProperties; import java.io.File; import java.io.IOException; import java.util.Arrays; import java.util.List; public class JDoodle { static final Tesseract4OcrEngineProperties tesseract4OcrEngineProperties = new Tesseract4OcrEngineProperties(); private static List LIST_IMAGES_OCR = Arrays.asList(new File("invoice_front.jpg")); private static String OUTPUT_PDF = "/myfiles/hello.pdf"; public static void main(String[] args) throws IOException { final Tesseract4LibOcrEngine tesseractReader = new Tesseract4LibOcrEngine(tesseract4OcrEngineProperties); tesseract4OcrEngineProperties.setPathToTessData(new File(TESS_DATA_FOLDER)); OcrPdfCreator ocrPdfCreator = new OcrPdfCreator(tesseractReader); try (PdfWriter writer = new PdfWriter(OUTPUT_PDF)) { ocrPdfCreator.createPdf(LIST_IMAGES_OCR, writer).close(); } } }
using System.Collections.Generic; using System.IO; using iText.Kernel.Pdf; using iText.Pdfocr; using iText.Pdfocr.Tesseract4; private static readonly Tesseract4OcrEngineProperties tesseract4OcrEngineProperties = new Tesseract4OcrEngineProperties(); public class Program { private static string OUTPUT_PDF = "/myfiles/hello.pdf"; private static IList LIST_IMAGES_OCR = new List { new FileInfo("invoice_front.jpg") }; static void Main() { { var tesseractReader = new Tesseract4LibOcrEngine(tesseract4OcrEngineProperties); tesseract4OcrEngineProperties.SetPathToTessData(new FileInfo(TESS_DATA_FOLDER)); var ocrPdfCreator = new OcrPdfCreator(tesseractReader); using (var writer = new PdfWriter(OUTPUT_PDF)) { ocrPdfCreator.CreatePdf(LIST_IMAGES_OCR, writer).Close(); } } }
Vorteile

Warum iText 7 pdfOCR+ verwenden?

Gedruckte Dokumente enthalten eine Fülle von Informationen. In Dateien wie gedruckten Rechnungen oder Formularen befinden sich strukturierte Daten, die von der Software verarbeitet werden müssen. Selbst PDF-Scans sind nicht leicht zu lesen, so dass der Inhalt dieser Dokumente oft manuell transkribiert werden muss. Gleiches gilt für schriftliche Unterlagen wie Versicherungsansprüche, Zeugenberichte oder Beschwerdebriefe. Um diese Art von Dokumenten einfach und schnell in einen automatisierten digitalen Workflow einzufügen, müssen sie zuverlässig und automatisch transkribiert werden.

pdfOCR+ icon svg
Erschließen Sie das Potenzial elektronisch archivierter Dateien.

  • Nützliches Werkzeug, wenn Sie mit vielen handschriftlichen oder maschinell gedruckten Dateien mit wertvollen Informationen in Berührung kommen.
  • Perfekt für den Einsatz in Branchen wie Banken, Finanzen, Behörden, Versicherungen, Gesundheitswesen, Telekommunikation und der Fremdbeschaffung von Geschäftsprozessen.

pdfOCR+ icon svg
Lösung für das Gesundheitswesen

Ganze Patientenakten können durchsuchbar gemacht werden, einschließlich handschriftlicher Notizen.

pdfOCR+ icon svg
Nützliches Werkzeug für Akademiker, Historiker und Forscher

Analysieren Sie ihre Archive, da das Werkzeug vollständig in der Lage ist, historische Handschriften und Schriftfamilien zu verarbeiten.

Schlüsselfunktionen

Kernfähigkeiten von pdfOCR+

pdfOCR+ fügt eine unsichtbare Textebene zu einem reinen PDF-Bild hinzu. Es enthält die Transkription des Textes, der maschinell kopiert und ausgewertet werden kann. Erleichtert das Auffinden und Verwenden von Dokumenten in der Geschäfts- und Prozessautomatisierung.

iText
Einfache API

  • Java-API ermöglicht die Integration in den bestehenden Workflow.
  • Nahtlose Integration mit iText Core 7.

iText
Leistungsstarke KI-basierte OCR

  • Kann sowohl maschinengeschriebenen, handbedruckten als auch handgeschriebenen Text transkribieren.
  • Macht Dokumente präziser auffindbar.
  • Nutzt maschinelles Lernen, um sich im Laufe der Zeit zu verbessern.

iText
Löst die häufigsten OCR-Herausforderungen

  • Kompatibel mit Bild- und PDF-Dateien.
  • Erstellt unsichtbare Textebenen, ohne das ursprüngliche Datei-Layout zu zerstören.
  • Erkennt alle Sprachen des lateinischen Alphabets.
  • Extrem schnell und skalierbar.
Kontakt

Haben Sie noch weitere Fragen? 

Gerne beantworten wir Ihre Fragen. Kontaktieren Sie uns und wir werden uns in Kürze mit Ihnen in Verbindung setzen.

Bitte kontaktieren Sie uns
Auf dem Laufenden bleiben

Melden Sie sich mit mehr als 11.000 Abonnenten an und werden Sie ein iText PDF-Experte, indem Sie sich über unsere neuen Produkte, Updates, Tipps, technischen Lösungen und Veranstaltungen informieren.

Abonniere jetzt