pdfOCR

Einführung

iText 7 pdfOCR

iText pdfOCR bietet eine optische Zeichenerkennungsfunktionalität, mit der Ihre gescannten Dokumente, PDFs und Bilder in vollständig ISO-konforme PDF- oder PDF/A-3u-Dateien konvertiert werden können. Auf diese Weise ist es möglich, auf den darin enthaltenen Text zuzugreifen und ihn zu verarbeiten. 

Jeden Tag erhalten wir gescannte Dokumente oder Bilder mit Unmengen an gedrucktem Text. Aber ohne maschinenlesbaren Text kann der Inhalt nicht bearbeitet, durchsucht, indexiert oder verarbeitet werden.

Wie es funktioniert

Hier sehen Sie, wie einfach es ist, eine Liste von Bildern per OCR zu erkennen und eine PDF-Datei zu erstellen!

Vergessen Sie nicht, den Pfad zu Ihren lokalen Tesseract-Datendateien mit TESS_DATA_FOLDER im untenstehenden Code anzugeben. Die am genauesten trainierten LSTM-Modelle finden Sie immer hier.

import com.itextpdf.kernel.pdf.PdfWriter; import com.itextpdf.pdfocr.OcrPdfCreator; import com.itextpdf.pdfocr.tesseract4.Tesseract4LibOcrEngine; import com.itextpdf.pdfocr.tesseract4.Tesseract4OcrEngineProperties; import java.io.File; import java.io.IOException; import java.util.Arrays; import java.util.List; public class JDoodle { static final Tesseract4OcrEngineProperties tesseract4OcrEngineProperties = new Tesseract4OcrEngineProperties(); private static List LIST_IMAGES_OCR = Arrays.asList(new File("invoice_front.jpg")); private static String OUTPUT_PDF = "/myfiles/hello.pdf"; public static void main(String[] args) throws IOException { final Tesseract4LibOcrEngine tesseractReader = new Tesseract4LibOcrEngine(tesseract4OcrEngineProperties); tesseract4OcrEngineProperties.setPathToTessData(new File(TESS_DATA_FOLDER)); OcrPdfCreator ocrPdfCreator = new OcrPdfCreator(tesseractReader); try (PdfWriter writer = new PdfWriter(OUTPUT_PDF)) { ocrPdfCreator.createPdf(LIST_IMAGES_OCR, writer).close(); } } }
using System.Collections.Generic; using System.IO; using System.Collections; using iText.Kernel.Pdf; using iText.Pdfocr; using iText.Pdfocr.Tesseract4; private static readonly Tesseract4OcrEngineProperties tesseract4OcrEngineProperties = new Tesseract4OcrEngineProperties(); public class Program { private static string OUTPUT_PDF = "/myfiles/hello.pdf"; private static IList LIST_IMAGES_OCR = new ArrayList { new FileInfo("invoice_front.jpg") }; static void Main() { { var tesseractReader = new Tesseract4LibOcrEngine(tesseract4OcrEngineProperties); tesseract4OcrEngineProperties.SetPathToTessData(new FileInfo(TESS_DATA_FOLDER)); var ocrPdfCreator = new OcrPdfCreator(tesseractReader); using (var writer = new PdfWriter(OUTPUT_PDF)) { ocrPdfCreator.CreatePdf(LIST_IMAGES_OCR, writer).Close(); } } }
Vorteile

Warum iText 7 pdfOCR verwenden?

Eine der größten Herausforderungen bei der Dokumentenverwaltung ist der Umgang mit unzugänglichen Daten, Daten, die in nicht bearbeitbaren Dokumenten eingeschlossen sind. Das Scannen eines Dokuments, das gedruckten Text enthält, macht es nicht editierbar oder durchsuchbar. Sie haben lediglich ein gescanntes Bild des Inhalts.

Optische Zeichenerkennung (OCR) kann helfen, diese Daten zu entsperren. Einer der häufigsten Anwendungsfälle für OCR ist die Erstellung von Dokumenten, die durchsucht, verarbeitet oder archiviert werden können. Zwar bieten einige Textverarbeitungs- und PDF-Anwendungen inzwischen OCR-Funktionalität an, um PDFs bearbeitbar zu machen, aber dies manuell für mehr als nur einige wenige Dokumente zu tun, ist unpraktisch.

iText pdfOCR bietet eine Möglichkeit, den OCR-Prozess zu automatisieren und in Dokument-Workflows zu integrieren.

pdfOCR+ icon svg
Erschließen Sie das Potenzial elektronisch archivierter Dateien.

  • Nützliches Werkzeug, wenn Sie mit vielen handschriftlichen oder maschinell gedruckten Dateien mit wertvollen Informationen in Berührung kommen.
  • Perfekt für den Einsatz in Branchen wie Banken, Finanzen, Behörden, Versicherungen, Gesundheitswesen, Telekommunikation und der Fremdbeschaffung von Geschäftsprozessen.

pdfOCR+ icon svg
Lösung für das Gesundheitswesen

Ganze Patientenakten können durchsuchbar gemacht werden, einschließlich handschriftlicher Notizen.

pdfOCR+ icon svg
Nützliches Werkzeug für Akademiker, Historiker und Forscher

Analysieren Sie ihre Archive, da das Werkzeug vollständig in der Lage ist, historische Handschriften und Schriftfamilien zu verarbeiten.

Schlüsselfunktionen

Kernfähigkeiten von pdfOCR

Die Ausgabedatei kann als Text, als PDF, bestehend aus separaten Ebenen für die Quellbilddaten und einer Ebene, die den gesamten erkannten Text enthält, oder als reduziertes PDF mit zusammengefügten Ebenen konfiguriert werden. Wenn Sie Dokumente benötigen, die für die Langzeitarchivierung geeignet sein sollen, dann ist die Unterstützung der PDF/A-3u-Ausgabe ein zusätzlicher Bonus.

 

 

iText
Einfache API

  • Java-API ermöglicht die Integration in den bestehenden Workflow.
  • Nahtlose Integration mit iText Core 7.

iText
Leistungsstarke KI-basierte OCR

  • Kann sowohl maschinengeschriebenen, handbedruckten als auch handgeschriebenen Text transkribieren.
  • Macht Dokumente präziser auffindbar.
  • Nutzt maschinelles Lernen, um sich im Laufe der Zeit zu verbessern.

iText
Löst die häufigsten OCR-Herausforderungen

  • Kompatibel mit Bild- und PDF-Dateien.
  • Erstellt unsichtbare Textebenen, ohne das ursprüngliche Datei-Layout zu zerstören.
  • Erkennt alle Sprachen des lateinischen Alphabets.
  • Extrem schnell und skalierbar.
Kontakt

Haben Sie noch weitere Fragen? 

Gerne beantworten wir Ihre Fragen. Kontaktieren Sie uns und wir werden uns in Kürze mit Ihnen in Verbindung setzen.

Bitte kontaktieren Sie uns
Auf dem Laufenden bleiben

Melden Sie sich mit mehr als 11.000 Abonnenten an und werden Sie ein iText PDF-Experte, indem Sie sich über unsere neuen Produkte, Updates, Tipps, technischen Lösungen und Veranstaltungen informieren.

Abonniere jetzt