pdfOCR+

How it works

Take a look at how easy it is to OCR a list of images and create a PDF file!

Don't forget to specify the path to your local Tesseract Data files using TESS_DATA_FOLDER in the code below. You can always find the most accurate trained LSTM models here.

import com.itextpdf.kernel.pdf.PdfWriter; import com.itextpdf.pdfocr.OcrPdfCreator; import com.itextpdf.pdfocr.tesseract4.Tesseract4LibOcrEngine; import com.itextpdf.pdfocr.tesseract4.Tesseract4OcrEngineProperties; import java.io.File; import java.io.IOException; import java.util.Arrays; import java.util.List; public class JDoodle { static final Tesseract4OcrEngineProperties tesseract4OcrEngineProperties = new Tesseract4OcrEngineProperties(); private static List LIST_IMAGES_OCR = Arrays.asList(new File("invoice_front.jpg")); private static String OUTPUT_PDF = "/myfiles/hello.pdf"; public static void main(String[] args) throws IOException { final Tesseract4LibOcrEngine tesseractReader = new Tesseract4LibOcrEngine(tesseract4OcrEngineProperties); tesseract4OcrEngineProperties.setPathToTessData(new File(TESS_DATA_FOLDER)); OcrPdfCreator ocrPdfCreator = new OcrPdfCreator(tesseractReader); try (PdfWriter writer = new PdfWriter(OUTPUT_PDF)) { ocrPdfCreator.createPdf(LIST_IMAGES_OCR, writer).close(); } } }
using System.Collections.Generic; using System.IO; using iText.Kernel.Pdf; using iText.Pdfocr; using iText.Pdfocr.Tesseract4; private static readonly Tesseract4OcrEngineProperties tesseract4OcrEngineProperties = new Tesseract4OcrEngineProperties(); public class Program { private static string OUTPUT_PDF = "/myfiles/hello.pdf"; private static IList LIST_IMAGES_OCR = new List { new FileInfo("invoice_front.jpg") }; static void Main() { { var tesseractReader = new Tesseract4LibOcrEngine(tesseract4OcrEngineProperties); tesseract4OcrEngineProperties.SetPathToTessData(new FileInfo(TESS_DATA_FOLDER)); var ocrPdfCreator = new OcrPdfCreator(tesseractReader); using (var writer = new PdfWriter(OUTPUT_PDF)) { ocrPdfCreator.CreatePdf(LIST_IMAGES_OCR, writer).Close(); } } }
Beneficios

¿Por qué usar iText 7 pdfOCR+?

Los documentos impresos contienen una gran cantidad de información. Los archivos como facturas o formularios impresos contienen datos estructurados que deben procesarse mediante software. Incluso los escaneados de PDF no se pueden leer fácilmente, lo que significa que el contenido de estos documentos a menudo se debe transcribir manualmente. Lo mismo ocurre con los documentos escritos, como reclamos de seguros, informes de testigos o cartas de reclamo. Para insertar fácil y rápidamente estos tipos de documentos en un flujo de trabajo digital automatizado, deben transcribirse de forma confiable y automática.

pdfOCR+ icon svg
Libera el potencial de documentos archivados electrónicamente

  • Herramienta útil para trabajar con una gran cantidad de archivos escritos a mano o a máquina que contienen información valiosa.
  • Ideal para usar en áreas como banca,  finanzas, gobierno, seguros, atención de salud, telecomunicaciones y subcontratación de procesos comerciales.

pdfOCR+ icon svg
Solución para la industria de la atención de salud

Ofrece una capacidad de búsqueda para todo el registro del paciente, incluidas las notas escritas a mano.

pdfOCR+ icon svg
Herramienta útil para profesionales académicos, historiadores e investigadores

La herramienta analiza sus archivos, ya que es completamente capaz de procesar la escritura a mano y las  fuentes.

Características clave

Capacidades esenciales de pdfOCR+

pdfOCR+ agrega una capa de texto invisible a un PDF de solo imágenes. Contiene la transcripción del texto, que una máquina puede copiar y evaluar. Hace que los documentos sean más fáciles de encontrar y utilizar en la automatización de procesos y negocios.

iText
API simple

  • La API de Java permite la integración en el flujo de trabajo existente.
  • Se integra perfectamente con iText Core 7.

iText
Potente OCR basado en IA

  • Puede transcribir texto escrito a máquina, escrito en letra imprenta y escrito a mano.
  • Cree documentos a los que se pueda acceder con mayor precisión.
  • Utiliza el aprendizaje automático para mejorar con el tiempo.

iText
Resuelva los desafíos más comunes de OCR

  • Compatible con archivos de imagen y PDF.
  • Crea una capa de texto invisible sin destruir el diseño del archivo original.
  • Reconoce todos los idiomas del alfabeto latino.
  • Extremadamente rápido y escalable.
Contacto

¿Aún tiene preguntas? 

Estamos encantados de responder a sus preguntas. Comuníquese con nosotros y le responderemos a la brevedad.

Contáctenos
Manténgase actualizado

Únase a más de 11,000 suscriptores y conviértase en un experto en iText PDF al mantenerse al día con nuestros nuevos productos, actualizaciones, consejos, soluciones técnicas y eventos.

Suscríbase ahora