pdfOCR

Introducción

iText 7 pdfOCR+

iText pdfOCR incorpora funciones de reconocimiento óptico de caracteres (OCR) para convertir imágenes, documentos y PDF escaneados en archivos PDF o PDF/A-3u totalmente compatibles con la norma ISO, haciendo posible acceder y procesar el texto que contienen. 

A diario recibimos documentos o imágenes escaneados que contienen cantidades notables de texto impreso. Sin embargo, al no ser directamente legible por máquina, este contenido textual no se puede editar, indexar ni procesar, por ejemplo, para realizar búsquedas.

Cómo funciona

Compruebe lo fácil que es aplicar OCR a una serie de imágenes y crear un archivo PDF a partir de ellas.

En el código siguiente, no olvide especificar la ruta local de sus archivos de datos Tesseract mediante el parámetro TESS_DATA_FOLDER. Aquí encontrará en cualquier momento los modelos LSTM entrenados más precisos.

import com.itextpdf.kernel.pdf.PdfWriter; import com.itextpdf.pdfocr.OcrPdfCreator; import com.itextpdf.pdfocr.tesseract4.Tesseract4LibOcrEngine; import com.itextpdf.pdfocr.tesseract4.Tesseract4OcrEngineProperties; import java.io.File; import java.io.IOException; import java.util.Arrays; import java.util.List; public class JDoodle { static final Tesseract4OcrEngineProperties tesseract4OcrEngineProperties = new Tesseract4OcrEngineProperties(); private static List LIST_IMAGES_OCR = Arrays.asList(new File("invoice_front.jpg")); private static String OUTPUT_PDF = "/myfiles/hello.pdf"; public static void main(String[] args) throws IOException { final Tesseract4LibOcrEngine tesseractReader = new Tesseract4LibOcrEngine(tesseract4OcrEngineProperties); tesseract4OcrEngineProperties.setPathToTessData(new File(TESS_DATA_FOLDER)); OcrPdfCreator ocrPdfCreator = new OcrPdfCreator(tesseractReader); try (PdfWriter writer = new PdfWriter(OUTPUT_PDF)) { ocrPdfCreator.createPdf(LIST_IMAGES_OCR, writer).close(); } } }
using System.Collections.Generic; using System.IO; using System.Collections; using iText.Kernel.Pdf; using iText.Pdfocr; using iText.Pdfocr.Tesseract4; private static readonly Tesseract4OcrEngineProperties tesseract4OcrEngineProperties = new Tesseract4OcrEngineProperties(); public class Program { private static string OUTPUT_PDF = "/myfiles/hello.pdf"; private static IList LIST_IMAGES_OCR = new ArrayList { new FileInfo("invoice_front.jpg") }; static void Main() { { var tesseractReader = new Tesseract4LibOcrEngine(tesseract4OcrEngineProperties); tesseract4OcrEngineProperties.SetPathToTessData(new FileInfo(TESS_DATA_FOLDER)); var ocrPdfCreator = new OcrPdfCreator(tesseractReader); using (var writer = new PdfWriter(OUTPUT_PDF)) { ocrPdfCreator.CreatePdf(LIST_IMAGES_OCR, writer).Close(); } } }
Beneficios

¿Por qué usar iText 7 pdfOCR+?

Uno de los principales desafíos que afronta la gestión de documentos es la dificultad de acceder a los datos contenidos en documentos no editables. El hecho de escanear un documento que contiene texto impreso no lo hace editable ni permite realizar búsquedas en dicho texto, ya que todo el contenido es meramente una imagen escaneada.

El reconocimiento óptico de caracteres (OCR) puede facilitar la captura de estos datos. Uno de los casos de uso más comunes del OCR es producir documentos que luego se pueden procesar o archivar informáticamente, y en los que además se pueden realizar búsquedas. Si bien algunas aplicaciones modernas de procesamiento de textos y de PDF disponen de funciones de OCR que convierten archivos PDF en documentos editables, se trata de una operación manual que solo resulta viable con pocos documentos.

iText pdfOCR automatiza el proceso de reconocimiento óptico de caracteres y su integración en flujos de trabajo de documentos.

pdfOCR+ icon svg
Libera el potencial de documentos archivados electrónicamente

  • Herramienta útil para trabajar con una gran cantidad de archivos escritos a mano o a máquina que contienen información valiosa.
  • Ideal para usar en áreas como banca,  finanzas, gobierno, seguros, atención de salud, telecomunicaciones y subcontratación de procesos comerciales.

pdfOCR+ icon svg
Solución para la industria de la atención de salud

Ofrece una capacidad de búsqueda para todo el registro del paciente, incluidas las notas escritas a mano.

pdfOCR+ icon svg
Herramienta útil para profesionales académicos, historiadores e investigadores

La herramienta analiza sus archivos, ya que es completamente capaz de procesar la escritura a mano y las  fuentes.

Características clave

Capacidades esenciales de pdfOCR+

Se puede configurar la salida en formato de texto, un archivo PDF que consista en capas separadas para los datos de la imagen de origen y una capa que contenga todo el texto reconocido, o como un PDF plano con las capas fusionadas. Si necesita que los documentos sean adecuados para su almacenamiento a largo plazo, la compatibilidad con el formato de salida PDF/A-3u es una ventaja adicional.

 

 

iText
API simple

  • La API de Java permite la integración en el flujo de trabajo existente.
  • Se integra perfectamente con iText Core 7.

iText
Potente OCR basado en IA

  • Puede transcribir texto escrito a máquina, escrito en letra imprenta y escrito a mano.
  • Cree documentos a los que se pueda acceder con mayor precisión.
  • Utiliza el aprendizaje automático para mejorar con el tiempo.

iText
Resuelva los desafíos más comunes de OCR

  • Compatible con archivos de imagen y PDF.
  • Crea una capa de texto invisible sin destruir el diseño del archivo original.
  • Reconoce todos los idiomas del alfabeto latino.
  • Extremadamente rápido y escalable.
Contacto

¿Aún tiene preguntas? 

Estamos encantados de responder a sus preguntas. Comuníquese con nosotros y le responderemos a la brevedad.

Contáctenos
Manténgase actualizado

Únase a más de 11,000 suscriptores y conviértase en un experto en iText PDF al mantenerse al día con nuestros nuevos productos, actualizaciones, consejos, soluciones técnicas y eventos.

Suscríbase ahora