Extraer texto de una imagen o PDF

Algunos seguramente estamos familiarizados con la tecnología "OCR" (Reconocimiento Óptico de Caractéres -en inglés-), otros más no, pero seguramente la mayoría encontraremos mucha utilidad en este software.


Pues bien, explico, lo que un programa OCR hace es reconocer los caractéres que existen en un PDF o JPG que contenga texto; si por ejemplo le tomamos una foto o escaneamos un documento impreso es suficiente para que podamos extraer lo que allí está escrito.


Lamentablemente muchos de los programas especializados tienen un costo, y como siempre, buscamos algo por lo que no tengamos que gastar más que nuestro tiempo al utilizarlo. Así que les dejo esta opción que yo utilizo y que me pareció excelente para compartir en el blog.








One Note de Microsoft.



La mayoría contamos con este programa que viene incluido el paquete de Microsoft Office (lo he probado en la versión de 2007, 2010 y 2013), sin embargo muchos lo tenemos allí sin saber el potencial con la que éste cuenta; este programa nos sirve bien para salvar mucho de lo que se queda allí guardado en nuestro portapapeles, y demás pequeñas pero útiles herramientas que explicaré en otro momento...

Para usar One Note como OCR lo podemos hacer es lo siguiente:

1. ABRIMOS ONE NOTE.


2. EN LA PESTAÑA INSERTAR, DAMOS CLICK A LA OPCIÓN COPIA IMPRESA DE ARCHIVO.


3. ELEGIMOS UNA IMAGEN O PDF Y LA INSERTAMOS.


4. LA IMAGEN CON EL TEXTO APARECERÁ INSERTADA.


5. DAMOS CLICK DERECHO EN LA IMAGEN Y ELEGIMOS COPIAR TEXTO DE LA IMAGEN.


6. NOS VAMOS A WORD Y PEGAMOS EL TEXTO.


7. HACEMOS ALGUNAS REVISIONES Y TENEMOS LISTO EL TEXTO.





*Si lo que quieres es extraer el texto de algo que tienes en pantalla, puedes darle click a la opción "Recorte de pantalla", insertar la imagen y extraer inmediatamente el texto. Estos procedimientos son sencillos, recuerda que depende mucho de la calidad de la imagen en tus archivos para que la extracción del texto se haga con la mínima cantidad de errores.