Este complemento usa el motor libre y de código abierto Tesseract OCR para realizar reconocimiento óptico de caracteres en un archivo de imagen, pdf, jpg, tif o de otro tipo, sin que sea necesario abrirlo. También puede escanear y reconocer un documento en papel mediante un escáner compatible con WIA. En las preferencias de NVDA, se añade la categoría TesseractOCR, donde se puede indicar el idioma usado durante el reconocimiento y los tipos de documentos a reconocer.

Atajos

Los atajos por defecto son:

  • Windows+control+r: reconoce el documento seleccionado.
  • Windows+control+shift+r: escanea y reconoce un documento desde el escáner.

A continuación, espera a que se abra el fichero ocr.txt con el texto reconocido. Si quieres conservar el texto reconocido, ¡no olvides guardar el documento con otro nombre y en otro lugar, ya que todos los archivos de la carpeta temporal se eliminan al comienzo del siguiente proceso OCR!
Estas órdenes pueden modificarse desde el diálogo Gestos de entrada, en la categoría «TesseractOCR».

Actualización automática

Este complemento incluye una función de actualización automática. La comprobación de una nueva versión se realizará cada vez que se cargue NVDA. Si la quieres, ve a NVDA, Preferencias, Opciones, y marca la casilla en la categoría del complemento.

Problemas conocidos

  • Esta versión sólo funciona en Windows de 64 bits.
  • Al elegir la opción «diversos» en el cuadro combinado «Tipo de documentos», el texto reconocido puede aparecer con muchas líneas en blanco. Este es un problema conocido de Tesseract y, sin consumir un montón de tiempo de procesamiento, todavía no he encontrado una solución. ¡Pero aún no me he rendido!

Idiomas soportados

Los idiomas soportados en esta versión son: africano, amárico, árabe, búlgaro, burmés, catalán / valenciano, chino simplificado, chino tradicional, croata, checo, danés, alemán, holandés, inglés, finés, francés, gallego, georgiano, griego, hebreo, hindi, húngaro, islandés, indonesio, irlandés, italiano, japonés, canarés, Kirghiz, coreano, letón, lituano, macedonio, nepalí, noruego, panyabí, persa, polaco, portugués, rumano / moldavo, ruso, serbio (latino), eslovaco, esloveno, español, sueco, tamil, tailandés, turco, ucraniano, urdu y vietnamita.

Tipos de imagen soportados

Este complemento soporta los siguientes tipos de archivos: pdf, jpg, tif, png, bmp, pnm, pbm, pgm, jp2, gif, jfif, jpeg, tiff, spix y webp.

Autor: José Manuel Delicado Alcolea

Ingeniero de software y máster en Ingeniería Informática por la Universidad Rey Juan Carlos. Me encanta todo lo relacionado con la informática, la accesibilidad y las nuevas tecnologías. Consultor de accesibilidad por cuenta propia desde el año 2015.

Un comentario en “TesseractOCR”

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.