Este complemento puede crear un rótulo descriptivo de cualquier imagen JPG o
PNG en el explorador de archivos, Microsoft Edge, Google Chrome y
Firefox. Lo hace utilizando inteligencia artificial y y presenta la
descripción en una ventana de tal forma que se pueda examinar el texto del
rótulo, así como verbalizarlo.

Modo de uso

Primero, selecciona un archivo de imagen en el explorador de archivos o en
un navegador web. Se soportan Chrome, Edge y Firefox. Con la imagen
seleccionada, pulsa NVDA+x. El complemento responderá diciendo «rotulando,
espera por favor…» mientras el módulo de inteligencia artificial analiza
la imagen y la rotula. Dependiendo de la velocidad de tu procesador, el
rotulado puede tardar de dos a cinco segundos. Después de completar el
rotulado, se abrirá una ventana con el título de la imagen y este se
leerá. Cuando acabes de explorar el título, puedes pulsar escape para cerrar
la ventana de rotulado.

Sacar el máximo partido de XPoseImageCaptioner

Se deben tener en cuenta varias cosas al usar XPoseImageCaptioner para
obtener los mejores resultados:

  1. El rotulado de XPoseImageCaptioner funciona mejor con fotografías,
    dibujos animados y otras obras de arte. También funciona bastante bien
    con memes y anuncios. No funciona bien con gráficas y no es un sustituto
    de un OCR. Si tienes una imagen de un documento de texto, utiliza un
    complemento de OCR en lugar de XPoseImageCaptioner.
  2. El rotulado mediante IA puede decir qué hay en una imagen, pero no por
    qué está ahí. El texto alternativo debería seguir usándose para averiguar
    el contexto de una imagen. Por ejemplo, puedes ver una imagen en un sitio
    web de noticias con el texto alternativo «Un general testifica en una
    audiencia del congreso sobre el presupuesto militar», y la descripción de
    la IA puede ser algo como «Un hombre con uniforme militar habla a un
    micrófono sentado en una sala con paneles de madera». La IA te dice lo
    que hay en la imagen, pero el texto alternativo debería idealmente contar
    por qué está ahí.
  3. La red neuronal BLIP, en la que se basa el complemento
    XPoseImageCaptioner, sólo puede devolver texto en inglés. Volver a
    entrenar el modelo para que soporte idiomas distintos al inglés no es
    factible en este momento.
  4. Aunque los títulos producidos están muy cercanos al estado del arte de la
    descripción de imágenes con IA, no son siempre precisos al 100%. Usa el
    complemento con cuidado y sentido común y nunca para sustituir un OCR. No
    confíes en el contenido en situaciones peligrosas o de alto riesgo.
  5. Actualmente, XPoseImageCaptioner sólo funciona en sitios web que no
    requieren inicio de sesión. Por ejemplo, las páginas públicas de
    organizaciones como Guiding Eyes for the
    Blind
    o CNN. No se
    soportan todavía las páginas que requieren iniciar sesión, como Facebook
    o Twitter, porque el complemento necesita descargar la imagen del sitio
    web para describirla y no puede hacerlo si hay que iniciar sesión. Como
    solución temporal, se puede descargar una imagen de cualquier sitio web
    que requiera iniciar sesión en el equipo local y reconocerla con el
    complemento usando el explorador de archivos.
  6. XPoseImageCaptioner sólo funciona en Firefox cuando la imagen no tiene
    texto alternativo. Firefox no proporciona un enlace directo al archivo de
    imagen a los lectores de pantalla si dicha imagen tiene texto
    alternativo. Sin esta información, el complemento no puede descargar la
    imagen para que la IA la describa. Chrome y Microsoft Edge no tienen esta
    limitación, y funcionan independientemente de que la imagen tenga o no
    tenga texto alternativo.

Copyright:

Copyright (c) 2023 Christopher Millsap

He aprendido mucho del complemento OCR NAO en términos de cómo trata con el
explorador de archivos de Windows en NVDA. Gracias a Alessandro Albano,
Davide De Carne, y Simone Dal Maso por su trabajo en ese
complemento. Además, XPoseImageCaptioner usa los modelos de red neuronal
BLIP y el código de Salesforce.com, pero no está afiliado ni respaldado por
salesforce.com de forma alguna.

Licencia

Licenciado bajo la licencia BSD de 3 cláusulas. Este complemento no cuenta
con el respaldo de salesforce.com en modo alguno.

Autor: José Manuel Delicado Alcolea

Ingeniero de software y máster en Ingeniería Informática por la Universidad Rey Juan Carlos. Me encanta todo lo relacionado con la informática, la accesibilidad y las nuevas tecnologías. Trabajo como consultor de accesibilidad.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.