XPose Image Captioner

Autores: Christopher Millsap
Versión actual: 0.8.9 estable, 0.8.4 beta
Compatibilidad con NVDA: de 2022.1 en adelante
Ver este complemento en la web de la comunidad internacional
Descargar versión estable
Descargar versión beta
Ver código fuente en GitHub

Este complemento puede crear un rótulo descriptivo de cualquier imagen JPG o
PNG en el explorador de archivos, Microsoft Edge, Google Chrome y
Firefox. Lo hace utilizando inteligencia artificial y y presenta la
descripción en una ventana de tal forma que se pueda examinar el texto del
rótulo, así como verbalizarlo.

Modo de uso

Primero, selecciona un archivo de imagen en el explorador de archivos o en
un navegador web. Se soportan Chrome, Edge y Firefox. Con la imagen
seleccionada, pulsa NVDA+x. El complemento responderá diciendo «rotulando,
espera por favor…» mientras el módulo de inteligencia artificial analiza
la imagen y la rotula. Dependiendo de la velocidad de tu procesador, el
rotulado puede tardar de dos a cinco segundos. Después de completar el
rotulado, se abrirá una ventana con el título de la imagen y este se
leerá. Cuando acabes de explorar el título, puedes pulsar escape para cerrar
la ventana de rotulado.

Sacar el máximo partido de XPoseImageCaptioner

Se deben tener en cuenta varias cosas al usar XPoseImageCaptioner para
obtener los mejores resultados:

El rotulado de XPoseImageCaptioner funciona mejor con fotografías,
dibujos animados y otras obras de arte. También funciona bastante bien
con memes y anuncios. No funciona bien con gráficas y no es un sustituto
de un OCR. Si tienes una imagen de un documento de texto, utiliza un
complemento de OCR en lugar de XPoseImageCaptioner.
El rotulado mediante IA puede decir qué hay en una imagen, pero no por
qué está ahí. El texto alternativo debería seguir usándose para averiguar
el contexto de una imagen. Por ejemplo, puedes ver una imagen en un sitio
web de noticias con el texto alternativo «Un general testifica en una
audiencia del congreso sobre el presupuesto militar», y la descripción de
la IA puede ser algo como «Un hombre con uniforme militar habla a un
micrófono sentado en una sala con paneles de madera». La IA te dice lo
que hay en la imagen, pero el texto alternativo debería idealmente contar
por qué está ahí.
La red neuronal BLIP, en la que se basa el complemento
XPoseImageCaptioner, sólo puede devolver texto en inglés. Volver a
entrenar el modelo para que soporte idiomas distintos al inglés no es
factible en este momento.
Aunque los títulos producidos están muy cercanos al estado del arte de la
descripción de imágenes con IA, no son siempre precisos al 100%. Usa el
complemento con cuidado y sentido común y nunca para sustituir un OCR. No
confíes en el contenido en situaciones peligrosas o de alto riesgo.
Actualmente, XPoseImageCaptioner sólo funciona en sitios web que no
requieren inicio de sesión. Por ejemplo, las páginas públicas de
organizaciones como Guiding Eyes for the
Blind o CNN. No se
soportan todavía las páginas que requieren iniciar sesión, como Facebook
o Twitter, porque el complemento necesita descargar la imagen del sitio
web para describirla y no puede hacerlo si hay que iniciar sesión. Como
solución temporal, se puede descargar una imagen de cualquier sitio web
que requiera iniciar sesión en el equipo local y reconocerla con el
complemento usando el explorador de archivos.
XPoseImageCaptioner sólo funciona en Firefox cuando la imagen no tiene
texto alternativo. Firefox no proporciona un enlace directo al archivo de
imagen a los lectores de pantalla si dicha imagen tiene texto
alternativo. Sin esta información, el complemento no puede descargar la
imagen para que la IA la describa. Chrome y Microsoft Edge no tienen esta
limitación, y funcionan independientemente de que la imagen tenga o no
tenga texto alternativo.

Copyright:

He aprendido mucho del complemento OCR NAO en términos de cómo trata con el
explorador de archivos de Windows en NVDA. Gracias a Alessandro Albano,
Davide De Carne, y Simone Dal Maso por su trabajo en ese
complemento. Además, XPoseImageCaptioner usa los modelos de red neuronal
BLIP y el código de Salesforce.com, pero no está afiliado ni respaldado por
salesforce.com de forma alguna.

Licencia

Licenciado bajo la licencia BSD de 3 cláusulas. Este complemento no cuenta
con el respaldo de salesforce.com en modo alguno.

Relacionado

Autor: José Manuel Delicado Alcolea

Ingeniero de software y máster en Ingeniería Informática por la Universidad Rey Juan Carlos. Me encanta todo lo relacionado con la informática, la accesibilidad y las nuevas tecnologías. Trabajo como consultor de accesibilidad. Lee todas las entradas de José Manuel Delicado Alcolea

Ubicación dentro del sitio

Modo de uso

Sacar el máximo partido de XPoseImageCaptioner

Copyright:

Licencia

Me gusta esto:

Relacionado

Autor: José Manuel Delicado Alcolea

Deja un comentarioCancelar respuesta

Modo de uso

Sacar el máximo partido de XPoseImageCaptioner

Copyright:

Licencia

Comparte esta página

Me gusta esto:

Relacionado

Autor: José Manuel Delicado Alcolea

Deja un comentarioCancelar respuesta