AI Content Describer

Autor: Carter Temm
Versión actual: 2025.06.17 estable
Compatibilidad con NVDA: de 2023.1 en adelante
Descargar versión estable
Ver código fuente en GitHub

Este complemento hace posible obtener descripciones detalladas de imágenes y otro contenido visual inaccesible.
Aprovechando las capacidades multimodales del modelo de lenguaje GPT-4, pretendemos entregar las mejores descripciones de contenido de su clase. Para más información sobre el modelo subyacente, consulta GPT-4V.

Características

Describe el objeto que tiene el foco, el navegador de objetos o la pantalla entera.
Describe cualquier imagen que se haya copiado al portapapeles, ya sea una imagen incrustada en un correo o una ruta en el explorador de archivos.
Soporta una amplia variedad de formatos, incluyendo PNG (.png), JPEG (.jpeg y .jpg), WEBP (.webp) y gifs no animados (.gif).
Almacena opcionalmente respuestas en caché para preservar la cuota de la API.
Para usuarios avanzados, se pueden personalizar el aviso y el recuento de tokens para adaptar la información a tus necesidades.

Caso de uso

Había algunas motivaciones principales detrás de este proyecto.
NVDA es capaz de realizar reconocimiento óptico de caracteres (OCR) desde el primer momento, lo cual cambia las reglas del juego. Si estás intentando sacar texto de una imagen o un documento PDF, esto es lo que estás buscando.
Sin embargo, el OCR sólo puede analizar datos que puedan ser texto. Se queda corto al considerar el contexto, los objetos y las relaciones transmitidas en esas imágenes. E Internet está lleno de ellos. Logotipos, retratos, memes, iconos, cuadros, diagramas, gráficos de barras/líneas… Lo que sea. Están en todas partes y, por lo general, no en un formato que los usuarios de lectores de pantalla puedan interpretar. Hasta hace poco, ha habido una dependencia inquebrantable de que los autores de contenido proporcionen descripciones de texto alternativas. Si bien esto sigue siendo una obligación, es difícil cambiar el hecho de que un alto estándar de calidad resulta ser la excepción, no la regla.
Ahora, las posibilidades son casi infinitas. Podrías:

Visualizar el escritorio o una ventana específica para comprender la ubicación de los iconos al formar a alguien
Obtener información detallada sobre el estado de juegos, máquinas virtuales, etc. cuando el sonido es insuficiente o no está disponible
Averiguar lo que se muestra en un gráfico
Desmitificar las capturas de pantalla
Asegurarte de que tu rostro mira claramente a la cámara antes de grabar vídeos o participar en reuniones en línea

Primeros pasos

Descarga e instala el complemento. Después, sigue estos pasos para obtener una clave de API de OpenAI:

Visita https://platform.openai.com/account/api-keys
Si aún no tienes una cuenta, crea una. Si la tienes, inicia sesión.
En la página de claves API, haz clic en crear una nueva clave secreta. Cópiala en el portapapeles.
Carga al menos un dólar en la cuenta.
En el cuadro de diálogo de opciones de NVDA, desplázate hacia abajo hasta la categoría AI Content Describer, luego ve al campo Clave API y pega la clave generada.

Al momento de escribir este documento, OpenAI regala crédito a nuevas cuentas de desarrollador que puede usarse durante tres meses, después de los cuales caduca.
Después de este período, tendrás que cargar dinero. El uso típico nunca debería exceder los $5,00 por mes. Como punto de referencia, la versión original de este complemento se desarrolló por poco menos de un dólar. Siempre es posible iniciar sesión en la cuenta de OpenAI y hacer clic en «usage» para ver el estado de la cuota.

Modo de uso

Hay tres atajos de teclado asignados por defecto:

NVDA+shift+i: despliega un menú que permite describir el objeto bajo el foco, bajo el navegador de objetos o la pantalla entera mediante IA.
NVDA+shift+u: describe los contenidos del objeto bajo el navegador de objetos usando IA.
NVDA+shift+y: describe la imagen (o ruta a un archivo de imagen) que hay en el portapapeles usando IA.

Hay dos gestos sin asignar:

Describir los contenidos del objeto bajo el foco usando IA.
Tomar una captura de pantalla y describirla usando IA.

No dudes en personalizarlos a tu gusto en cualquier momento desde el diálogo Gestos de entrada.

Colaboraciones

¡Todas son bienvenidas! ¿Has encontrado un fallo? Abre una incidencia.
¿Tienes una sugerencia para una nueva función? Abre una incidencia también y hablemos sobre su implementación. Se revisarán las solicitudes de cambio que no tengan una incidencia asignada, pero probablemente nos llevarán más tiempo a todos, especialmente si decido que la corrección o la nueva característica debe funcionar de un modo distinto.
Las traducciones se reciben con los brazos abiertos.
Si no tienes GitHub o prefieres no usarlo, puedes mandar un correo a [email protected].
¡Gracias por tu apoyo!

Relacionado

Autor: José Manuel Delicado Alcolea

Ingeniero de software y máster en Ingeniería Informática por la Universidad Rey Juan Carlos. Me encanta todo lo relacionado con la informática, la accesibilidad y las nuevas tecnologías. Trabajo como consultor de accesibilidad. Lee todas las entradas de José Manuel Delicado Alcolea

Un comentario en “AI Content Describer”

Podrían explicar el motivo por el que hay que abonar 5 U$´s por mes (por usuario) para obtener un complemento? Resulta consternante. Gracias.

Responder

Maximiliano dice:

19 febrero, 2025 a las 1:48 am

Podrían explicar el motivo por el que hay que abonar 5 U$´s por mes (por usuario) para obtener un complemento? Resulta consternante. Gracias.

Cargando...

Responder

Deja un comentarioCancelar respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Ubicación dentro del sitio

Características

Caso de uso

Primeros pasos

Modo de uso

Colaboraciones

Me gusta esto:

Relacionado

Autor: José Manuel Delicado Alcolea

Un comentario en “AI Content Describer”

Deja un comentarioCancelar respuesta

Características

Caso de uso

Primeros pasos

Modo de uso

Colaboraciones

Comparte esta página

Me gusta esto:

Relacionado

Autor: José Manuel Delicado Alcolea

Un comentario en “AI Content Describer”

Deja un comentarioCancelar respuesta