Este complemento hace posible obtener descripciones detalladas de imágenes y otro contenido visual inaccesible.
Aprovechando las capacidades multimodales del modelo de lenguaje GPT-4, pretendemos entregar las mejores descripciones de contenido de su clase. Para más información sobre el modelo subyacente, consulta GPT-4V.
Características
- Describe el objeto que tiene el foco, el navegador de objetos o la pantalla entera.
- Describe cualquier imagen que se haya copiado al portapapeles, ya sea una imagen incrustada en un correo o una ruta en el explorador de archivos.
- Soporta una amplia variedad de formatos, incluyendo PNG (.png), JPEG (.jpeg y .jpg), WEBP (.webp) y gifs no animados (.gif).
- Almacena opcionalmente respuestas en caché para preservar la cuota de la API.
- Para usuarios avanzados, se pueden personalizar el aviso y el recuento de tokens para adaptar la información a tus necesidades.
Caso de uso
Había algunas motivaciones principales detrás de este proyecto.
NVDA es capaz de realizar reconocimiento óptico de caracteres (OCR) desde el primer momento, lo cual cambia las reglas del juego. Si estás intentando sacar texto de una imagen o un documento PDF, esto es lo que estás buscando.
Sin embargo, el OCR sólo puede analizar datos que puedan ser texto. Se queda corto al considerar el contexto, los objetos y las relaciones transmitidas en esas imágenes. E Internet está lleno de ellos. Logotipos, retratos, memes, iconos, cuadros, diagramas, gráficos de barras/líneas… Lo que sea. Están en todas partes y, por lo general, no en un formato que los usuarios de lectores de pantalla puedan interpretar. Hasta hace poco, ha habido una dependencia inquebrantable de que los autores de contenido proporcionen descripciones de texto alternativas. Si bien esto sigue siendo una obligación, es difícil cambiar el hecho de que un alto estándar de calidad resulta ser la excepción, no la regla.
Ahora, las posibilidades son casi infinitas. Podrías:
- Visualizar el escritorio o una ventana específica para comprender la ubicación de los iconos al formar a alguien
- Obtener información detallada sobre el estado de juegos, máquinas virtuales, etc. cuando el sonido es insuficiente o no está disponible
- Averiguar lo que se muestra en un gráfico
- Desmitificar las capturas de pantalla
- Asegurarte de que tu rostro mira claramente a la cámara antes de grabar vídeos o participar en reuniones en línea
Primeros pasos
Descarga e instala el complemento. Después, sigue estos pasos para obtener una clave de API de OpenAI:
- Visita https://platform.openai.com/account/api-keys
- Si aún no tienes una cuenta, crea una. Si la tienes, inicia sesión.
- En la página de claves API, haz clic en crear una nueva clave secreta. Cópiala en el portapapeles.
- Carga al menos un dólar en la cuenta.
- En el cuadro de diálogo de opciones de NVDA, desplázate hacia abajo hasta la categoría AI Content Describer, luego ve al campo Clave API y pega la clave generada.
Al momento de escribir este documento, OpenAI regala crédito a nuevas cuentas de desarrollador que puede usarse durante tres meses, después de los cuales caduca.
Después de este período, tendrás que cargar dinero. El uso típico nunca debería exceder los $5,00 por mes. Como punto de referencia, la versión original de este complemento se desarrolló por poco menos de un dólar. Siempre es posible iniciar sesión en la cuenta de OpenAI y hacer clic en «usage» para ver el estado de la cuota.
Modo de uso
Hay tres atajos de teclado asignados por defecto:
- NVDA+shift+i: despliega un menú que permite describir el objeto bajo el foco, bajo el navegador de objetos o la pantalla entera mediante IA.
- NVDA+shift+u: describe los contenidos del objeto bajo el navegador de objetos usando IA.
- NVDA+shift+y: describe la imagen (o ruta a un archivo de imagen) que hay en el portapapeles usando IA.
Hay dos gestos sin asignar:
- Describir los contenidos del objeto bajo el foco usando IA.
- Tomar una captura de pantalla y describirla usando IA.
No dudes en personalizarlos a tu gusto en cualquier momento desde el diálogo Gestos de entrada.
Colaboraciones
¡Todas son bienvenidas! ¿Has encontrado un fallo? Abre una incidencia.
¿Tienes una sugerencia para una nueva función? Abre una incidencia también y hablemos sobre su implementación. Se revisarán las solicitudes de cambio que no tengan una incidencia asignada, pero probablemente nos llevarán más tiempo a todos, especialmente si decido que la corrección o la nueva característica debe funcionar de un modo distinto.
Las traducciones se reciben con los brazos abiertos.
Si no tienes GitHub o prefieres no usarlo, puedes mandar un correo a [email protected].
¡Gracias por tu apoyo!
Me gusta esto:
Me gusta Cargando...