Este complemento para NVDA ayuda a que se te vea mejor en videollamadas dando instrucciones sobre cómo situarte ante la cámara. Utiliza reconocimiento facial y procesamiento de imágenes para detectar si estás de lado o vertical, así como determinar si la iluminación es suficiente.

Instalación

Este complemento contiene dependencias binarias que requieren los componentes redistribuíbles de Visual C++ para 32 bits, que puedes descargar directamente de Microsoft.

Modo de uso

Después de instalar el complemento, pulsa NVDA+shift+w y sigue las instrucciones. Cuando oigas el mensaje «Your face is well positioned», significará que tu cara está bien situada. En ese momento, puedes pulsar la tecla escape para salir del complemento y liberar la cámara.

Este complemento está diseñado para integrar perfectamente las posibilidades de la API de Open AI en tu flujo de trabajo. Ya sea que quieras redactar un texto completo, traducir pasajes con precisión, resumir documentos de forma concisa o incluso describir e interpretar contenido visual, este complemento hace todo eso con facilidad.

Requisitos previos de uso

Para utilizar la funcionalidad completa del complemento Open AI para NVDA, hace falta una clave de API de Open AI. Sigue estos pasos para configurarla:

  1. Consigue una clave de API registrando una cuenta de Open AI en https://platform.openai.com/api-keys.
  2. Con la clave de API lista, tienes dos opciones para configurarla:
    • Mediante el diálogo de opciones de NVDA:
      • Accede al menú NVDA y navega al submenú «Preferencias».
      • Abre el diálogo «Opciones» y selecciona la categoría «Open AI».
      • Introduce la clave API en el campo correspondiente y pulsa «Aceptar».
    • Usando variables de entorno:
      • Pulsa windows+pausa para abrir las propiedades del sistema.
      • Pulsa en «Configuración avanzada del sistema» y luego en «Variables de entorno».
      • Crea una nueva variable bajo «Variables de usuario»:
        • Pulsa en «Nueva».
        • Introduce OPENAI_API_KEY como nombre de variable y pega tu clave de API en el valor.
      • Pulsa «Aceptar» para guardar los cambios.

¡Ya tienes todo lo necesario para explorar las funciones del complemento de Open AI para NVDA!

Cómo usar el complemento

Acceso a las características principales

Las funciones del complemento están alojadas en un diálogo central que se puede abrir con el atajo NVDA+g. Este diálogo proporciona acceso a la mayoría de funciones del complemento, permitiéndote:

  • Entablar una conversación con el modelo de IA.
  • Obtener descripciones de imágenes desde archivos de imagen.
  • Transcribir contenido hablado desde archivos de audio o desde el micrófono.
  • Usar síntesis de voz para vocalizar el texto escrito.

Órdenes en el diálogo principal

Hay algunas órdenes disponibles en el diálogo principal para distintos elementos.

  • Cuando el campo de escritura tiene el foco:
    • Ctrl+intro: enviar el texto introducido.
    • Ctrl+flecha arriba: recuperar y situar la orden más reciente introducida en el campo actual para revisarla o reutilizarla.
  • Cuando el campo del historial tiene el foco:
    • Alt+flecha derecha: copiar el texto del usuario a la entrada.
    • Alt+flecha izquierda: copiar la respuesta del asistente al sistema.
    • Ctrl+c: copiar el texto del usuario o la respuesta del sistema, dependiendo de la posición del cursor.
    • Ctrl+shift+flecha arriba: moverse al bloque de texto del usuario o del asistente que haya encima del actual.
    • Ctrl+shift+flecha abajo: moverse al bloque de texto del usuario o del asistente que haya debajo del actual.

Órdenes globales

Se pueden usar estas órdenes para disparar acciones desde cualquier parte del sistema. Es posible reasignarlas desde el diálogo Gestos de entrada de NVDA, en la categoría Open AI.

  • NVDA+e: toma una captura de pantalla y la describe.
  • NVDA+o: describe el objeto donde se encuentra el navegador de objetos.

Dependencias incluidas

El complemento viene empaquetado con las siguientes dependencias esenciales:

  • OpenAI: la biblioteca de Python oficial para la API de Open AI.
  • MSS: un módulo multiplataforma ultrarrápido que toma varias capturas de pantalla en Python puro usando ctypes.
  • sounddevice: reproduce y graba sonido con Python.

Este complemento hace posible obtener descripciones detalladas de imágenes y otro contenido visual inaccesible.
Aprovechando las capacidades multimodales del modelo de lenguaje GPT-4, pretendemos entregar las mejores descripciones de contenido de su clase. Para más información sobre el modelo subyacente, consulta GPT-4V.

Características

  • Describe el objeto que tiene el foco, el navegador de objetos o la pantalla entera.
  • Describe cualquier imagen que se haya copiado al portapapeles, ya sea una imagen incrustada en un correo o una ruta en el explorador de archivos.
  • Soporta una amplia variedad de formatos, incluyendo PNG (.png), JPEG (.jpeg y .jpg), WEBP (.webp) y gifs no animados (.gif).
  • Almacena opcionalmente respuestas en caché para preservar la cuota de la API.
  • Para usuarios avanzados, se pueden personalizar el aviso y el recuento de tokens para adaptar la información a tus necesidades.

Caso de uso

Había algunas motivaciones principales detrás de este proyecto.
NVDA es capaz de realizar reconocimiento óptico de caracteres (OCR) desde el primer momento, lo cual cambia las reglas del juego. Si estás intentando sacar texto de una imagen o un documento PDF, esto es lo que estás buscando.
Sin embargo, el OCR sólo puede analizar datos que puedan ser texto. Se queda corto al considerar el contexto, los objetos y las relaciones transmitidas en esas imágenes. E Internet está lleno de ellos. Logotipos, retratos, memes, iconos, cuadros, diagramas, gráficos de barras/líneas… Lo que sea. Están en todas partes y, por lo general, no en un formato que los usuarios de lectores de pantalla puedan interpretar. Hasta hace poco, ha habido una dependencia inquebrantable de que los autores de contenido proporcionen descripciones de texto alternativas. Si bien esto sigue siendo una obligación, es difícil cambiar el hecho de que un alto estándar de calidad resulta ser la excepción, no la regla.
Ahora, las posibilidades son casi infinitas. Podrías:

  • Visualizar el escritorio o una ventana específica para comprender la ubicación de los iconos al formar a alguien
  • Obtener información detallada sobre el estado de juegos, máquinas virtuales, etc. cuando el sonido es insuficiente o no está disponible
  • Averiguar lo que se muestra en un gráfico
  • Desmitificar las capturas de pantalla
  • Asegurarte de que tu rostro mira claramente a la cámara antes de grabar vídeos o participar en reuniones en línea

Primeros pasos

Descarga e instala el complemento. Después, sigue estos pasos para obtener una clave de API de OpenAI:

  1. Visita https://platform.openai.com/account/api-keys
  2. Si aún no tienes una cuenta, crea una. Si la tienes, inicia sesión.
  3. En la página de claves API, haz clic en crear una nueva clave secreta. Cópiala en el portapapeles.
  4. Carga al menos un dólar en la cuenta.
  5. En el cuadro de diálogo de opciones de NVDA, desplázate hacia abajo hasta la categoría AI Content Describer, luego ve al campo Clave API y pega la clave generada.

Al momento de escribir este documento, OpenAI regala crédito a nuevas cuentas de desarrollador que puede usarse durante tres meses, después de los cuales caduca.
Después de este período, tendrás que cargar dinero. El uso típico nunca debería exceder los $5,00 por mes. Como punto de referencia, la versión original de este complemento se desarrolló por poco menos de un dólar. Siempre es posible iniciar sesión en la cuenta de OpenAI y hacer clic en «usage» para ver el estado de la cuota.

Modo de uso

Hay tres atajos de teclado asignados por defecto:

  • NVDA+shift+i: despliega un menú que permite describir el objeto bajo el foco, bajo el navegador de objetos o la pantalla entera mediante IA.
  • NVDA+shift+u: describe los contenidos del objeto bajo el navegador de objetos usando IA.
  • NVDA+shift+y: describe la imagen (o ruta a un archivo de imagen) que hay en el portapapeles usando IA.

Hay dos gestos sin asignar:

  • Describir los contenidos del objeto bajo el foco usando IA.
  • Tomar una captura de pantalla y describirla usando IA.

No dudes en personalizarlos a tu gusto en cualquier momento desde el diálogo Gestos de entrada.

Colaboraciones

¡Todas son bienvenidas! ¿Has encontrado un fallo? Abre una incidencia.
¿Tienes una sugerencia para una nueva función? Abre una incidencia también y hablemos sobre su implementación. Se revisarán las solicitudes de cambio que no tengan una incidencia asignada, pero probablemente nos llevarán más tiempo a todos, especialmente si decido que la corrección o la nueva característica debe funcionar de un modo distinto.
Las traducciones se reciben con los brazos abiertos.
Si no tienes GitHub o prefieres no usarlo, puedes mandar un correo a [email protected].
¡Gracias por tu apoyo!

Nota: este complemento dispone de funciones de traducción automática que envían todo el contenido leído por NVDA a un servidor remoto cuando están activadas. Consulta la política de privacidad de Baidu, y desactiva la traducción automática si vas a trabajar con información sensible.
Este complemento para NVDA proporciona traducción con Baidu.

Atajos de teclado

  • Traduce lo que has oído: NVDA+w
  • Traduce lo que has oído en dirección inversa: NVDA+shift+w
  • Alternar entre modos de traducción automática (desactivada, normal e inversa): NVDA+f8
  • Traducir contenido del portapapeles: NVDA+control+w
  • Traducir en dirección inversa el contenido del portapapeles: NVDA+control+shift+w

Contacto de soporte

Cualquier comentario o sugerencia es bienvenido:

  • En el repositorio del proyecto en GitHub.
  • Por correo: [email protected]
  • QQ: 354522977
  • WeChat: huaiyinfeilong

Registro de cambios

Versión 1.5

Versión 1.4

  • Se mejora la documentación de ayuda y se corrigen errores en la traducción al inglés.
  • Se optimiza el aviso de alternancia de traducción automática, que es más claro y conciso ahora.

Versión 1.3

Se añaden funciones de traducción y traducción inversa del contenido del portapapeles.

  • Traducción: se traduce el contenido del portapapeles del idioma de origen al idioma de destino. Si está activada la opción «Identificar automáticamente idioma de origen», se reconocerá el idioma de origen automáticamente.
  • Traducción inversa del portapapeles: traduce los contenidos del portapapeles del idioma de destino al idioma de origen.

Versión 1.2

Se añade la traducción automática, que dispone de tres modos: desactivada, normal e inversa.
Tras activar la traducción automática, todo el contenido leído por NVDA se traducirá automáticamente. Cada uno de los tres modos funciona como se describe a continuación:

  • Traducción automática: traduce automáticamente el contenido leído por NVDA del idioma de origen al idioma de destino. Si la opción «Identificar automáticamente el idioma de origen» está activada, se reconocerá automáticamente el idioma de origen.
  • Traducción automática inversa: traduce automáticamente el contenido leído por NVDA del idioma de destino al idioma de origen.
  • Desactivar traducción automática: no se usa la traducción automática.

Nota: tras activar la traducción automática, todo el contenido leído por NVDA se enviará al servidor de traducción, y la velocidad de respuesta de NVDA se reducirá en diversos grados en función de los resultados de traducción y tu velocidad de conexión.

Versión 1.1

Se añade una función de traducción inversa, que puede traducir del idioma de destino al idioma de origen.

Este complemento para NVDA proporciona reconocimiento OCR en línea y fuera de línea. El reconocimiento fuera de línea se ha desarrollado basado en el componente PaddleOCR_json.
Este complemento proporciona actualmente el motor PaddleOCR_json para el reconocimiento fuera de línea y las versiones general y precisa del motor de reconocimiento de Baidu. El motor PaddleOCR_json se instalará automáticamente al instalar el complemento. En el futuro se añadirá soporte para más motores de reconocimiento en línea y fuera de línea.
Además, este complemento proporciona descripción de imágenes, que puede identificar el contenido de las mismas.

Ventajas del complemento

  • La velocidad de reconocimiento es rápida, y el reconocimiento fuera de línea tarda unos 100 ms. La situación descrita puede variar en función de la configuración de rendimiento del ordenador.
  • Potente precisión de reconocimiento fuera de línea, comparable al reconocimiento en línea.
  • Las coordenadas del texto resultante reconocido son precisas, y la respuesta del resultado del click también.

Atajos de teclado

  • Reconocer texto del objeto en el navegador de objetos: NVDA+alt+o
  • Reconocimiento OCR del portapapeles: NVDA+alt+shift+o
  • Cambiar motor de reconocimiento OCR: NVDA+alt+9
  • Descripción de imagen: NVDA+alt+p
  • Descripción de imagen del portapapeles: NVDA+alt+shift+p

Todos estos atajos de teclado se pueden modificar en la categoría «Xinyi OCR» del diálogo Gestos de entrada de NVDA.

Contacto de soporte

Cualquier comentario o sugerencia es bienvenido:

  • En el repositorio del proyecto en GitHub.
  • Por correo: [email protected]
  • QQ: 354522977
  • WeChat: huaiyinfeilong

Registro de cambios

Versión 3.0.1

  • Nueva función de detección de pantalla oscura en la descripción de imágenes: se mostrará un aviso si se intentan describir imágenes con la cortina de pantalla activada.

Versión 3.0

  • Se añade función de reconocimiento del contenido de imágenes, que puede identificar y describir las imágenes examinadas y las que están en el portapapeles.

Versión 2.0.2

  • Se corrige un problema por el que el OCR en línea podía no estar disponible en equipos donde el OCR fuera de línea tampoco funcionaba.

Versión 2.0.1

  • Se corrige un problema de estabilidad en entornos de red con proxy.

Versión 2.0

  • Se añade el motor de reconocimiento OCR en línea de Baidu. Soporta reconocimiento general y preciso. Se puede usar una clave compartida o una clave privada propia. Si usas tu propia clave privada, deberás configurarla en las opciones.
  • Se añade la capacidad de detectar la cortina de pantalla. Se mostrará un aviso si se intenta usar el OCR con la cortina de pantalla activada.
  • Ya no se detecta si el sistema es de 64 bits durante la instalación. Tras la instalación, si el sistema no es de 64 bits, no se puede usar el OCR fuera de línea.

Versión 1.3

  • Se corrige un problema que impedía la instalación en versiones de NVDA inferiores a la 2023.1.

Versión 1.2

  • Se añade detección del entorno durante la instalación. Se mostrará un aviso en sistemas que no sean de 64 bits indicando que la instalación no se puede completar.
  • Se corrige un problema por el que PaddleOCR_json.exe continuaba en ejecución si NVDA se cerraba anormalmente.
  • Se corrige un problema por el que aumenta el uso de memoria tras varios reconocimientos OCR.
  • Se corrige un problema por el que NVDA quedaba en suspensión durante el reconocimiento.

Versión 1.1

  • Se añade la capacidad de reconocer desde el portapapeles con el atajo NVDA+alt+shift+o.

Un complemento para NVDA que recuerda a los usuarios conmemoraciones islámicas. Se pueden recibir estos recordatorios de diversas formas.

Características

  • Lectura de la conmemoración usando el sintetizador por defecto de NVDA.
  • Verbalización de la conmemoración usando archivos de audio pregrabados.
  • Se puede mostrar la conmemoración como una notificación de Windows.
  • Los recordatorios se presentan aleatoriamente en un intervalo especificado por el usuario desde la página de opciones.
  • Además, los usuarios pueden disparar una conmemoración aleatoria con el atajo NVDA+alt+z.
  • Y con NVDA+alt+x se pueden copiar las últimas conmemoraciones verbalizadas al portapapeles del sistema.

Estos atajos pueden modificarse desde la categoría Alzaker del diálogo Gestos de entrada de NVDA.

Colaboración

Un gran reconocimiento a mesteranas por sus valiosas contribuciones al desarrollo de este complemento.
¡Se aceptan colaboraciones en este proyecto! Si encuentras un fallo, tienes una idea de mejora o quieres colaborar de cualquier otra manera, siéntete libre de abrir una incidencia o una solicitud de cambios.

Nota: este complemento carece de documentación. Traducimos la descripción incluida en su manifiesto.
Este simple complemento para NVDA permite realizar operaciones aritméticas. Pulsa NVDA+alt+s para abrir su ventana principal y utilizarlo.

Un complemento conversor de divisas para NVDA que usa los servidores de Google.

Modo de uso

Usa el atajo de teclado NVDA+alt+c para abrir una ventana con un cuadro de diálogo que permite introducir la cantidad. Teclea la cantidad y pulsa siguiente. El resultado se recibirá de los servidores de Google y se mostrará inmediatamente. Desde las opciones de NVDA se pueden ajustar la divisa de origen y destino, así como intercambiarlas entre sí.

Colaboración

¡Se agradecen las contribuciones a este proyecto! Si encuentras un fallo, tienes una idea de mejora o quieres colaborar de cualquier otra forma, no tengas reparo en abrir una incidencia o una solicitud de cambios.

Este complemento se usa para emular la rueda del ratón y desplazar el objeto que hay bajo el puntero.

Atajos

Se pueden usar las siguientes teclas para desplazar el objeto bajo el puntero del ratón cuando se activa el modo de desplazamiento de la rueda pulsando la combinación NVDA+control+shift+w:

  • Flecha arriba: desplazar hacia arriba.
  • Flecha abajo: desplazar hacia abajo.
  • Flecha izquierda: desplazar hacia la izquierda.
  • Flecha derecha: desplazar hacia la derecha.
  • Retroceso de página: desplazar una página hacia arriba.
  • Avance página: desplazar hacia abajo una página.
  • Inicio: intenta desplazar hacia arriba hasta el límite. Especialmente útil en deslizadores que no se pueden controlar desde el teclado.
  • Fin: intenta desplazar hacia abajo hasta el límite. Útil en casos similares al anterior.

Cambios para 0.1.1

  • Corregido un fallo con una importación que faltaba.

Cambios para 0.1.0

  • Versión inicial.

Este complemento se usa para activar o desactivar perfiles dependiendo del estado del modo exploración.
Actualmente, si el modo exploración está activo, se activará un perfil llamado browseMode, y se desactivará cuando el modo exploración lo haga.
El perfil browseMode se creará automáticamente si no existe.