Este complemento implementa un controlador de sintetizador de voz para NVDA usando modelos neuronales TTS. Concretamente, soporta Piper.
Piper es un sistema de texto a voz rápido, neuronal y local que suena bien y está optimizado para funcionar en dispositivos de gama baja, tales como Raspberry Pi.
Puedes escuchar ejemplos de voz de Piper aquí: Piper voice samples (en inglés).
Este complemento utiliza Sonata: un motor en Rust multiplataforma para modelos neuronales TTS, desarrollado por Musharraf Omer.

Cómo añadir voces

El complemento es solo un controlador, por lo que no viene con voces por defecto. Debes descargar e instalar las voces que quieras desde el gestor de voces.
Tras instalar el complemento y reiniciar NVDA, el complemento te solicitará descargar e instalar al menos una voz, y ofrecerá la opción de abrir el gestor de voces.
Se puede abrir también el gestor de voces desde el menú principal de NVDA.
Recomendamos seleccionar las voces con calidad baja o media para tu(s) idioma(s) de destino, ya que estas proporcionan un mejor rendimiento. Para tener aún más rendimiento, puedes optar por descargar la variante rápida de una voz, a costa de una calidad de voz ligeramente inferior.
También puedes instalar voces desde archivos locales. Después de obtener el archivo de voz, abre el gestor de voces, y en la pestaña de voces instaladas, haz clic en el botón etiquetado como «Instalar desde un archivo local». Selecciona el archivo de voz, espera a que la voz se instale, y reinicia NVDA para refrescar la lista de voces.

Nota sobre la calidad de las voces

Las voces actualmente disponibles están entrenadas usando conjuntos de datos para TTS gratuitos que, generalmente, son de baja calidad (en su mayoría audiolibros bajo dominio público o grabaciones de calidad para investigación).
Además, estos conjuntos de datos no son exhaustivos, por lo que algunas voces pueden presentar una pronunciación incorrecta o extraña. Ambos problemas podrían resolverse utilizando mejores conjuntos de datos para el entrenamiento.
Por suerte, el desarrollador de Piper y algunos desarrolladores de la comunidad de personas ciegas y con baja visión están trabajando en entrenar mejores voces.

Licencia

Copyright(c) 2024, Musharraf Omer. Este software está liberado bajo la Licencia Pública General GNU Versión 2 (GPL v2).

Autor: José Manuel Delicado Alcolea

Ingeniero de software y máster en Ingeniería Informática por la Universidad Rey Juan Carlos. Me encanta todo lo relacionado con la informática, la accesibilidad y las nuevas tecnologías. Trabajo como consultor de accesibilidad.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.