EMPRESAS

IBM experimenta un sistema audiovisual que reconoce la voz en lugares ruidosos

El programa ViaVoice podrá leer los labios del interlocutor con un alto porcentaje de aciertos

05 dic 2002 - 10:47CET

La sala del centro de investigación Thomas J. Watson de IBM rebosa de gente, pero nadie dice ni pío. El científico David Nahamoo habla a su portátil. El aparato obedece y transcribe todo, aunque con algunos errores. Si la escena sucediera en el ajetreado parqué de la Bolsa de Wall Street, el sistema de reconocimiento del habla fallaría estrepitosamente. Estos programas no funcionan bien en entornos ruidosos.

Segunda parte de la prueba: el científico Nahamoo coloca ahora su cara delante de la cámara integrada y repite la operación entre el ruido. Sorpresa: mejoran los resultados.

IBM está experimentando un sistema audiovisual que aumente la capacidad de reconocimiento del habla. Se trata de combinar los tradicionales sistemas de audio con una tecnología de visión artificial que lee los labios y la mandíbula, explica Nahamoo, responsable del grupo de tecnologías humanas de la lengua de IBM.

Más información

IBM::

BABYLON::

La multinacional norteamericana está probando esta tecnología con su popular programa ViaVoice; pero de momento no existe una fecha para su salida al mercado.

En condiciones normales, un sistema de reconocimiento de la voz tiene un alto índice de aciertos. En los últimos dos años se han conseguido alcanzar hasta 10 decibelios de mejora en la relación señal/ruido, mezclando el vídeo y el audio. Es decir, el ambiente de trabajo puede tener 10 decibelios más de ruido de fondo y funcionaría con idéntica calidad. Además, el software permitiría determinar cuándo un usuario está intentando utilizar el sistema de reconocimiento.

Esta solución también podría aplicarse en la telefonía móvil multimedia: "En países como Japón hablar alto no es educado, tienes que hablar con una voz muy baja, casi en murmullos. Por ello, cuando se habla con un teléfono móvil la cantidad de ruido externo es muy grande".

Este proyecto forma parte de la iniciativa Super Human Speech Recognition de IBM, que en los próximos ocho años espera igualar e incluso superar la capacidad humana en la comprensión de la voz.

La tecnología del habla se rige por un esquema evolutivo: cada año se produce entre un 20% y un 25% de reducción de la tasa de errores en los nuevos programas de reconocimiento de voz.

Traductores de mano

Pero no es en lo único que trabaja el área de lenguaje de IBM. Gracias a ella, los soldados norteamericanos podrán saltarse la academia de idiomas. En sus misiones a países lejanos, un ordenador de bolsillo se encargará de traducir al inglés idiomas autóctonos como el chino mandarín, el pastún o el árabe.

Se pretende emplear los equipos en el campo de batalla, con los refugiados y la atención médica. El proyecto Babylon de la agencia de defensa Darpa, en el que participan entre otras compañías IBM (se encarga del chino), invierte 24 millones de dólares durante los próximos tres años para crear un traductor de mano.

"El programa de Babylon se centrará en la población de menores recursos y en los idiomas de pueblos con un alto riesgo de terrorismo. El mandarín y el árabe fueron seleccionados por las necesidades inmediatas y a medio plazo", reza la web del proyecto. Según Federal Computer Week, 500 de estos aparatos, que transcribían 1.500 frases inglesas a otra lengua, fueron empleados por los soldados norteamericanos este año en Afganistán. Ahora se trabaja en un equipo que traduzca en ambos sentidos.