Del habla al texto y del texto al habla
Los sistemas de reconocimiento y síntesis de voz salen de la infancia
"Éste es un servicio de información telefónica. Si quiere médicos, diga médico. Si es cines, diga cine". Quien responde a la llamada en el Ayuntamiento francés de Aillon no es un funcionario, sino un ordenador que utiliza la tecnología del habla de forma experimental. "Dentro de las industrias de la lengua, la tecnología del habla trata de la conversión automática de ésta a texto y viceversa", explica José Manuel Pardo, que participa en el seminario Las industrias de la lengua, en la Universidad Internacional Menéndez Pelayo.
"Un conversor habla-texto en términos simples es una máquina que sabe escribir al dictado simulando esta cualidad humana", señala José Manuel Pardo, ingeniero electrónico de la Universidad Politécnica de Madrid. "Los reconocedores de habla utilizan técnicas muy diferentes a las que utiliza un ser humano y tienen unas prestaciones evidentemente mucho más limitadas. El mecanismo de reconocimiento de habla por el hombre es tan complejo que no existe actualmente una máquina capaz de igualarlo". De entre las posibles ventajas de estos conversores, Pardo resaltó en el seminario el ahorro que hay en el caudal de información necesario para la transmisión, mucho menor en el caso de texto que en el de voz. Otra de las ventajas que ofrece es acceder a bases de datos sin que se necesite un terminal de ordenador. Un conversor texto-habla podría permitir el acceso a los datos mediante teléfono. Personas minusválidas físicas o visuales utilizando la voz podrían beneficiarse de las posibilidades de los ordenadores sin la limitación que lleva el manejo de los teclados.
La primera generación de reconocedores de habla comerciales aparecen en los años setenta como el WIP 100 de la empresa Thereshold Tecnology. Este sistema funcionaba palabra por palabra, con un solo locutor y con una capacidad de 10 a 50 palabras. En 1986 IBM consiguió un prototipo de laboratorio que reconocía 5.000 palabras. En 1987 otro que reconocía 20.000, ambos para un solo locutor. Si otra persona quería utilizarlo, se necesitaba entrenarlo grabando 20 minutos con el habla del nuevo locutor.
Actualmente la empresa Dragon tiene un sistema comercializado que reconoce 5.000 palabras de un solo locutor. En 1986 ATT comercializó su sistema Conversat, que es capaz de reconocer series de dígitos y no sólo palabras aisladas, pronunciado por cualquier locutor a través del teléfono.
Frases
Otro paso ha sido el desarrollo de máquinas que no sólo reconocen el habla aislada (palabra a palabra) sino también la continua (frases). "Aunque existen todos estos aparatos en el mercado, aún no son ampliamente utilizados y les queda por resolver muchos problemas técnicos, ya que estos sistemas no funcionan cuando el vocabulario es grande, porque confunden las palabras parecidas, y el método, al no ser independiente del locutor, produce muchos errores", explicó Pardo.Para el futuro IBM y ATT tienen entre sus objetivos hacer una máquina de escribir operada por habla continua con 20.000 palabras y que se adapte a cualquier locutor para 1992. Japón, por otro lado, espera tener un teléfono que traduzca del inglés al japonés y viceversa, también para habla continua, gran vocabulario e independiente del locutor para el año 2001. Por otra parte, Europa, mediante el programa Sprit está desarrollando una máquina llamada Políglota para siete idiomas, en la que colabora la universidad Politécnica de Madrid.
En cuanto a la conversión texto-habla, explicó Pardo que, aunque la inteligibilidad de algunos conversores texto-habla actuales es muy cercana al habla natural, su parecido todavía está muy lejano de ella y es muy dificil conseguir distintas voces con diferentes estilos. Estos complejos sistemas constan de dos partes fundamentales: un procesador de símbolos y abreviaturas y otro sintáctico para determinar las categorías de las palabras como partes de la oración. También existen módulos semánticos para analizar el significado de una frase y darle el énfasis adecuado, pero esto es muy difícil de aplicar porque no se conoce suficientemente la relación semántica-prosodia.
Por último, el módulo de conversión de letras a sonidos trata de extraer correctamente la pronunciación de cada palabra y otorgarles su acento fonético. En el caso del español no es difícil al existir reglas bien definidas. La mejora de la calidad de estos conversores dependerá de la unión de distintas áreas de la tecnología hasta conseguir que no exista limitación en el texto de entrada y se obtengan distintas voces y estilos.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.