PROGRAMAS

El reconocimiento de voz salta al móvil para atraer al consumo masivo

El móvil acapara el desarrollo de 'software' de transcripción de voz - Tellme, Vlingo y Nuance buscan liderar un mercado en ebullición - Cuatro millones de personas ya han utilizado Spinvox en España

13 nov 2008 - 00:00CET

"Eeeeh, hummm, errrr..." Dudas, balbuceos, frases cortadas, ruido de fondo. Es la pesadilla de cualquier sistema de reconocimiento de voz: transcribir correctamente a texto todas las manías lingüísticas de las que echamos mano en una conversación coloquial. Para algunos expertos, es el obstáculo que ha frenado la adopción de la tecnología. Lo importante, dicen, es la posibilidad de aplicarla al aparato que todos guardamos en el bolsillo: el móvil.

Spinvox es un buen representante de este último grupo. La compañía se ha volcado en España, con un 110% de penetración de terminales, tras su...

Suscríbete para seguir leyendo

Lee sin límites

Seguir leyendo Seguir leyendo

Ya soy suscriptor

Spinvox es un buen representante de este último grupo. La compañía se ha volcado en España, con un 110% de penetración de terminales, tras su éxito en el Reino Unido. Permite dictar SMS al móvil y enviarlos en formato de texto. Y viceversa: leer mensajes que alguien nos ha dejado en el buzón. Se integra, además, en correo, blogs y redes sociales.

Más información

Yo hablo y tú escribes

Si en medio de la calle nos ataca la urgencia del Twitter, nada de teclas. Dictamos al móvil y el sistema publica la frase segundos después. Jerga incluida. Palabras como friqui o piltrafilla, que dejarían colgado a cualquier otro sistema, son reconocidas. ¿Cómo? Análisis semántico.

El problema es semántico

"Cuando dejamos un mensaje utilizamos una gramática terrible. El problema en realidad no es de reconocimiento, sino semántico y acústico. Es la gran oportunidad", dice Daniel Doulton, cofundador de Spinvox. La ratio de aciertos en la transcripción roza el ciento por ciento. Y la ventaja parece clara. "Es la regla de los dos sietes: es siete veces más rápido leer un mensaje que escucharlo y siete veces más rápido dictarlo que escribirlo".

En España, de la mano de Vodafone, cuatro millones de personas han convertido casi 20 millones de mensajes. Cifras rotundas. ¿Podría la telefonía resucitar la esperanza del reconocimiento de voz?

"El mercado en el móvil está creciendo más rápido que en el PC", asegura Doulton. Y a juzgar por el número de contendientes, bien podría ser así. Tellme Networks, adquirida por Microsoft, aspira a crear un nuevo tipo de búsqueda. Al decir "restaurante tailandés", un mapa se abre en el móvil, nos localiza vía GPS y muestra el local más cercano.

Con Vlingo, los adictos al Blackberry pueden enviar emails y SMS, o crear tareas en el calendario. Sólo tienen que pedirlo. Y servicios como ChaCha, un cruce entre Google SMS y Wikipedia, arrasan: basta con llamar a un número, formular cualquier pregunta y recibir en unos minutos la respuesta en mensaje de texto.

La duda abierta apunta al PC, donde aplicaciones como Dragon Naturally Speaking, del gigante Nuance, llevan años intentando colarse en los escritorios. La última versión, estrenada hace unas semanas, reduce el 20% los errores y el 50% el tiempo de espera en la aparición de palabras.

El problema es que casi nadie lo utiliza a diario en la escritura de textos o en el manejo del ordenador. "La gente es muy incrédula, creen que estos programas no funcionan. Simplemente es desconocimiento y no permitir un mínimo de tiempo para acostumbrarse", aclara Olga Bahamontes, directora de Nuance en España.

JJ Merelo, conocido blogger español y profesor de arquitectura y tecnología de computadores en la Universidad de Granada, probó Dragon una buena temporada. "Siguen siendo aplicaciones caras y no llegan al ciento por ciento de efectividad. Además, el lenguaje hablado es muy diferente del escrito, piensas más cuando tecleas". La ausencia de versiones para Mac y Linux tampoco ayuda.

Su diagnóstico coincide con el de la Universidad Politécnica de Valencia. Francisco Casacuberta codirige desde hace 22 años el grupo de investigación de tecnologías del habla, pionero en España. "Conseguir que la tecnología sea perfecta es imposible, estamos muy lejos, siempre tendrá que venir un humano a corregir por detrás".

Su equipo de 34 investigadores desarrolla programas que traducen automáticamente a varios idiomas textos hablados, o predicen el significado de las palabras y evitan errores. "Sería muy útil en la transcripción de discursos o en procesos judiciales, pero aún no está lo suficientemente maduro".

Donde la tecnología ha calado es en ciertas especializaciones médicas. Cada vez más doctores dictan sus informes en lugar de escribirlos y ahorran tiempo en la visita de cada paciente. USP Hospitales instaló Speech Magic, de Philips, en los departamentos de radiología de 14 de sus 35 centros en España. Antes pasaban dos días desde la escritura a la aprobación de un documento. Ahora bastan 15 minutos.

"La tasa de acierto está entre el 85% y el 90%. El radiólogo puede corregir por sí mismo a medida que dicta, o enviar el archivo de audio y texto a un centro administrativo donde lo corrigen", explica Santiago Raventos, director de sistemas de información de USP. Nuance desembolsó 66 millones de euros en octubre para hacerse con la unidad de Philips.

Casacuberta cree que en el futuro habrá una mezcla. "Imagen, sonido y superficies táctiles. Reemplazar el ratón será complicado". La respuesta, tal vez dentro de cinco años.

Daniel Doulton, cofundador de Spinvox.M. Á.-M

El éxito de la española Agnitio

Reconocer e identificar personas a través de su voz. A las imágenes y huellas dactilares les ha salido un fuerte competidor. Con ratios de error inferiores al 3% y la posibilidad de ser utilizado de forma remota, el reconocimiento vocal comienza a complementar, e incluso sustituir, a los más avanzados sistemas de biometría.

En España, compañías como Agnitio se han convertido en especialistas mundiales en este terreno. Su software lo utilizan cuerpos de seguridad y policía en 20 países; entre ellos, Colombia, México y Finlandia. Gracias a él mantienen un historial con voces de potenciales delincuentes. Algunos archivos de audio ya han sido utilizados en juicios en Alemania y Latinoamérica.

"Una ventaja frente a la biometría de iris o de huellas es que no necesitas instalar equipamientos. Basta una línea telefónica fija o móvil para transmitir los datos", reconoce Emilio Martínez, director general de Agnitio.

Su otra aplicación infalible: la atención telefónica en bancos y entidades financieras. ¿Cómo asegurarse, más allá de las contraseñas, que quien llama es realmente quien dice ser? "Es una forma muy efectiva de firmar transacciones financieras. Cuando llama un cliente, se contrasta su voz con el registro de sonido almacenado en el banco. Si ambos coinciden, se aprueba la transacción". Una nueva arma contra el fraude.

Suscríbete para seguir leyendo

El problema es semántico

El éxito de la española Agnitio

Archivado En