Desde el Pacífico

Powerset y Hakia: los 'david' de la búsqueda

POWERSET.COM es una de las novedades de las que más se hablan porque toma el problema de la búsqueda de manera diferente. En vez de fijarse en palabras clave sin necesaria relación entre sí, pretende entender tanto el sentido de las preguntas como el de las frases que va indexando (la técnica se llama procesamiento de lenguajes naturales).

Lo más impresionante para quien no es ingeniero es que la porción de texto marcada en las respuestas muchas veces contiene palabras que no figuraban en la pregunta. Por ejemplo a la pregunta "what politicians were killed by a disease?" (¿Qué políticos...

Regístrate gratis para seguir leyendo

Si tienes cuenta en EL PAÍS, puedes utilizarla para identificarte

POWERSET.COM es una de las novedades de las que más se hablan porque toma el problema de la búsqueda de manera diferente. En vez de fijarse en palabras clave sin necesaria relación entre sí, pretende entender tanto el sentido de las preguntas como el de las frases que va indexando (la técnica se llama procesamiento de lenguajes naturales).

Lo más impresionante para quien no es ingeniero es que la porción de texto marcada en las respuestas muchas veces contiene palabras que no figuraban en la pregunta. Por ejemplo a la pregunta "what politicians were killed by a disease?" (¿Qué políticos murieron por una enfermedad?, Powerset da, entre otras respuestas "Hughes Fraser died from lung cancer" (Fraser murió por cáncer de pulmón). Entiende que Hugues era un político y que "ser matado" y "morir" tienen significados similares. Su indexación no se limita a las palabras, busca su significado, analiza el contexto, considera los sinónimos.

La búsqueda por voz 1-800-GOOG-411 que prepara Google informa sobre comercios locales. Deberá permitir la búsqueda vocal
Es muy temprano para saber si Powerset, Hakia, Snap o ChaCha pueden ganarle a Google. Sin embargo dan resultados a veces mejores, pese a que están empezando.

Scott Prevost, uno de sus dirigentes, anuncia que una vez terminado para el inglés (anuncian la salida para septiembre) desarrollarlo para otros idiomas será cuestión de meses.

Powerset cuenta con una patente de Xerox Parc que "permite a las computadoras entender el sentido de los lenguajes humanos". Los ingenieros presentes se quedaron bastante impresionados y Ero Carrera, un español que trabaja para Sabre-Security.com comentó: "El hecho, recalcado por ellos, de que indexan semánticamente, incorporando significado dentro de sus índices me parece lo más revolucionario de su forma de atacar el problema de la búsuqeda del lenguaje natural".

Powerset apuesta por una comunidad abierta de desarrolladores: 10.000 ya participan en ella, según Steve Newcomb, el número dos. Presentó el proyecto como una mezcla de Digg, Facebook y las aplicaciones de Google, y dice apostar por una idea de la competencia que integra la sabiduría de la muchedumbre en su ambicioso objetivo que no es nada menos que "sustituir el corazón de los motores de búsqueda". No es el único.

Empresa basada en Nueva York, pero financiada con capital exterior, Hakia.com trabaja también el concepto de "búsqueda semántica", explica su fundador. Sabe que hoy por hoy resulta muy difícil ganar a Google, pero afirma que Hakia es mejor para responder a las preguntas más complicadas, o menos comunes: las que figuran en la larga cola de las búsquedas, para las cuales Google no sirve de mucho.

"Sin que sea necesario recurrir a las estadísticas, las búsquedas en la larga cola pueden ser analizadas por algoritmos semánticos y dar instantáneamente resultados que contienen el contexto pertinente", afirma Riza Berkan, fundador de Hakia. A diferencia de Powerset, Hakia ya está funcionando.

Es muy temprano para saber si Hakia o Powerset (también habría que integrar Snap.com y ChaCha.com en este grupo de start-ups ambiciosas), pueden ganar a Google. Resulta muy sorprendente, sin embargo, ver que pueden dar resultados a veces comparables, a veces mejores, cuando aún están en fase de pruebas.

Peter Novik, director de investigación para Google declaró hace algunos meses: "El enfoque estadístico es más económico, más rápido, más robusto, más fácil de internacionalizar y más eficicaz". Y con eso, Google es de uso sencillo. En junio Marisa Mayer, vicepresidenta de Google, desveló algunas pistas que sigue la compañía.

Destaca la traducción automática de una pregunta y de las respuestas. Por ejemplo, un egipcio en busca de un restaurante en Nueva York ganaría si su pregunta, hecha en árabe, fuese automáticamente traducida al inglés para traer las respuestas de los sitios en inglés, que, a su vez, serían automáticamente traducidas al árabe.

Más sencillo y potencialmente muy útil es el nuevo sistema de búsqueda por voz 1-800-GOOG-411. En fase de prueba permite buscar información sobre comercios locales. Su mejoría debe permitir una generalización de la búsqueda vocal y, según Mayer, abre la puerta a la búsqueda de vídeos con la indexación de diálogos.

Archivado En