Los diez retos pendientes de los asistentes conversacionales
La buena conversación es un arte, y, si es con un 'software', todo un reto tecnológico. Dos de los expertos de BBVA Next Technologies explican cuáles son los próximos pasos que deben dar los asistentes conversacionales para llegar a ser como el de la película ‘Her’.
¿Cómo lograr que un asistente conversacional interactúe con el ser humano de la manera más natural posible? Jesús Martín y Marian Moldovan, investigadores de BBVA Next Technologies -la empresa de ingeniería de 'software' que resulta de la unión de i4S y BEEVA, que ya eran parte del Grupo-, llevan años trabajando en torno a esa pregunta. Es un trabajo técnico, complejo, muchas veces ininteligible para no profesionales. Pero también tiene un reflejo, algo deformado, en la cultura popular. Y de eso hablaron en unas recientes jornadas sobre inteligencia artificial organizadas por la comunidad Madrid AI.
Siri, el asistente pionero, lanzado por Apple, llegó en 2011, y hoy comparte protagonismo con Alexa, de Amazon, Cortana, de Microsoft, y Google Assistant. Pero incluso los que crecieron hace treinta años tuvieron referencias en su infancia de los asistentes conversacionales, cuando ni siquiera el concepto como tal existía.
Ya en la serie ‘El coche fantástico’, Kitt ayudaba a un joven David Hasselford a luchar contra el crimen, y hasta le daba algo de charla, pero, como recordó Martín, “estaba orientado a la ejecución, no al diálogo”.
Martín y Moldovan prefieren trabajar con expectativas más altas –“somos un departamento de investigación, queremos volar más alto”, dijo durante su intervención el primero– y por eso, puestos a buscar una referencia en asistentes conversacionales, su sueño es el de la película ‘Her’.
En esta película de 2013, dirigida por Spike Jonze, el solitario personaje interpretado por Joaquin Phoenix se enamora de su asistente conversacional, Samantha, que en la versión original tiene la cautivadora voz de Scarlett Johansson.
‘Her’, que ganó el Oscar al Mejor Guión Original, puede interpretarse como una reflexión sobre la soledad en las actuales sociedades hipertecnificadas, pero, además, para perfiles profesionales como los de Martín y Moldovan, su ‘coprotagonista’ es un modelo a seguir. Trabajan todos los días para lograr asistentes conversacionales como Samantha, y saben que aún están lejos de alcanzar ese punto.
Para marcar su camino señalan diez virtudes de Samantha que les gustaría aplicar en la realidad. Las desgranaron durante su charla.
- No necesita una “wake up word”, un término que active el dispositivo, como, por ejemplo, ‘Ok, Google’ o ‘Hey Siri’.
- La voz es muy atractiva.
- No es necesario ningún tipo de señal para marcar los turnos de la conversación.
- No tiene prisa por contestar o incluso no contesta. Sabe, como en la vida real, que muchas afirmaciones no necesitan ni esperan una réplica.
- Detecta cuándo un tema de conversación genera interés y es capaz de profundizar en él.
- Suspira y emite sonidos humanos.
- Detecta cuándo la conversación es a varias bandas y es capaz de saber cuándo se dirigen a ella.
- Identifica los sentimientos del interlocutor y es capaz de actuar en consecuencia.
- Comparte una base de conocimiento común con el interlocutor, y es capaz de utilizarla durante la conversación.
- Enlaza temas de conversación.
Algunas de estas funcionalidades son todavía ciencia ficción, como la capacidad de detectar los sentimientos del interlocutor. Los seres humanos sabemos si hablamos con alguien estresado, tranquilo, de buen humor, susceptible… analizando muchas informaciones heterogéneas como el tono de voz, el ceño, sus gestos, la velocidad con la que habla y, muy importante, el contexto. Los asistentes conversaciones ya trabajan con cámaras, pero a tanto no llegan.
Sin embargo, otras de esas virtudes de Samantha sí empiezan a ser una realidad. Moldovan destacó, por ejemplo, la capacidad de generar voces atractivas de WaveNet, un 'software' desarrollado por DeepMind, la puntera empresa de inteligencia artificial adquirida por Google en 2014. Y cada vez más altavoces inteligentes son capaces de reconocer voces de distintos interlocutores y detectar si los mensajes de una conversación se dirigen a ellos.
Además, los asistentes conversacionales ya emiten sonidos humanos, como carraspeos, y algunos incluyen la opción del sonido de un teclado para dar más sensación de que hay una persona al otro lado buscando información. Se trata de una forma u otra de imitar lo máximo posible a un interlocutor humano. Al otro lado estará siempre un 'software' desprovisto de emociones, sí, pero con todo tipo de información disponible para hacernos la vida más fácil.