Cuando la inteligencia artificial diseña voces casi indistinguibles de la humana
Esta tecnología ha pasado del reconocimiento de la voz y su transcripción a texto a ser capaz de generar una voz humana y natural. Entre las aplicaciones de este innovador desarrollo están facilitar el día a día con los asistentes de voz, la atención al paciente en el sector sanitario o el mercado del audiolibro. Gigantes tecnológicos como Google, Amazon, Apple o Microsoft están trabajando para situarse al frente de un sector que, para 2030, podría mover más de 50.000 millones de euros.
La inteligencia artificial (IA) parece no tener límites. ¿Quién podría predecir hace pocos años que sería factible generar una conversación entre el desaparecido cofundador de Apple, Steve Jobs, y un cómico estadounidense, Joe Rogan? Hoy, sin embargo, resulta posible.
La empresa Play.htc, con sede en Dubai, publicó en 2022 un podcast en el que ambos personajes mantienen una conversación completamente fabricada, gracias a un sistema que ha permitido aprender de cientos de grabaciones en línea y que ha emulado con precisión el tono y la voz de Jobs y Rogan. Play.ht explica que el guion de la entrevista fue generado por IA, a partir de un gran modelo lingüístico (LLM) —redes neuronales que fueron entrenadas con una gran cantidad de datos para aprender y reproducir la estructuras del sonido— similar a GPT-3, uno de los modelos de IA más avanzados que ha sido desarrollado por OpenAI, creador también de ChatGPT.
“La inteligencia artificial de voz ha avanzado a pasos agigantados y está en constante evolución”, afirma Pascual Parada, director académico y de Innovación de IEBS Business School. Desde los años 50 del siglo pasado, cuando se empezó a forjar la idea del hombre con la máquina, esta tecnología ha pasado del reconocimiento del sonido y la transcripción del mismo a texto a poder generar una voz humana y natural. Muestra de este avance está en algunas casas con los asistentes virtuales (Siri de Apple, Alexa de Amazon, Google Assistant o Cortana de Microsoft), que a través de la voz de una persona realizan tareas y responden preguntas. O asistentes de aplicaciones financieras como Blue de BBVA, que permite interactuar con el banco de forma más rápida y sencilla y obtener respuestas personalizadas y automatizadas.
También están los ‘chatbots’ que emplean sistemas de reconocimiento de voz y convierten el sonido de las palabras en texto y viceversa, los cuales se utilizan en diversos servicios.
Por ejemplo, la seguridad social francesa trabaja con soluciones de automatización de llamadas a través de un sistema de voz inteligente, entrenado para solucionar preguntas y gestiones médicas. “Cuando alguien quiere resolver algo, llama al número de la seguridad social. Entonces, le responde un bot, que se presenta: ‘buenos días’. Después el usuario hace una pregunta. El sistema identifica la intención y le ofrece diversas alternativas”, explica Pablo de Mier, ‘country manager’ de España de CM.com, la empresa que ha creado la herramienta, que atiende un millón de conversaciones al mes. “Nos estamos acostumbrando a hablar con inteligencias artificiales cada vez más y no nos estamos dando cuenta”.
Aprender una voz concreta
El interés por esta innovación es tal que el año pasado —según datos de la consultora Grand View Research— el mercado de reconocimiento de voz y habla a nivel mundial gestionó 17.170 millones de dólares (unos 16.018 millones de euros, al cambio actual). Y las expectativas apuntan a que para 2030, el sector moverá 53.660 millones de dólares (50.062 millones de euros), con una tasa anual compuesta del 15,3%. La integración de sistemas inteligentes se está llevando a cabo en diversos sectores: desde la educación (con sistemas que permiten a los estudiantes interactuar con los materiales de aprendizaje de manera más natural y aumentando la accesibilidad para aquellos con discapacidades), hasta en el comercio (permitiendo a los clientes realizar pedidos y hacer preguntas de manera sobre los productos a adquirir).
La inteligencia artificial de voz ha mejorado en su capacidad para comprender y responder a los comandos e incluso ha avanzado hasta el punto de poder generar voz humana, como en la conversación entre Jobs y Rogan. Aquellos sistemas que pueden emular la voz de una persona con un alto grado de naturalidad y fluidez se les conoce como inteligencia artificial generativa. “Son sistemas que utilizan modelos de aprendizaje profundo para analizar grandes cantidades de datos de voz humana y aprender a crear un sonido idéntico”, explica Enrique Dans, profesor de Innovación y Tecnología en IE Business School. “Es ‘machine learning’ a su máxima potencia”.
El proceso se basa en el aprendizaje automático. El modelo —que incluye de redes neuronales profundas (DNNs)— es alimentado con un gran volumen de datos de sonido. La cantidad de información vertida le permite aprender las características y patrones únicos de la voz (vibración, tono, timbre, intensidad) para imitar así los sonidos al generar un audio nuevo. Microsoft ha aplicado este complejo proceso en su herramienta VALL-E, la cual es capaz de imitar la voz de una persona con solo tres segundos de entrenamiento y que el gigante tecnológico ha alimentado con una biblioteca de audio de 60.000 horas de voz que recoge a más de 7.000 angloparlantes (aunque, a diferencia de ChatGPT, está cerrado al público). Y no es la única empresa que se ha volcado en este tipo de innovaciones.
El buscador Google está preparando cerca de una veintena de aplicaciones basadas en esta mirada (sobre todo, gracias a la experiencia que le aporta la compra en 2014 de la firma de investigación en IA DeepMind). El buscador ya había presentado en 2018 Google Duplex, un sistema que permite a los usuarios realizar tareas complejas, como hacer una reserva en un restaurante, por medio de una conversación natural con un asistente virtual. La herramienta puede imitar la forma en que una persona habla, incluyendo elementos como las pausas y las inflexiones, para que la conversación sea más real.
De los lectores de libros a la suplantación de identidad
Amazon no se ha quedado atrás y ha desarrollado Polly, una herramienta que permite generar voz de alta calidad a partir de texto. The Washington Post (que pertenece a Jeff Bezos, el fundador de la firma de comercio electrónico Amazon) utiliza este sistema, brindando a los lectores la posibilidad de escuchar las noticias y demás artículos del periódico en vez de leerlos.
Baidu, el buscador chino, también ha desarrollado su propio asistente personal (Duer) y está por lanzar su IA conversacional denominada Ernie Bot. IBM Watson ha hecho lo propio con Watson Text to Speech, que permite generar voz natural a partir de texto. Apple, por ejemplo, ha incorporado a su aplicación Apple Books, un narrador basado en IA que “se escucha” como un ser humano.
Estos avances tecnológicos también tienen otra cara: la de la posible suplantación de identidad en actividades delictivas y para generar ‘fake news’. Una tecnología que logra reproducir con un alto grado de precisión las inflexiones y tono de una voz concreta, puede ayudar a generar ‘deepfakes’ que viralicen noticias falsas de personajes públicos (como, por ejemplo, la declaración de rendición de un falso presidente de Ucrania ante Rusia). Además, también podría ser empleada por ciberdelincuentes para intentar suplantar la identidad de un usuario en el acceso a su cuenta bancaria con biometría de voz. No obstante, las tecnologías biométricas tienen en cuenta esta amenaza y están preparadas para hacer frente a estos posibles intentos delictivos.
Mientras tanto, la IA de voz también está llegando al entretenimiento. Un ejemplo de esto es el que ha hecho el DJ francés, David Guetta, que ha usado esta tecnología para incluir la voz, recreada, del rapero estadounidense Eminem —“Este es el sonido rave del futuro / Me estoy volviendo increíble y clandestino”— en una de sus canciones.
La inteligencia artificial de voz generativa está siendo utilizada en la música para crear efectos vocalizados, modificar voces y crear melodías sintéticas (piezas generadas por una herramienta tecnológica). Pero también para producir música nueva. Google ha desarrollado MusicLM, un modelo que hace música de alta fidelidad a partir de descripciones de texto. El sistema, por ejemplo, ha compuesto una melodía con la descripción de La persistencia de la memoria, de Salvador Dalí. MusicLM fue entrenado con 28.000 horas de canciones tocadas por humanos y es capaz de componer canciones de longitud variable, con variaciones rítmicas y la combinación de diversos instrumentos y géneros.
“Estamos viendo apenas el inicio de toda la potencialidad que tiene la IA”, afirma Parada. “Que una máquina es algo que solo podíamos imaginar en la ciencia ficción, pero hoy ya es real”, concluye Dans.