Los LLM (modelos de lenguaje): qué son y cómo funcionan
Las herramientas de inteligencia artificial generativa evolucionan a gran velocidad: en tan solo dos meses ChatGPT alcanzó los 100 millones de usuarios frente a otras plataformas como TikTok, que necesitó nueve. Para entender su potencial antes es necesario comprender qué son los grandes modelos de lenguaje que están detrás de estas aplicaciones.
¿De dónde viene el término 'GPT' del modelo sobre el que se basa la herramienta de inteligencia artificial generativa ChatGPT? Se trata del acrónimo en inglés de 'Generative Pre-trained Transformer'. 'Transformer' hace referencia al tipo de arquitectura de red neuronal sobre el que está construido, que se definió por primera vez en 2017 en la publicación 'Attention is all you need'. 'Pre-trained' y 'Generative' hacen referencia a su naturaleza de gran modelo de lenguaje (o LLM, por sus siglas en inglés), es decir, se trata de un modelo que ha sido entrenado previamente con un conjunto de datos determinados y que tiene la capacidad de generar información.
¿Pero qué son exactamente los LLM? "Los LLM son modelos pre-entrenados con una técnica llamada aprendizaje automático, capaz de analizar miles de millones de corpus de texto para aprender patrones de lenguaje, gramática y contexto", afirma Curro Maturana, responsable Global de GenAI de BBVA. "El gran cambio con respecto a modelos de inteligencia artificial clásica, estriba en que los LLM son modelos auto-supervisados, es decir, no hay etiquetado previo de datos".
Este entrenamiento les permite realizar tareas relacionadas con el lenguaje, como traducción, creación de contenido, resumen y conversación, con una precisión y fluidez muy similar a la de un ser humano. En el caso de GPT-4, que es el LLM que utiliza en la actualidad ChatGPT, además, fue ajustado mediante aprendizaje por refuerzo a partir de retroalimentación humana e IA.
Desde la postulación teórica del test de Turing en la década de 1950, los humanos han explorado la capacidad de que un humano pueda mantener una conversación con un ordenador sin que el usuario perciba que se trata de una máquina. Fruto de esta convicción nació en 1966 el considerado como primer 'chatbot' de la historia, Eliza.
Pero tras décadas de desarrollo, esta interacción se ha perfeccionado hasta tal punto que es posible obtener contenido original a partir de una petición humana gracias a plataformas como ChatGPT, Bing AI o Bard. Y todo esto es posible gracias a la arquitectura Transformer en la que se basan los LLM.
Cómo funciona un gran modelo de lenguaje
Los grandes modelos de lenguaje se engloban dentro del ámbito del procesamiento de lenguaje natural (PLN), operando como una gran red neuronal que aprende del contexto, de los propios contenidos y a partir del análisis de secuencias de palabras.
Al hacerlo a gran escala con miles de millones de parámetros, permiten desbloquear la capacidad de que la IA sea capaz de generar contenidos similares a los que haría una persona, al igual que permite ChatGPT. Estos modelos están evolucionando utilizando distintos datos de entrada para generar otro tipo de salidas como por ejemplo audio, imágenes, vídeo o 3d, entre otros. Estos nuevos tipos de modelos se engloban en el concepto de Generative AI. No obstante, para conocer más en profundidad de qué forma operan, hay que desgranar cada una de las palabras que forman la sigla:
- Gran. Alude a los millones de parámetros y palabras que se emplean para entrenar y nutrir al modelo, por ejemplo, GPT. El término 'large' (grande) se comenzó a emplear para describir a BERT, el LLM de Google, que utiliza 110 millones de parámetros. En 2023, GPT-3 utilizaba 175.000 millones de parámetros. Se desconoce el número de parámetros usados en GPT-3.5 y en GPT-4, algunos expertos estiman que GPT-4 tiene una capacidad 600 veces mayor que GPT-3, lo que serían unos 100 billones de parámetros.
- Modelo. Hace referencia al modelo matemático probabilístico: en esencia, los LLM calculan la probabilidad de que una palabra siga a una cadena de palabras que ha sido proporcionada previamente ('prompt'). Por medio del mecanismo de atención comprueba cada nuevo 'token' (palabra o parte de ella) una y otra vez, consiguiendo crear una gramática perfecta en el idioma que sea y el sentido correcto del texto.
- Lenguaje. Es el término que permite reconocer patrones basados en el lenguaje humano extraído de páginas webs, libros, artículos de medios 'online', así como otros tipos de documentos.
Ejemplos de grandes modelos de lenguaje
En la actualidad, existe un amplio abanico de LLM en activo y en desarrollo. Algunos de los más destacados son:
- GPT-4. Presentado en marzo de 2023, este gran modelo de lenguaje posee una profunda comprensión de textos complejos. Es el ejemplo de la próxima generación de los LLM con capacidades multimodales (Multimodal Large Language Model o MLLM): más allá de procesar texto, puede interpretar información de otra fuente como imágenes.
- BERT. Siglas de 'Bidirectional Encoder Representations from Transformers', es una familia de LLM desarrollada por Google que no solo es capaz de procesar palabras por sí sola. Posee una comprensión profunda del significado del contexto de las palabras en frases, así como la relación entre ellas.
- PaLM2. Siglas de 'Pathways Language Model', esta evolución de PaLM se entrenó con más de 500.000 millones de parámetros. Este modelo de lenguaje, desarrollado también por Google, es capaz de comprender secuencias de lenguaje complicadas como acertijos o frases hechas.
Además, de estos modelos de lenguaje también es preciso mencionar los conocidos como LLM de código abierto. Este tipo de modelos son accesibles al público, de tal modo que pueden ser utilizados por desarrolladores o investigadores para mejorarlos o modificarlos. Uno de los resultados de este tipo de modelos es BLOOM, capaz de generar texto en 59 idiomas, o Llama 2, desarrollado por Meta y Microsoft.
Casos de uso de los LLM
A medida que los modelos de lenguaje aumentan su envergadura, también lo hacen sus capacidades. A grandes rasgos su uso se ha expandido en los siguientes campos:
- Generación de contenido y productos. Es uno de los caminos que más empresas han decidido explorar. Los grandes modelos de lenguaje permiten analizar una gran cantidad de datos y crear recomendaciones personalizadas o contenido adaptado a cada cliente.
- Categorización y resumen de información. Los grandes modelos de lenguaje pueden ser usados, por ejemplo, para la categorización y resumen de contenido. Esta ventaja está siendo aprovechada por departamentos jurídicos a través, por ejemplo, de un previo entrenamiento exhaustivo para limitar la aparición de errores y la búsqueda de jurisprudencia adecuada para cada caso.
- Traducción de contenido. Los grandes modelos de lenguaje no solo son útiles para realizar traducciones entre diferentes idiomas, sino también entre lenguajes de programación para aquellas empresas que, por ejemplo, desean modernizar sus sistemas.
- 'Chatbots'. A través de grandes modelos de lenguaje, las empresas pueden afinar el entrenamiento de 'chatbots' y mejorar, de este modo, su servicio de atención al cliente o mejorar las capacidades de los equipos. A modo de ejemplo, Salesforce ha desarrollado Einstein Bot, un asistente que permite automatizar tareas y ayudar a equipos a ser más productivos.
A pesar de las oportunidades que abren, los grandes modelos de lenguaje también presentan desafíos a resolver, como la calidad de los datos que son utilizados para entrenarse o los sesgos que puedan estar presentes en los datos de partida. Otro desafío importante es el de las alucinaciones: aunque la información esté correctamente redactada, podría ser inventada. En cualquier caso, la exploración de la comunicación entre humanos y máquinas continúa su evolución, convirtiendo hechos propios de la ciencia ficción en reales.