IA responsable: ¿por qué hay que ponerle guardarraíles a la inteligencia artificial?
Los guardarraíles son medidas que guían el desarrollo de una IA responsable, para evitar que suponga una amenaza tecnológica, social o de seguridad. La IA ‘clásica’ y la generativa necesitan guardarraíles diferentes, ya que la capacidad de esta última para entablar conversaciones directas con los usuarios finales ha traído nuevos desafíos para los desarrolladores, como la generación masiva de ‘fake news’ o nuevos mecanismos para el ciberfraude.

Los guardarraíles de una carretera evitan que un vehículo se salga de ella por un accidente imprevisto o un error del conductor. De igual forma, el desarrollo de inteligencia artificial cuenta con sus propias medidas para garantizar que su uso no se desvíe de parámetros éticos, legales y seguros. Además, estos mecanismos también ayudan a reducir la degradación que experimenta el rendimiento de los modelos de IA con el tiempo, una situación que puede surgir por cambios en los datos de entrada o por una falta de actualización continua.
Su función es especialmente importante en un panorama empresarial en el que el uso de esta tecnología se está generalizando con rapidez: desde 2021, hay un 22% más de empresas que la utilizan en al menos una función comercial, según el último informe The State of AI de McKinsey; y se ha duplicado el porcentaje de compañías que ya la emplean en más de una función, pasando del 31% al 63%.
La inteligencia artificial puede tener diferentes niveles de riesgos. El nuevo Reglamento europeo de Inteligencia Artificial aprobado en 2024, por ejemplo, hace la siguiente clasificación:
- Riesgo mínimo: No se establecen obligaciones específicas para este tipo de sistemas IA a través del Reglamento. En esta categoría se incluyen, por ejemplo, los videojuegos con IA o las herramientas de correo que la utilizan para filtrar ‘emails’ no deseados.
- Riesgo limitado: Tienen que cumplir con obligaciones de transparencia; si un canal digital de atención al cliente está atendido por un ‘chatbot’ y no por una persona, por ejemplo, la empresa debe especificarlo así a sus usuarios.
- Riesgo alto: Sistemas con IA que podrían impactar en la salud (por ejemplo, un robot quirúrgico), la seguridad (un medio de transporte) o los derechos fundamentales de las personas (una herramienta para filtrar curriculums durante un proceso de selección); están sujetos a requisitos estrictos de calidad, transparencia y supervisión humana.
- Riesgo inaceptable: Sistemas que amenazan la seguridad, el medio de vida o los derechos de las personas, por lo que están prohibidos. La AI Act incluye aquí la inteligencia artificial que se utilice para manipular, engañar, reconocer emociones en lugares de trabajo y colegios, hacer identificación biométrica en tiempo real en lugares públicos o extraer materiales de internet y de cámaras de seguridad para crear bases de datos de reconocimiento facial.
El desarrollo de sistemas de IA de alto riesgo, conforme al nuevo Reglamento de Inteligencia Artificial, exige la implementación de salvaguardas técnicas y organizativas para proteger los derechos fundamentales. Estas salvaguardas incluyen medidas para garantizar que los sistemas no supongan un riesgo para la seguridad de las personas, respeten la privacidad de los datos, eviten sesgos y discriminación, minimicen errores o alucinaciones (respuestas no basadas en hechos reales), y estén protegidos frente a posibles vulnerabilidades técnicas. Además, tanto para sistemas de alto riesgo como de riesgo limitado, la AI Act impone obligaciones de transparencia, como informar claramente a los usuarios cuando interactúan con un sistema de IA o cuando se utilizan tecnologías como el reconocimiento de emociones o generación de contenidos sintéticos.

Así, algunos guardarraíles que podrían reforzar lo establecido en el Reglamento Europeo son:
- Tecnológicos: Por ejemplo, modelos de control automático para prevenir sesgos discriminatorios; moderación automática de contenidos que pueden contener discurso de odio o desinformación; filtros de seguridad, para prevenir ataques adversarios, o como los que detectan y bloquean contenido ilegal (como aquellos que amplifican ciberataques), o sexual o violento en canales digitales a los que pueden acceder menores; herramientas de monitorización constante de la actividad de los sistemas con IA, y de pruebas para validar y mejorar la robustez de los mismos; y sistemas de auditoría técnica para garantizar su explicabilidad, es decir, entender cómo llegan a sus resultados.
- De procedimiento: Es decir, el desarrollo de los sistemas IA debe respetar las normativas internas y protocolos éticos de las empresas. Además, las empresas deben establecer normativas y procesos para revisar y aprobar los sistemas IA antes de su despliegue, y así detectar posibles fallos y vulnerabilidades antes de que lleguen a sus clientes o empleados.
- Humanos: Procesos de supervisión directa, a veces llamados ‘human in the loop’ (especialmente cuando el sistema tiene un efecto sobre la vida de las personas), y revisión por expertos y comités éticos que evalúen los riesgos y tomen decisiones sobre usos específicos de la IA.
En BBVA, la detección de vulnerabilidades y bloqueo de ataques informáticos para el ‘chatbot’ Blue incluye el uso de guardarraíles tecnológicos, la monitorización en tiempo real, simulaciones de ciberataques externos para evaluar vulnerabilidades (pruebas conocidas como ‘AI red teaming’), y test adversarios, es decir, pruebas que evalúan la robustez de los sistemas y detectan posibles manipulaciones. “Todas estas técnicas ayudan a prevenir fraudes, filtraciones de información sensible, decisiones sesgadas y problemas regulatorios, garantizando la integridad, confidencialidad y seguridad de los datos financieros de nuestros clientes”, explica Juan Arévalo, senior manager del GenAI Lab de BBVA.

Nuevos guardarraíles para la IA generativa
Establecer guardarraíles para las herramientas de IA ‘clásica’ (analítica), como el ‘machine learning’ no generativo, puede ser relativamente poco complejo. Generalmente sus resultados son una puntuación o una probabilidad, por lo que gran parte de los guardarraíles consistirán en rangos preestablecidos: por ejemplo, cuando un modelo atmosférico predice una presión, el resultado siempre debe ser un número por encima de cero. Ahora, las capacidades generativas de los nuevos algoritmos de IA, que son potencialmente infinitas, hace necesario evitar aquellas respuestas imprevisibles o discriminatorias. También es necesario limitar su uso para evitar generar ‘fake news’ de forma masiva o mecanismos que faciliten el ciberfraude como el engaño a las personas mediante ingeniería social en ciberfraude (‘phishing’, ‘smishing’, fraude del CEO…).
Por ello, los desarrolladores deben establecer guardarraíles específicos para los modelos generativos. Un ejemplo son las marcas de agua y metadatos dentro de una imagen que consignan que ha sido creada o editada con IA, o las herramientas que se aseguran de que un modelo generativo no ejecuta sin permiso un código de ‘software’ que ha escrito, ni que sus respuestas se utilicen para automatizar procesos críticos.
Otro aspecto clave es garantizar la calidad de los datos con los que se entrenan los modelos generativos. Es fundamental contar con mecanismos que aseguren que los datos son adecuados, relevantes y seguros, y que el modelo se entrena exclusivamente para el propósito para el que ha sido diseñado, evitando respuestas o usos no previstos. Por ejemplo el ‘chatbot’ Blue está entrenado para responder únicamente a las preguntas de los clientes de BBVA relacionadas con operativas bancarias o el estado de sus finanzas. “En los modelos generativos, la calidad de los datos es igual o más importante que en los predictivos, porque no solo impacta en la precisión y fiabilidad de los resultados, sino también en que el modelo se mantenga dentro del uso para el que fue creado”, explica Víctor Peláez, Discipline Leader de Gobierno y Regulación en Analytics Transformation de BBVA.
A medida que los modelos se sofistican y se hacen más potentes, tienen menos tendencia a generar alucinaciones o a ser vulnerables a ataques, afirma Juan Arévalo, pero nunca podrán prescindir de la supervisión humana. “En ciberseguridad, por ejemplo, nunca podremos predecir todas las formas de ataque posibles”, explica. “Corresponde al humano detectar nuevos ataques y vulnerabilidades, hacer que los guardarraíles se adapten a ellos y asegurarse de que este proceso forme parte del ciclo de vida del desarrollo de los sistemas de IA”.