Los superhéroes combaten los sesgos de género de los algoritmos
El uso de la inteligencia artificial para procesar grandes cantidades de información está extendiéndose en numerosos sectores, y por ello es crítico encontrar la forma de prevenir sesgos injustos. Una investigación científica de BBVA y la Universidad de Barcelona (UB) ha tratado de acercarse a este objetivo con el desarrollo de un modelo que clasifica automáticamente a más de 600 superhéroes entre buenos y malos, sin tener en cuenta, por ejemplo, su género o raza.
Irene Unceta, científica de datos de la Factoría de Inteligencia Artificial de BBVA, junto con Jordi Nin (ahora, profesor en ESADE) y Oriol Pujol, de la Universidad de Barcelona, han publicado una investigación científica en la que demuestran que es posible diseñar modelos de ‘machine learning’ efectivos sin usar datos sensibles, como el género o la raza, para la toma de decisiones.
“Nuestro objetivo es probar que se pueden mitigar los sesgos en los modelos predictivos basados en datos sin perder eficacia en los resultados y evitar así que los algoritmos tomen decisiones basándose en información sensible”, explica Irene Unceta, colaboradora del estudio, que acaba de ser presentado en la novena Conferencia Ibérica de Reconocimiento de Patrones y Análisis de Imágenes. Para ello, los investigadores tuvieron la ingeniosa idea de entrenar un modelo de clasificación, desarrollado específicamente para esta prueba, utilizando una base de datos de 600 superhéroes de ficción, en la que se hace una descripción completa de sus atributos físicos pero también de sus cualidades y superpoderes.
“El hecho de que un superhéroe sea hombre o mujer, mutante, robot o humano no debería ser relevante a la hora de clasificarlo como bueno o malo, por lo que el modelo debe entrenarse sin recurrir a información de este tipo”, explica Unceta. Este trabajo se engloba dentro del proyecto de doctorado industrial que está realizando en el Departamento de Matemáticas e Informática de la UB en colaboración con BBVA AI Factory.
El primer paso de la investigación fue desarrollar un modelo que utilizaba toda la información disponible, como el nivel de destreza con un centenar de superpoderes, el color de pelo, la altura o el peso; pero también información potencialmente sensible relativa a la raza o el género de cada superhéroe. Posteriormente, copiaron la estructura de decisión aprendida por este modelo para generar uno nuevo que funcionara sin tener en cuenta la información sensible.
Unceta, Nin y Pujol consiguieron que la capacidad predictiva de ambos modelos fuera similar. Además, el segundo modelo elimina casi por completo las diferencias en la capacidad de predicción entre mujeres y hombres al no tener en cuenta el género. Mientras que el primer modelo tendía a equivocarse más a la hora de clasificar a los hombres frente a las mujeres, en el segundo la capacidad de predicción se equilibra entre todos los personajes, sin importar su género.
En concreto, el primer sistema tuvo un 9% más de errores clasificando a los superhéroes masculinos que a la hora de analizar a las superheroínas. Sin embargo, en el segundo caso, esta diferencia se reduce hasta tres puntos al ignorar la distinción por género y raza.
El estudio también destaca cómo el segundo modelo, aunque copia la forma de operar del primero sin tener demasiado margen para evolucionar, suple la falta de información con la realización de pequeños reajustes en el proceso final de la toma de decisiones, con lo que se corrigen los sesgos aprendidos.
“El hecho de que un superhéroe sea hombre o mujer, mutante o humano, no debería ser relevante a la hora de clasificarlo como bueno o malo"
“El segundo modelo trata de compensar la falta de información a base de pequeñas modificaciones, que realiza de manera automática. Al estar restringido a replicar el comportamiento del primer modelo, su libertad de movimientos está muy limitada, por lo que se ve forzado a hacer pequeñas concesiones. Son justo estas concesiones las que permiten corregir parte del sesgo existente en el primer modelo”, explica Unceta.
El gran valor de esta investigación es que propone una metodología que potencialmente podría reducir los sesgos en el aprendizaje automático, al eliminar la necesidad de utilizar ciertos datos sensibles para entrenar al algoritmo. No obstante, cabe destacar que esta solución no siempre es posible. El estudio alerta expresamente de la posibilidad de que se produzca un ‘leaking’ o filtrado de la información. Este fenómeno se produce cuando hay datos correlacionados, de modo que aunque se eliminen algunos de ellos, se puede llegar a inferir la información sensible o potencialmente discriminatoria a través de los datos restantes.
A pesar de estas limitaciones, esta metodología abre un camino para lograr modelos más justos. Sus posibles aplicaciones en el mundo real incluyen ayudar a identificar y corregir los sesgos de los modelos de clasificación y su uso como un sistema para verificar que las decisiones de los algoritmos respetan principios de imparcialidad en la toma de decisiones.
Además, de cara al futuro, los investigadores comentan que se podrán incluir controles más sofisticados para asegurar la imparcialidad de las clasificaciones que realiza este tipo de modelo de datos.
Esta investigación representa un primer paso para el desarrollo de algunos modelos algorítmicos libres de sesgos, sin que ello vaya en detrimento de su precisión. Este es sin duda uno de las principales retos éticos a los que se enfrenta la inteligencia artificial, y uno de los principales debates en círculos académicos, de gobierno e industria, conscientes de que es necesario velar por que las decisiones automatizadas no vengan marcadas por los sesgos o prejuicios sociales reflejados en los propios datos.