Datos sintéticos: así puede entrenarse la inteligencia artificial sin usar información de personas reales
Cada vez más desarrolladores e ingenieros en el sector tecnológico recurren a datos sintéticos, en lugar de datos reales, para entrenar algoritmos de inteligencia artificial. De esta forma, aspiran a proteger la privacidad de los usuarios y reducir el tiempo necesario para disponer de datos anonimizados y de calidad.
Cada usuario de internet genera 1,7 MB de datos por segundo, en promedio, según la firma de ‘software’ en la nube DOMO. Pero no todas las empresas pueden consultarlos y utilizarlos. Sin acceso a esa información, puede resultar difícil crear herramientas que funcionen adecuadamente. Es ahí donde entran en juego los datos sintéticos, que en ocasiones sustituyen a los reales para entrenar algoritmos de aprendizaje automático e inteligencia artificial (IA).
¿Qué son los datos sintéticos?
Los datos sintéticos son cualquier información creada artificialmente que no representa eventos u objetos del mundo real. “El concepto de dato sintético no es para nada nuevo, este tipo de datos artificiales se viene construyendo desde hace años”, afirma Mario Bricio, cofundador de la empresa de IA Dedomena. En la actualidad se usan, por ejemplo, para entrenar vehículos autónomos, desarrollar dispositivos médicos o detectar fraudes. Normalmente, se emplean en dos situaciones: cuando los modelos recurren a información personal o sensible en la fase de entrenamiento y cuando es preciso incrementar el volumen de datos de calidad, dado que no hay suficientes observaciones.
“Imaginemos que queremos entrenar un algoritmo de predicción de fraude transaccional”, afirma Bricio. El conjunto de datos en cuestión contiene datos sobre balances, productos, demografía y comportamiento del usuario. Es decir, información sensible. Además, los casos fraudulentos son un porcentaje muy pequeño del total de observaciones. Generando datos sintéticos a partir de los originales, es posible aumentar la muestra manteniendo el valor predictivo y con información anónima.
¿Cómo se generan estos datos?
Existen varias técnicas para generar datos sintéticos. “Los científicos de datos primero tienen que desarrollar un modelo sólido que imite un conjunto de datos real”, cuenta Fernando Costa, consultor principal de análisis de datos en Ironhack. Muchas de las técnicas utilizadas para generar datos sintéticos se basan en algoritmos de aprendizaje profundo que aprenden las interrelaciones, patrones, distribuciones y características estadísticas de los datos. De esta forma, según Bricio, son capaces de generar datos sintéticos “casi de la misma calidad que los originales y totalmente anónimos”.
Entre las técnicas que se usan para generar datos sintéticos, están los Variational Autoencoders (capaces de aprender la distribución de datos subyacente y generar un modelo complejo), los Generative Adversarial Networks (capaces de producir representaciones realistas y muy detalladas) o los Neural Radiance Field (una técnica para crear nuevos puntos de vista a partir de una escena 3D parcialmente conocida). Todas estas tecnologías aún tienen márgen de mejora, ya que cada industria y cada tipo de dato tiene sus particularidades.
Las ventajas de usar datos sintéticos
Utilizar datos sintéticos para entrenar modelos de IA tiene múltiples ventajas. “Las organizaciones pueden hacer factibles proyectos imposibles, acelerar significativamente las iniciativas de inteligencia artificial y mejorar sustancialmente los resultados de los algoritmos de ‘machine learning’”, afirma Bricio. Esto les permite extraer el máximo valor de los datos.
También puede ser útil para garantizar la privacidad de los clientes. Los datos reales contienen información confidencial y privada de los usuarios, por lo que no se pueden compartir libremente. Sin embargo, Bricio subraya que los datos sintéticos permiten a las empresas crear aplicaciones y soluciones de ‘software’ basadas en datos sin exponer información de identificación personal de sus clientes. Es decir, los conjuntos de datos sintéticos se pueden publicar, compartir y analizar de manera más abierta, sin revelar información de un individuo real.
Particularidades
Los datos sintéticos tienen sus propias particularidades, que los desarrolladores deben tener en cuenta a la hora de crearlos.
Por ejemplo, cuando se basan en datos del mundo real, si son demasiado similares pueden surgir problemas de privacidad, tal y como afirma Costa y recogen algunas investigaciones. Esto es especialmente importante si los datos originales contienen información de identificación personal que, además, puede estar sujeta a leyes de privacidad.
Por otro lado, el Supervisor Europeo de Protección de Datos aconseja realizar una evaluación de garantía de privacidad para garantizar que los datos sintéticos no sean datos personales reales, ya que en ocasiones los enfoques de anonimización no brindan garantías de privacidad rigurosas. “Esta garantía evalúa hasta qué punto las personas pueden identificarse en los datos sintéticos y cuántos datos nuevos sobre ellas se revelarían tras una identificación exitosa”, afirma el organismo.
Además de que puede ser difícil crear datos realistas que no revelen información privada de los usuarios, hay que tener especial precaución en que la calidad de los datos sintéticos no esté sesgada. Tal y como subraya Bricio, está muy correlacionada con la calidad del conjunto de datos originales. “Dependiendo de la muestra de datos original, también resulta complejo representar valores atípicos en los nuevos datos generados”, añade el experto.
El uso de datos sintéticos en el sector bancario
Mientras que empresas tecnológicas como Uber o Google usan los datos sintéticos para entrenar vehículos autónomos, otras como Amazon los utilizan con su asistente virtual, Alexa. Los bancos y las instituciones financieras también pueden beneficiarse de los datos sintéticos. Por ejemplo, a la hora de entrenar modelos de aprendizaje automático para detectar o predecir el fraude.
BBVA AI Factory está colaborando con Dedomena para explorar el uso de estos datos en el entrenamiento de los modelos de IA que desarrolla para el banco.
“Generar datos sintéticos abre posibilidades muy interesantes para mejorar nuestros productos y servicios basados en aprendizaje automático”, explica Jesús Renero, responsable de la disciplina de Analítica Avanzada en BBVA AI Factory. “Por un lado, nos permite salvaguardar aún más la seguridad y privacidad de nuestros clientes, evitando la exposición innecesaria de datos sensibles. Por otro lado, facilita la exploración de nuevas tecnologías, que de otro modo sería más complicado utilizar, además de permitir un uso más correcto de las mismas. Con datos sintéticos podemos estar más seguros de la equidad de los modelos que entrenamos, al tiempo que abarcamos más supuestos, lo que nos permite anticiparnos a situaciones imprevistas”.
Una de las aplicaciones más importantes del aprendizaje automático en finanzas es la detección de transacciones fraudulentas, según Costa. Pero los conjuntos de datos que contienen actividades fraudulentas suelen estar ‘desequilibrados’: “Estas actividades constituyen un pequeño porcentaje del total y esto dificulta que un modelo de ‘machine learning’ aprenda de dicho conjunto de datos para detectar nuevas instancias de fraude”. Aumentando su volumen con datos sintéticos, el modelo puede entrenarse para producir resultados más precisos.
Los datos sintéticos también pueden permitir a las instituciones financieras realizar simulaciones y probar estrategias en condiciones extremas. Algo que, tal y como señala Costa, puede ser muy útil para ver qué ocurriría ante una caída del mercado o fallos en las aplicaciones. Es imposible simular este tipo de escenarios si se carece de la información que surja de estas condiciones. “Los datos sintéticos se pueden utilizar para llenar estos vacíos y ayudar a las organizaciones a desarrollar estrategias para contrarrestar este tipo de eventos”, concluye el experto.