¿Es posible sacar partido del ‘big data’ sin que ello afecte a la privacidad de los usuarios? La respuesta podría estar en las ‘Privacy-Enhancing Technologies’ o PET, una serie de tecnologías que emplean distintos enfoques computacionales y matemáticos con un mismo fin: extraer el valor de los datos para desencadenar todo su potencial comercial, científico y social, sin poner en riesgo la privacidad y seguridad de la información.
Para que un asistente virtual, como Siri o Alexa, aprenda a reconocer la voz de su dueño, cada dato que sea capaz de analizar será de gran utilidad para anticiparse a las necesidades del usuario y ofrecer respuestas personalizadas gracias al ‘machine learning’. Aunque esto puede tener un precio: la privacidad de los individuos, que nutren al sistema con sus datos para hacerlo cada vez más inteligente.
No hay que ir muy lejos para encontrar más ejemplos ilustrativos de este problema. Desde la conducción autónoma, hasta el mundo de la salud o la industria energética, la misma situación podría aplicarse a innumerables escenarios en los que el análisis avanzado de datos tiene grandes ventajas (para usuarios, instituciones y la sociedad en su conjunto), pero al mismo tiempo, abre nuevos escenarios en los que se ponen en riesgo la privacidad, anonimato y seguridad de los datos.
“Esta situación está derivando en una creciente preocupación por parte del público general y una presión regulatoria cada vez más estricta, que limita lo que empresas e instituciones pueden hacer con el ‘big data’”, explica Iván Moreno, responsable de Investigación y Desarrollo en BBVA New Digital Businesses (NDB). Ante esta situación, este área lleva tiempo investigando una serie de técnicas de criptografía avanzada que permiten que los datos puedan ser analizados y compartidos sin exponer su contenido a terceros. Son las denominadas PET, por sus siglas ‘Privacy-Enhancing Technologies’, o técnicas de mejora de la privacidad, recogidas bajo esta nomenclatura en un reciente informe del Foro Económico Mundial, donde se analizaba su papel en el sector financiero.
¿Cómo funcionan?
En concreto, las tecnologías englobadas bajo esta denominación, y en las que el área de NDB está investigando aplicaciones para el sector financiero, son:
- Cifrado homomórfico (‘homomorphic encryption’)
Esta técnica permite que puedan realizarse operaciones sobre datos encriptados de manera que los resultados sean los mismos que si se hubieran realizado con datos que no estén cifrados. De esta forma, una compañía puede compartir datos con otra para su análisis, sin que estos dejen de ser totalmente anónimos y privados, “ya que solo contarían con ellos en un formato ininteligible”, explica Moreno.
Sus aplicaciones prácticas están limitadas al volumen de datos, ya que tan solo puede usarse para operar con cantidades limitadas de información.
- Cálculo seguro de múltiple parte (‘secure multi-party computation’)
Esta tecnología criptográfica surge en realidad como una subcategoría de la anterior, que permite realizar operaciones computacionales o analíticas complejas sobre un mayor volumen de datos encriptados; lo cual permite a su vez que puedan aplicarse sobre ellos modelos de ‘machine learning’.
Su uso ya está extendido en empresas como Google y Facebook, y está presente en productos como la herramienta de ‘machine learning’ Tensor Flow, que permite entrenar modelos con datos cifrados de terceros. Para ello, las empresas comparten sus datos cifrados con un tercero, que los analiza y devuelve los resultados del análisis sin comprometer para ello la privacidad del contenido.
Uno de los campos en los que tiene una aplicación más clara es el ámbito de la salud. “Ya existen proyectos para la mejora del diagnóstico a partir de análisis de imagen que emplean esta tecnología, de forma que los sistemas puedan aprender pero no se expongan los datos privados de los pacientes”, añade Moreno.
- Análisis federado (‘federated learning’)
Esta técnica va un paso más allá que las anteriores, y permite entrenar modelos de aprendizaje automático con datos sin necesidad siquiera de que estos salgan de las compañías o de los dispositivos en los que se han generado. Un enfoque de gran utilidad en los ámbitos del internet de las cosas y de la analítica avanzada.
La tecnología, en la que ya están investigando grandes empresas como Google, también podría servir, por ejemplo, para entrenar los sistemas inteligentes de asistentes virtuales mediante la recolección de datos ‘in situ’ de los distintos dispositivos conectados a una red de aprendizaje colaborativo, pero de manera que estos datos no salen en ningún momento del dispositivo en el que se generan. “Lo único que se comparte son los nuevos datos creados en el entrenamiento del modelo, que sirven para alimentar el sistema de aprendizaje, pero que no contienen ningún tipo de información privada de los usuarios”, añade el investigador de NDB.
- Pruebas de conocimiento cero (‘zero-knowledge proofs’)
Esta tecnología permite validar que una información es verdadera sin necesidad de exponer los datos que lo demuestran. Esto es posible gracias a una serie de algoritmos criptográficos mediante los cuales un ‘probador’ puede demostrar matemáticamente a un ‘verificador’ que una afirmación computacional es correcta, sin revelar ningún dato.
Sus aplicaciones son numerosas para la creación de oportunidades en el sector bancario o el de seguros, en los que podría facilitar el acceso a productos o servicios para los que se requiere información privada de los clientes, pero logrando que éstos no expongan sus datos.
- Privacidad diferencial (‘differential privacy’)
Finalmente, este sistema criptográfico permite añadir una capa de “ruido aleatorio” a un conjunto de datos, de manera que sea imposible extraer de ellos información concreta sobre cada pieza individual de información. De esta forma es posible compartir con un tercero los resultados de aplicar un modelo de aprendizaje automático a un conjunto de datos, manteniendo la privacidad de los datos que se han analizado.
“Desde NDB hemos explorado la posibilidad de utilizar esta técnica conjuntamente con el aprendizaje federado, de manera que distintas empresas u organizaciones puedan sacar beneficio de modelos de aprendizaje colaborativos sin poner en riesgo la privacidad de los datos con los que se trabaja”, explica Moreno.
Nuevas oportunidades y caminos inexplorados
El área de NDB cuenta con distintas líneas de investigación para explorar y realizar pruebas con estas tecnologías, especialmente con el aprendizaje federado, por su potencial para crear nuevos modelos de negocio que formen parte de una “nueva economía basada en datos, –en combinación con otras tecnologías como la inteligencia artificial y el internet de las cosas– que a día de hoy se enfrentan a grandes retos para desarrollar su verdadero potencial, en gran parte por las actuales restricciones regulatorias, sobre todo en el ámbito de la privacidad”, añade el investigador.
Gracias a nuevas combinaciones de datos podríamos averiguar cosas que ni siquiera habíamos imaginado que fueran posibles
Una de las vías más interesantes que se ha explorado, a través de distintas pruebas de concepto, ha sido la creación de modelos de aprendizaje colaborativo en los que varias empresas u organizaciones, incluso de distintos sectores, pueden contribuir con sus respectivos datos para aplicar sobre ellos modelos de ‘machine learning’ sin vulnerar su privacidad. “De esta forma podemos averiguar cosas que ni siquiera habíamos imaginado que fueran posibles, gracias a nuevas combinaciones de datos de distintos sectores y ámbitos”, añade.
Esto podría incluir datos de todo tipo, y no necesariamente personales; por ejemplo, procedentes del uso de tarjetas para crear modelos de mejora de la detección del fraude o del funcionamiento de servicios ‘online’ para mejoras de ciberseguridad. “Cuantas más entidades contribuyan con sus datos para entender todos los tipos de fraude que existen, mejores modelos podrán crearse de manera colectiva para detectarlo”, explica Moreno. De esta forma, gracias a estos nuevos modelos colaborativos también podrían crearse mecanismos para que las compañías u organizaciones obtengan beneficios a cambio de la extracción de valor de distintos conjuntos de datos.
A su vez, este tipo de nuevos enfoques presentan retos, que se han analizado exhaustivamente desde NDB. “Sería necesario crear sistemas para determinar cuánto contribuye cada una de las organizaciones a los modelos de aprendizaje en función de qué datos proporciona cada uno pero, una vez más, sin revelar el contenido de los datos en sí”, apunta.