Cerrar panel

Cerrar panel

Cerrar panel

Cerrar panel

Data> Big Data Act. 16 may 2018

Sobre el uso responsable de datos y algoritmos

En los artículos anteriores de esta serie hemos visto que gracias a los datos, con el talento adecuado y la imprescindible alineación de las estrategias de negocio a la hora de implementar soluciones innovadoras, es posible generar inteligencias que ayudan a resolver una gran diversidad de problemas así como a abordar nuevas oportunidades. Ahora, se abordan las claves para hacer un uso responsable de los datos y algoritmos que refuerce la confianza de la sociedad en los nuevos servicios digitales.

big-data-datos-ciudad-smart-city-BBVA

Tenemos a nuestro alcance una capacidad mejorada para tomar decisiones, tenemos una visión mucho más profunda de cómo son y qué necesitan nuestros clientes. Pero estas nuevas capacidades, como cualquier otra herramienta, se pueden usar para finalidades positivas, y para otras que pueden no serlo tanto, ya sea de forma deliberada o no. Analicemos los riesgos asociados al uso de datos y algoritmos, y orientemos sus aplicaciones hacia el refuerzo de la confianza de la sociedad en los nuevos servicios digitales sobre los siguientes elementos fundamentales: la autorregulación, la transparencia, la divulgación y pedagogía sobre el uso de los datos (data literacy, precisamente lo que motiva este artículo), y por último, el diseño de servicios centrados en las personas, utilizando los datos para resolver los problemas de la gente.

Tipos de datos

Para comprender mejor las implicaciones en el uso de datos primero debemos comprender mejor cómo se clasifican. En una taxonomía simplificada la primera bifurcación que podemos hacer es entre datos relativos a “objetos” por un lado, y datos relativos a “personas” por otro.

Un ejemplo sobre el primer tipo de datos es la cartografía de una ciudad: la representación de sus calles, parques, edificios, servicios públicos y privados, y todos sus cambios a lo largo del tiempo. Estos datos pueden ser registrados y ordenados por el sector público (IGN, servicios cartográficos de las CCAA), o por empresas privadas (Google, Apple). Los casos de uso de dichas fuentes quedarán regulados por los términos de uso que haya definido la institución que recabó la información, la procesó, limpió y que la pone a disposición de quienes quieran utilizarla.

Sin embargo, para poder hacer uso del segundo tipo de datos hace falta además el permiso explícito de la persona a la que está referida la información, del mismo modo que un fotógrafo no puede hacer uso libre de una imagen en la que aparezca una persona: por mucho que la cámara y la tarjeta de memoria en la que quedó registrada la obra sean de su propiedad, necesitará el consentimiento de la persona en el uso de su imagen, porque este uso puede afectar a su derecho a la intimidad. Es el caso de los datos que recaban y procesan las empresas privadas en la prestación de servicios a sus clientes, que pueden clasificarse del siguiente modo:

A) Datos directamente declarados por el usuario (ej. domicilio de residencia informado en el momento de contratar un servicio)

B) Datos directamente observados (ej. datos que registra el banco sobre pagos con tarjeta, al posibilitar dichos pagos)

C) Datos inferidos (ej. propensión a contratar determinados servicios, obtenido como resultado de un modelo que emplea como ‘input’ datos declarados u observados, o incluso fuentes tipo D)

D) Datos recabados por terceros.

Es importante destacar que en cualquiera de los casos, resulta imprescindible informar y obtener el consentimiento explícito por parte de la persona que generó este huella ante los usos previstos, tal y como estipula el reglamento general de protección de datos de la unión europea (GDPR).

Décadas atrás –al comienzo de la digitalización de los sistemas de información– para una empresa (o gobierno), los clientes (o ciudadanos) eran representados por vectores de muy pocos campos (básicamente los de tipo A). Sin embargo, hoy en día cada persona es definida por vectores de muchas más variables, pues las componentes B y C han aumentado muchísimo en volumen e importancia, y en determinados casos se han comenzado a combinar también con componentes tipo D, si el cliente ha otorgado las debidas autorizaciones. Esta mayor profundidad en la información, junto con la capacidad de hallar correlaciones antes invisibles entre multitud de hechos –que luego guiarán decisiones que van a afectar a las personas–, deposita sobre quienes trabajamos con datos una gran responsabilidad.

Aunque contemos con la asistencia de inteligencias aumentadas, la responsabilidad de la acción sigue siendo de los humanos

Riesgos en el desarrollo de soluciones basadas en datos y formas de evitarlos

En este sentido, hay distintas cuestiones a considerar: la información deficiente sobre qué datos recoge una compañía y para qué propósitos se emplean por un lado, junto con violaciones de la privacidad por otro. La adecuada custodia de la información personal, garantizando su seguridad, y el establecimiento de canales informativos que permitan ejercer fácilmente los derechos ARCO, junto con el máximo rigor en la interpretación del marco legal y ético, son las claves para no incurrir en estos riesgos, siendo uno de los más graves el uso de datos no consentidos (tanto por cesión como por adquisición de datos sobre los cuales la persona no está al tanto). La transparencia y la autorregulación han de guiar toda nueva propuesta de aplicación basada en datos.

  • Soluciones disfuncionales: un exceso de confianza en los datos y en los algoritmos, o presiones para lanzar aplicaciones insuficientemente validadas, pueden llevar a ofrecer respuestas equivocadas. Son paradigmáticos algunos errores en la información cartográfica de los sistemas de navegación que han causado accidentes, y podemos imaginarnos las implicaciones de un falso negativo en un sistema de diagnóstico clínico. La solución ante esto ha de ser doble: por un lado el buen gobierno de datos ha de velar por la calidad de los mismos, y por otro, los procesos de auditoría algorítmica y de revisión por pares han de garantizar siempre el rigor metodológico y la validez de las soluciones antes de su lanzamiento.
  • Discriminación injusta: dado que hemos pasado de programar máquinas a ayudarles a aprender, un modelo analítico puede reflejar hechos implícitos en los datos de aprendizaje que resulten discriminatorios para determinados colectivos vulnerables. Es nuestro deber conocer los sesgos existentes en los datos de entrenamiento, controlarlos y mitigarlos, y no utilizar la inteligencia artificial para ampliar brechas preexistentes. Tampoco podemos escudarnos en la inescrutabilidad de los modelos que emplean redes neuronales: a la hora de aplicarlos a decisiones de negocio han de ser identificadas en la medida de lo posible las variables que más pesaron en la decisión adoptada, para informar a las personas afectadas, en un ejercicio de transparencia orientado a que puedan corregir aquello que esté en su mano en futuras ocasiones. Aunque contemos con la asistencia de inteligencias aumentadas, la responsabilidad de la acción sigue siendo de los humanos que se apoyan en ellas.

Es nuestro deber conocer los sesgos existentes en los datos y no utilizar la inteligencia artificial para ampliar brechas preexistentes

Las claves para ejercer un uso responsable de datos

Para cerrar la reflexión, recomendamos leer este artículo titulado 'Diez reglas simples para ejercer investigación responsable empleando big data'. Nos ha resultado muy grato comprobar cómo, en nuestro día a día en BBVA Data & Analytics, respondemos ya a todas ellas:

  • En la vertiente interna: en la medida en que los datos con los que trabajamos se refieren a personas, trabajamos con estándares de seguridad orientados a la correcta custodia de la información (puntos 1 y 2 del citado decálogo). En la búsqueda del máximo rigor en los resultados, hemos establecido los mecanismos de revisión por pares que facilitan la auditoría algorítmica (puntos 7 y 8). Además mantenemos debates activos en torno a las implicaciones de los modelos que desarrollamos (punto 6) en los que siempre impera un punto de vista sanamente crítico siempre que se plantean expectativas elevadas sobre datos cuya calidad o sesgos no se han medido suficientemente (punto 5). También tratamos de hacer ver a nuestros compañeros de otras áreas cuáles son las oportunidades inherentes a la innovación fuera de marcos rígidos, en aquellas zonas grises aún por explorar, donde la única guía son nuestros criterios de autorregulación (punto 10).
  • En la vertiente externa: cuando queremos compartir datos, por ejemplo con grupos académicos de investigación, anonimizamos la información según los estándares pertinentes (puntos 2 y 3). Pero no nos hemos quedado en las aperturas como fomento de la investigación, sino que creemos que los datos son el nuevo suelo sobre el que germina la innovación, hemos creado herramientas de apertura de estadísticas anómicas que posibilitan el establecimiento de nuevos modelos de negocio y también las aplicaciones de datos por el bien común (punto 4). En este mismo sentido no solo el cliente está en el centro de las aplicaciones que diseñamos, sino que abrimos nuestro foco hasta abarcar al conjunto de la sociedad a través de análisis que trascienden el perímetro de nuestro negocio principal (punto 9).

Queremos ir más allá: queremos compartir con nuestros clientes la información que tenemos sobre ellos, ordenándola del modo que les resulte más elocuente. Queremos construir sobre los datos y los algoritmos soluciones basadas en la particularización, la conveniencia, la inmediatez y el consejo personalizado y útil. Y queremos hacerlo preservando nuestro activo más valioso, la confianza de nuestros clientes.

*Este es tercer artículo de una serie donde se exploran los retos y oportunidades de los datos en la era digital. Puede leer aquí el primero y el segundo