Las cualidades de un data scientist para realizar una buena minería de datos
Las interrelaciones entre la minería de datos, Big Data y la toma de decisiones han dado lugar a lo que recientemente se viene llamando Data Science. La profesora Karina Gibert nos cuenta todo lo que necesitas saber sobre Big Data y sobre los data scientists.
Karina Gibert, profesora Titular de Mineria de Datos y Soporte a la Decision en la Universitat Politecnica de Catalunya, nos ha dado las claves para explotar las fuentes de datos a las que tenemos acceso. Y para ello, en el evento Nuevas tendencias y herramientas de minería de datos, celebrado en el Centro de Innovación BBVA, ha explicado que un data scientist debe contar con una buena formación en matemáticas, en estadística, y en gestión del conocimiento, así como un cierto grado de capacidades sobre el problema que se maneja en el análisis.
“Ante el mar de datos tiene que ser capaz de entender qué es lo que tiene que hacer para obtener la información que se necesita”. Y en este punto radica el problema, ha señalado Gibert: “si es un buen hacker pero no controla el dominio de lo que se está analizando se convierte en algo peligroso”.
¿Cuáles son sus funciones?
- Descubrir de los datos lo que no se sabe
- Poder hacer predicciones con el análisis de los datos
- Transformar esos datos en decisiones, buscando un impacto final
- La comunicación es fundamental para poder conseguir ese impacto. Tiene que ser un modelo comprensible
- Dar el paso hacia la toma de decisiones
Big Data se define bien con el esquema de las cinco v: volumen, velocidad, variedad, valor y veracidad. Gibert nos ha desgranado, con datos, estas características:
- Volumen: los datos crecen una media de un 40% cada año
- Velocidad: a partir de 2008 hay más sensores produciendo datos que población en el mundo y es una cifra que se sigue multiplicando año tras año.
- Variedad: números, localizaciones, 3D, audios, vídeos, imagen, textos, archivos, voces, las bases de datos relacionales… Hay un problema de complejidad que tiene que ver con los formatos.
Veracidad: las imprecisiones, los fallos de transmisión pueden perturbar mucho el resultado del análisis, por lo que la veracidad se convierte en una de las claves del data mining
- Valor: el resultado debe aportar valor estratégico a la organización
Una aplicación de la minería de datos: la detección del fraude
Gibert ha aplicado este conocimiento en establecer patrones de fraude y así poder detectarlo. “Los patrones responden a formatos de distinta índole, no son solo numéricos y de fecha, sino que son más complejos, como movimientos de cantidades en horas extrañas en lugares que no toca y con nombres extraños. Si no se utiliza toda la artillería del data mining es difícil detectarlo por todos los factores que interaccionan al mismo tiempo”.
En su opinión, es necesario “utilizar data minig para detectar el fraude tiene que permitir automatizar este proceso, por lo que se debería poder detectar más fraude del que se detecta ahora”. Hay que diseñar protocolos muy ágiles y que se puedan adaptar rápidamente a factores cambiantes, ha puntualizado Gibert. Otra alternativa es construir modelos predictivos para evitar que se llegue a producir el fraude.
El proceso de Knowledge discovery
Los pasos de este proceso sobre el que se sostiene la data science son los siguientes:
- Definición del problema
- Recolección de datos relevantes para el problema
- Procesamiento de estos datos
- Transformación de las estructuras de datos para prepararlas para el análisis
- Minería de datos o explotación de los datos
- Producción de conocimiento, interpretación y evaluación
Gibert ha explicado que en los últimos 20 años se ha desatascado el cuello de botella que existía en el procesamiento de los datos para que “puedan tragar las cantidades de datos que van viniendo”. Sin embargo se ha hecho “muy poca investigación en cómo automatizar los procesos de pre y post procesamiento”. Esto ha provocado que los sistemas de minería de datos, en su opinión, tenga grandes catálogos de métodos para las distintas fases del proceso, "pero siguen sin resolver bien la automatización del mismo".
Por ello, se ha remontado al nuevo paradigma que propuso Fayyad en el 96, quien ya señalaba que el proceso del científico no se puede limitar a la explotación de datos en sí misma. “Todo lo que hay antes y después de esta explotación de dato es crítico para que el proceso de análisis tenga su impacto”.