Cerrar panel

Cerrar panel

Cerrar panel

Cerrar panel

Data> Big Data 07 feb 2012

El análisis de datos como deporte de competición

Hay cosas, como la niebla en San Francisco o los atascos en la ciudad de Nueva York, que son fáciles de predecir. Otras, como la reacción de la bolsa ante los grandes valores o la progresión de la enfermedad de un paciente de VIH, son mucho más complejas.  Ahí es donde entra en escena una start-up llamada Kaggle. Anthony Goldbloom creó Kaggle para convertir el análisis de datos en un deporte de competición, conectando a las empresas que tienen montones de datos con personas que pueden ayudarlas a sacarles algún valor.

nube cloud big data recurso bbva

Kaggle reúne a miles de personas con experiencia en el análisis de datos, incluyendo doctores, estudiantes, profesores y personas que trabajan en empresas como IBM Google, y les ofrece la posibilidad de competir para resolver las interrogantes que presentan los grandes datos de las empresas a cambio de dinero. Los usuarios cogen los datos proporcionados por los promotores del concurso y compiten usando algoritmos hechos a medida para hallar patrones y presentar las predicciones más exactas. Se podría definir como una competición  a muerte de modelos de predicción.

Fundada por el economista australiano Anthony Goldbloom, la inspiración para crear Kaggle proviene en parte de un concurso convocado por Netflix entre 2006 y 2009. La empresa de alquiler de películas ofrecía un millón de dólares al equipo que fuera capaz de mejorar la precisión de su software de recomendación de títulos en un 10 por ciento. La popularidad del concurso de Netflix reveló a Goldbloom la cantidad de gente interesada en trabajar interpretando y analizando los datos de las empresas. Su estancia en prácticas en The Economist en 2008 puso delante a montones de empresas con datos analizables para sacar conclusiones valiosas, pero sin la gente adecuada para estudiarlos. Apostó por que había sitio para una empresa que uniera a estas dos partes y decidió que conseguiría mejores resultados si tuviera un toque competitivo. Y tenía razón. Desde su lanzamiento en abril de 2010 con un premio de 1.000 dólares (unos 775 euros) para el equipo que hiciera una predicción más precisa de cómo votarían los países en el concurso de la canción de Eurovisión, Kaggle ha llevado a cabo 30 concursos distintos, cinco de los cuales aún están en marcha

datos-internet-big-data-bbva

Y la comunidad de Kaggle, que ha crecido hasta estar formada por unas 27.000 personas, obtiene resultados. En uno de los primeros retos, un académico de la Universidad de Drexel (EE.UU.) puso a disposición de los concursantes historiales médicos anónimos de pacientes con VIH que contenían datos de marcadores genéticos que él esperaba se pudieran usar para predecir la progresión del virus. En semana y media los usuarios de Kaggle fueron capaces de predecir la progresión con una precisión del 70 por ciento al comparar sus predicciones con datos conocidos de una investigación académica que supuso un hito y que se logró tras cuatro años de trabajo. Para el final de la competición, que duraba tres meses, los usuarios del sitio habían creado un modelo que reducía la tasa de error anterior en un tercio y aumentaba la precisión de las predicciones al 77 por ciento.

Diversión mezclada con negocios

Goldbloom afirma que el atractivo del sitio para los concursantes es la embriagadora sensación  de subir en las tablas de líderes. Quienes presentan las mejores soluciones suben a la parte más alta de la tabla de líderes en ese concurso, algo que encanta a los usuarios. “Quieres seguir subiendo por la escala”, afirma Goldbloom.

A Will Cukierski, estudiante de doctorado en ingeniería biomédica en la Universidad de Rutgers (EE.UU.) no solo le gusta subir por la escala sino que también considera que las competiciones son una forma de entrar en el mercado de trabajo. Ha participado en media docena de los concursos de Kaggle, consiguiendo el primer lugar en uno de ellos y quedándose muy cerca de la cima en otros. “Es un poco de diversión mezclada con un poco de negocios”, explica.

Aunque la mayor parte de la gente que trabaja en los concursos de Kaggle tienen experiencia en investigación de datos, los ganadores suelen salir de campos distintos al específico del concurso, probablemente porque son capaces de abordar el problema desde un ángulo distinto, según Goldbloom.

Un premio de 47.000 euros

Barbara Chow, directora educativa de la Fundación William and Flora Hewlett espera que esta forma de pensar de forma creativa ayude al reto propuesto por su grupo, que busca un a forma mejor de evaluar automáticamente los ensayos de los estudiantes. El concurso, que ofrece un premio de 60.000 dólares (unos 47.000 euros) y termina el 30 de abril, se celebra al mismo tiempo que un concurso privado que incluye a las principales empresas que ya trabajan en el campo de la evaluación automática de ensayos. Aunque no está segura de que a la comunidad de Kaggle se le ocurra el mejor resultado, Chow afirma que la Fundación Hewlett decidió probar a hacer el concurso allí puesto que “el sitio tiene un buen acceso a las personas adecuadas”.

Cukierski es una de esas personas, su equipo está trabajando duro para resolver el concurso, intentando mejorar las ofertas automatizadas ya existentes y crear una solución que se parezca a la evaluación hecha por humanos. ¿Qué tal les va por ahora? “Nuestros resultados preliminares demuestran que ya nos acercamos bastante a los humanos”, sostiene.