Big data: esos raros datos nuevos
CONICET/DICYT Celulares, GPS, redes sociales, computadoras, a cada instante los humanos usan dispositivos que crean y almacenan grandes volúmenes de datos muy variados, esto se conoce como Big data.
Walter Sosa Escudero es investigador principal del CONICET en el Departamento de Economía de la Universidad de San Andrés (UDESA) y especialista en Econometría, una disciplina que diseña y utiliza métodos estadísticos en las ciencias sociales. En esta entrevista amplia cómo se aplica el acceso masivo de datos al estudio de la economía.
¿Qué es Big data?
No hay ninguna definición consensuada sobre qué es. La más obvia es que tiene que ver con muchos datos pero en realidad es un cambio de paradigma en la forma en la cual se generan estos datos. Big Data se relaciona con la masividad de datos electrónicos como consecuencia del uso de productos electrónicos que no están diseñados para recoger datos – como un celular, un GPS o las redes sociales – pero que en la interacción los van generando. Big Data tiene varias caras: una es el dato, y la otra forma de pensarla es a través de los métodos, no es la vieja estadística sobre los datos nuevos. Es una tecnología y como toda tecnología tiene ventajas y desventajas.
¿Cuáles son estas ventajas y desventajas?
Como con cualquier tecnología, ganás y perdés. Lo interesante es lo que tenés para ganar compense lo malo. Big Data es útil en todas las disciplinas siempre y cuando exista esta conciencia. El problema es que la gente toma posturas extremas. Los que están a favor dicen que viene a cambiar el paradigma hipotético deductivo, que es un antes y después y los que están en contra dicen que es una moda como otras, que va a pasar. Lo cierto es que no es ni una cosa ni la otra. Los científicos tenemos que tener una postura cauta que resulte de sopesar lo bueno con lo malo. Big Data tiene mucho para brindar en disciplinas donde hay aspectos inductivos y descriptivos. En economía y en ciencias sociales es muy útil para describir con precisión los fenómenos, por ejemplo, ya que producir información en una disciplina donde es muy difícil experimentar es una ventaja.
¿Qué datos nuevos aporta el Big Data?
En una encuesta simple como la Encuesta Permanente de Hogares yo puedo entender muy pocas cosas del mercado laboral, por ejemplo si la gente trabaja o no, y características básicas de la persona como la edad o género. Big Data puede dar información de características que antes no veías como el perfil de Linkedin en donde se puede ver preferencias, formación y calidad de la educación, por nombrar algunas. Agrega información que antes no estaba. Las oportunidades no tienen que ver con más de lo mismo, más que Big Data es New Data y el desafío está ahí. No creo que las disciplinas sociales estaban atrapadas en un problema de pocos datos sino que sobre ciertos temas, no había nada.
¿Para qué se utiliza Big Data en economía?
En la práctica por un lado las empresas, bancos o instituciones públicas lo usan más que nada con fines predictivos, por ejemplo para saber si X tipo de persona va a pagar un crédito. Hace muchos años hacer un estudio de mercado implicaba entrevistar gente, pero hoy en día con la información de las redes sociales se puede hacer inmediatamente. En investigación está mucho más rezagada porque el objetivo no es tanto predecir sino explicar condicionalmente. No es tanto un problema de análisis de datos en investigación sino un problema de pensar qué está detrás de los datos que es lo que nos interesa como científicos. Los datos son un mensajero, lo que importa son los mecanismos detrás. Cuando los datos no vienen de un experimento todo lo que observás esta sujeto a la falacia de la correlación.
¿Por qué?
Por ejemplo, si observo que cuando llueve la gente anda con paraguas eso no dice nada de si la lluvia causa paraguas o si los paraguas causan lluvia, eso es información que viene de afuera del problema. Correlación no implica causalidad. El uso tradicional del Big data es para encontrar patrones. Es muy difícil medir la pobreza y hay muchos trabajos que intentan medirlo mirando la intensidad de uso de teléfono celular, pensando que cuanto más se usa un teléfono es porque la gente tiene más plata. Predictivamente funciona bastante bien, pero una política pública no puede ser darle celulares a la gente. Eso impactaría sobre la medición de la pobreza, no sobre la pobreza.
¿Se podría medir la pobreza a través de Big Data?
SÍ. Pero suponte que encontré el algoritmo para medirla, pero para que esto interese necesito dotar este mecanismo de una credibilidad y el algoritmo no tiene por qué estar preparado para eso. La forma en que se hace actualmente en Argentina es usar un enfoque de línea: medir el ingreso de las personas con lo que necesitan para no ser pobres. Si tengo un mecanismo muy sofisticado y complejo que mide muy bien la pobreza pero no logro comunicarlo correctamente, no sirve. En la historia de las políticas públicas, terminan ganando las herramientas simples y fáciles de comunicar. La credibilidad la garantiza la comunidad científica y no el algoritmo. Se necesita desarrollar una estructura científica multidisciplinaria, sistemática y confiable. Big Data es una moda y como toda, requiere de inteligencia. El rol de la ciencia es estar en el medio: aprovechar lo bueno y señalar las problemáticas.