10 cosas que aprendimos sobre Big Data en el Congreso del Futuro

HN prestó atención particular a las charlas sobre el Mundo Digital del evento, cuyo objetivo era celebrar las posibilidades del futuro.

Cada enero desde 2011, Chile es sede del autoproclamado ‘mayor encuentro científico/ciudadano de América Latina’, organizado por el Senado de Chile a través de su Comisión Desafíos del Futuro. Más de 25.000 chilenos se inscribieron a la quinta versión de este evento, cuyo temático se centró en ‘Las Decisiones de Mañana son Ahora’, y cuyas actividades se desarrollaron desde Arica a Punta Arenas, en 7 comunas de Santiago y 5 regiones del país.

Entre el 19 y 24 de enero 2016, se dieron más de 90 charlas, entregadas por los científicos y humanistas más connotados del mundo – entre ellos 4 premios Nobel –, con el fin de enfrentar las preguntas más apremiantes que nos presenta el futuro, en relación a las áreas tan diversas como el cambio climático, la educación inteligente, la exploración astrofísica, el universo de datos, la medicina del futuro, la inteligencia artificial, entre otros.

En Hostname, prestamos atención particular a los paneles relacionados con el Mundo Digital, “Internet de las cosas, ¿El despertar de las máquinas?” Y “Monopolio de los datos, ¿Un nuevo poder?”, y en especial las charlas entregadas por Jaime Moreno, Manuel Vexler, César Hidalgo y Ricardo Baeza-Yates.

¿Qué aprendimos?

1. Para valuar el futuro, hay que apreciar el pasado

Algo que todos los panelistas destacaron era la evolución impresionante que hemos experimentado en las últimas décadas en términos de nuestra capacidad de coleccionar y procesar datos y los efectos computacionales que esto ha tenido en el mundo de la informática. Sabíamos que el crecimiento exponencial era impresionante, pero no nos dimos cuenta cuán impresionante, ya que estábamos contando desde el primer computador en los años 50. Sin embargo, en su charla César Hidalgo nos indicó que de hecho la práctica de la colección y análisis de datos se data desde los reinos de Saxony y Prussia en los 1760, lo que hace aún más impresionante los logros de los últimos años, ya que en el recuadro de la historia total, la fracción de tiempo post-Internet ha sido aún menor, así implicando los grandes avances que podemos esperar en los próximos años.

=

2. La magnitud de crecimiento que nos depara

Según una encuesta recién realizada, sólo 13% de la gente han escuchado hablar del IoT – aunque ya lo están usando a través de sus dispositivos conectados. Hoy en día hay 14 mil millones de dispositivos conectados al IoT. Es más: si bien 14 mil millones de dispositivos suene mucho, en realidad esa cantidad representa menos de 1% de los dispositivos que tienen la potencial de estar conectados. Se predice que en el año 2025 habrá 100 mil millones de dispositivos conectados, pero incluso esa cantidad no se aproxima ni de cerca al 100% de la potencial, según los datos de Manuel Vexler.

3. La potencial que tales datos liberará

Con el tiempo, el fin también se ha ido cambiando. Donde previamente la meta era automatizar todo, según Jaime Moreno hoy el objetivo es usar los datos para comprender y mejorar el mundo y su población. Ahora, con todos los datos que tenemos disponibles, los beneficios para la salud, la economía, la transportación, la agricultura, la minería, la gobernanza, – básicamente todas las áreas de la sociedad – son ilimitados, ya que el análisis de estos datos nos podría ayudar a predecir cambios climáticos, entender las tendencias del mercado, personalizar servicios, y anticipar los efectos de las políticas implementadas.

Jaime Moreno exponiendo en el Congreso del Futuro

4. Los datos son el nuevo recurso natural

Si la clave para liberar esos beneficios son los datos, los datos se vuelven un tipo de mercancía, y él que tiene acceso a todos los datos tendrá el monopolio; lo cual es una idea que da miedo, ya que es poco probable que cualquier empresa grande que tenga la posibilidad de implementar los beneficios antes mencionados lo haga de manera gratis. Sin embargo, igual que cualquier otro recurso natural el simple hecho de tener los datos no vale nada si no sabes procesarlos.

5. En cuanto a los datos, hay una simple paradigma

Para que los datos sean valiosos, hay que definir qué estás buscando. En el área de Big Data, según Manuel Vexler, hay un simple paradigma, que sólo las preguntas son importantes: mientras no encuentras la pregunta correcta, no obtendrás las respuestas. Es más, no tan solo necesitas saber la pregunta correcta, sino también necesitas saber la pregunta correcta según el contexto.

Manuel Vexler exponiendo en el Congreso del Futuro

6. El contexto es todo, y sobre todo hay que entender los sesgos de datos

Ricardo Baeza-Yates se explayó en esta área, con enfoque especial en los sesgos de datos. Estos sesgos pueden tomar dos formas: el sesgo de datos y el sesgo de actividad:

– El sesgo de datos

Los datos pueden ser sesgados de forma económica, geográfica, cultural, social, lingüística, religiosa, política, de género, etc. Un ejemplo de un sesgo geográfico sería las noticias en Chile, ya que una cantidad desproporcionada se centra en Santiago, pero no significa que todos los temas mostrados afectan a toda la población nacional. O un ejemplo de un sesgo social sería las revistas en Amazon, ya que es sola cierta sección de la población que posee un computador, hace compras en línea o hace compras de libros en línea, pero no significa que los patrones de compra de ellos se reflejan en la sociedad en general.

– El sesgo de actividad

Al analizar ciertos datos, hay que considerar quién los está produciendo. Las últimas cifras muestran que en Facebook, el 7% de la gente generan el 50% de los posts; en Amazon, el 4% publican el 50% de la reseñas; y en Twitter el 2% crean la mitad de los tweets. Por lo tanto hay que filtrar bien las muestras porque las opiniones de algunas no representan las de todos.

Al no tomar en cuenta la influencia que tales sesgos pueden tener sobre los resultados de un estudio, reducirás la efectividad de cualquier sistema, proceso o algoritmo desarrollado en base a ellos, ya que tendrán pertinencia a ciertos grupos de personas solamente.

7. Estamos todavía en proceso de aprendizaje

Con la antes mencionada cantidad de dispositivos ya conectados al IoT, y el crecimiento pronosticado de esta en los próximos años, ya tenemos datos de sobra para empezar a desarrollar modelos predictivos y mejores políticas públicas. Sin embargo, todavía nos falta entender cuáles son las preguntas que deberíamos estar posando, y alejarnos definitivamente del antiguo objetivo de automatizar todo. Por ejemplo, Baeza-Yates citó el caso de si él quisiera googlear alguien con apellido Shwarzneger, el motor de búsqueda lo cambiaría automáticamente (siempre) a Schwarzenegger – lo cual dificulta su experiencia de búsqueda en vez de mejorarla.

El mismo título de la charla “El monopolio de los datos” es prueba que todavía no estamos posando las preguntas correctas, ya que..

8. No hay un monopolio de datos todavía

Ricardo Baezo-Yates nos preguntó, ¿quién tiene tus datos? Así, mediante una simple lista de todas las instituciones y entidades que tienen nuestros datos – entre ellos el gobierno, nuestra compañía de celular, nuestro proveedor de Internet, nuestro banco, nuestras redes sociales – nos mostró que son tantos los que tienen nuestros datos, que nadie tiene el monopolio todavía. Es más, explicó, aunque tienen nuestra información, no conocen nuestro contexto (ve no. 6) – no nos conocen como persona –, y por tanto están limitados en lo que pueden hacer con nuestros datos.

Ricardo Baeza exponiendo en el Congreso del Futuro

9. Si hubiera un monopolio de datos, no importaría

Es más: en su charla, César Hidalgo barrió hacia un lado la pregunta del monopolio, indicando que no importa quién tiene el monopolio – quién tiene todos los datos – lo importante es la calidad de la plataforma que utiliza los datos u ofrece servicios basados en ellos, y cómo funciona. Es decir, si una empresa ha recopilado y privatizado ciertos datos y después ha creado una página web que genera soluciones (de pago) para problemas sociales en base a estos datos, pero la plataforma que genera las soluciones es muy mal desarrollada, nadie va a querer ocupar ese servicio.

10. Hoy en día la privacidad es lo más importante

Dado que los datos son la mercancía del futuro, nuestros datos son valiosos. Hemos establecido que no hay un monopolio de datos y que solo nosotros poseemos y entendemos nuestros datos personales.  Como tal, nosotros los consumidores todavía tenemos el poder en el mundo de datos. Sin embargo, todos los expositores destacaron que la preocupación más grande que enfrenta el mundo digital el día de hoy es la privacidad. Dado el valor que tienen nuestros datos para empresas comerciales, se desarrollarán cada vez más maneras de extraer nuestros datos.

Además, aunque los avances digitales han experimentado una gran aceleración en los últimos años, las vulnerabilidades de seguridad permanecen los mismos – ataques cibernéticos, hackeos de bases de datos, robos de identidad, etc.  En este sentido el mensaje del congreso era claro: cuida tus datos y protege tu privacidad ahora, mientras todavía no sea tarde.

Si perdiste el congreso y estás interesado en estos temas, puedes todavía ver los videos de las charlas en el sitio web oficial del evento.

Post Más Recientes

Ver más Entradas
Scroll to Top