Publicado: 2 de diciembre de 2016

Big data.

Hoy me gustaría compartir algunas reflexiones en torno al denominado big data.

Se trata de un término cada vez más presente en nuestro vocabulario. Cada vez aparece más en alguna noticia que leemos en el periódico o escuchamos en las noticias. Pero, ¿sabemos qué es y para qué se emplea? En muchos casos sospecho que no.

Uno de los motivos por los que considero que es importante saber qué es el big data está directamente relacionado con la privacidad. Cuando hablamos de servicios (correo electrónico, redes sociales, etc.) que tienen unos términos de servicio poco recomendables (esos que hay que aceptar para poder crear una cuenta) nos estamos refiriendo al hecho de que en esos términos (entre otras cosas) estamos accediendo a que se utilicen tanto los datos que ponemos en ese servicio como los datos que generamos al utilizarlo para fines que no se especifican.

Ahí es donde entra en juego el big data. Veamos por qué.

En primer lugar vamos a definir el Big Data. Para ello podemos recurrir, por ejemplo, a la definición que aparece en wikipedia:

"Big data, macrodatos o datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. El fenómeno del big data también se denomina a veces datos a gran escala." Fuente: wikipedia, Big data.

Es decir, que el big data es “algo” que tiene que ver con el almacenamiento masivo de datos y su posterior procesamiento.

Hasta hace algunos años no existían formas de tratar grandes cantidades de datos. Sin embargo, en los últimos años se está produciendo un uso creciente de esta tecnología, principalmente por la utilidad de la información que se puede obtener con ella.

Para empezar, como hemos visto, necesitamos una gran cantidad de datos. Éstos podrían ser, por ejemplo, todos los datos de todos los usuarios de Facebook, de Google, o de cualquier otra gran compañía cuyos términos de servicio vienen a decir algo así como que podemos utilizar sus servicios “gratis” y ellos pueden utilizar nuestros datos (lo que ponemos en esos emails, perfiles de redes sociales, etc) más los datos que generamos al utilizar dichos servicios (con quién interaccionamos, cuántas veces, dónde hacemos clic, etc).

“El límite superior de procesamiento ha ido creciendo a lo largo de los años. De esta forma, los límites fijados en 2008 rondaban el orden de petabytes a zettabytes de datos”. Fuente: wikipedia, Big data.

Nota: un petabyte son mil terabytes (TB) y un zettabyte son mil millones de terabytes (TB).

“La capacidad tecnológica per-cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años ochenta. Se estima que en 2012 cada día fueron creados cerca de 2,5 trillones de bytes [2,5 millones de TB] de datos”. Fuente: wikipedia, Big data.

Por tanto, esas grandes cantidades de datos existen por doquier, en bases de datos de muy diferentes compañías: buscadores y servicios de correo electrónico como Yahoo o Google, supermercados, bancos y un largo etc.

Ahora bien, ¿qué se puede hacer con esas enormes bases de datos llenas de registros? Es difícil interpretar esas grandes cantidades de datos, tan diversos a veces. Incluso aparentemente sin conexión, y quizá incluso sin utilidad a primera vista. Lo que quiero decir es que a ojos de alguien profano en esta materia parecería mucho más costoso el esfuerzo de analizar esos datos que los beneficios que se pudieran obtener con ellos. Hasta que llegó el big data.

El análisis de los datos se puede realizar mediante diferentes técnicas, en las que no entraremos aquí. Se trata de técnicas complejas que arrojan los siguientes tipos de información a partir del conjunto masivo de datos analizados:

  • Asociación: relaciones entre diferentes variables. Un ejemplo sería el sistema que hace que cuando compras un artículo en una página web automáticamente te sugieran otros artículos.
  • Minería de datos o data mining: tiene por objetivo encontrar comportamientos predictivos. Esta relacionado con el descubrimiento de patrones en grandes cantidades de datos.
  • Agrupación: se trata de un tipo particular de minería de datos que consiste en dividir un gran conjunto de individuos en grupos más pequeños a partir de relaciones existentes entre sus individuos que pone de manifiesto el análisis.
  • Análisis de texto: consiste en el análisis de los textos de emails, búsquedas en la web, documentos, etc.

Una vez expuesto esto, vamos a ver algunas de las utilidades de estas tecnologías. Como con todas las herramientas transcendentales en este mundo, se pueden hacer cosas buenas y otras no tan buenas con ellas.

Entre los usos más “inocentes” de estas tecnologías están la selección de trabajadores analizando los datos de sus perfiles de redes sociales. Y en este punto me refiero mediante algoritmos de tipo big data, no mirando de forma personal sus perfiles. Incluso este proceso podría no ser tan "inocente" en función de los criterios empleados, ya que la masa de datos podría contener todo tipo de información. Otro ejemplo sería el asunto de las ventas cruzadas, donde compañías como Amazon tienen un largo camino recorrido.

Dado que esas grandes cantidades de datos proceden también de muchos sensores, como los puntos de acceso wifi (del tipo que sean), también se puede monitorizar y mapear el recorrido de las personas dentro de una tienda, viendo dónde se detienen más tiempo y dónde apenas se paran, por ejemplo.

Existen muchos usos más de éstos que llamo inocentes, puesto que persiguen un beneficio para una empresa o un colectivo que realiza un estudio, pero no necesariamente tienen que suponer un problema para las personas sobre las que se realiza el estudio.

Sin embargo, también existen los usos “no inocentes” de las tecnologías big data. Con ello me refiero a aquellas aplicaciones de estas técnicas de procesado de grandes cantidades de información que tiene como objetivo conseguir información “privilegiada”. Con esta información se podrían obtener grandes cantidades de dinero, obtener una posición de privilegio en los mercados, y otras cosas incluso peores.

Procesando grandes cantidades de datos de gran número de personas se pueden obtener tendencias y predecir comportamientos, por ejemplo de compra de productos. Esto en sí mismo puede no parecer tan malo, pero debemos tener en cuenta que para estos análisis se utilizan datos recolectados o bien sin el consentimiento explícito de las personas (como en el caso de algunos buscadores), o como condición imprescindible para usar un servicio como una red social o un servidor de correo electrónico (los famosos términos que hay que aceptar para crear una cuenta nueva). Hay que añadir que esa condición no es de obligada lectura y aunque leamos los términos es difícil entender lo que suponen y mucho más sus implicaciones (en TOSDR tenéis una pequeña ayuda con esto). Por tanto, de alguna forma se disimula el hecho de que se van a recolectar datos.

Sin lugar a dudas, esto se debe a que si la gente supiera lo que se puede llegar a hacer con esos datos se lo pensarían dos veces antes de aceptar los términos en cuestión. Más, si tenemos en cuenta que existen otros servicios que nos ofrecen lo mismo, también gratis, y respetando nuestra privacidad (ver sección sobre privacidad).

Voy a poner aquí un ejemplo, totalmente ficticio, de lo que se podría hacer a través del big data con los datos almacenados por parte de empresas como Google o Facebook. Insisto en que es un caso ficticio, si bien, es perfectamente posible.

Alguien podría deducir tendencias de voto en un país, vender esa información a los partidos políticos afectados y así permitirles maniobrar (sólo a esos partidos) antes de unas elecciones.

Actualizo estas líneas, justo antes de publicar esta entrada del blog, para añadir que hoy acaba de salir información acerca de que en las últimas elecciones presidenciales en Estados Unidos el equipo asesor de Donald Trump compró bases de datos a algunas compañías, les aplicó algoritmos de big data y con la información obtenido llevó a cabo maniobras publicitarias que le fueron de ayuda para ganar las elecciones.

Esto es absolutamente legal, pero ¿queremos regalarle a unas pocas compañías millonarias esa capacidad de análisis sobre la población? ¿Queremos acaso que alguien tenga ese poder?

Aquí se puede explicar una de las mayores dudas de la gente cuando se les trata de explicar la recolección de datos masiva de algunas compañías. La gente siempre piensa: ¿pero para qué quieren mis datos?, si yo no tengo ninguna información importante.

La información de todo el mundo es importante según para qué cosas se quiera utilizar. Y la cuestión es que ninguna compañía quiere tus datos en concreto, pero el resultado del big data es mejor cuanto más representativa sea la muestra de datos. Y para hacer esos datos más representativos cuanta más gente haya incluida (tú también) mejor.

Este ejemplo de las elecciones, poco deseable, afecta a la población en general. Sin embargo, en muchos casos cuando se almacenan los datos se hace sobre perfiles personalizados. Posibles ejemplos serían los de las tarjetas de puntos o similar de supermercados u otras compañías.

A este respecto cabría recordar el día que Microsoft compró LinkedIn. Si juntamos toda la información que maneja ahora esa compañía el resultado es, al menos, para pensarlo. Por un lado por la gran y variada cantidad de datos que tienen, y por otro por la capacidad que tienen para que todos esos datos estén asociados a sus respectivos perfiles personalizados.

Hay que tener en cuenta que alguien que sepa lo que compramos habitualmente puede deducir, entre otras cosas, nuestro estado de salud. No digamos, si lo que utilizamos es una aplicación móvil que recibe datos de nuestro pulso cardíaco u otras variables que introduzcamos nosotros o lea de otro sensor. En ese caso le estamos (potencialmente) regalando a alguna empresa, o a Android que es Google (por ejemplo) directamente datos muy importantes y muy privados sobre nuestra salud. ¿Y si esa empresa decidiera vender esos datos a las aseguradoras?

Muchos más ejemplos posibles podrían ser citados aquí. Y me temo que irán apareciendo con el tiempo en los medios.

Por eso, entre otras cosas, es tan importante saber cuál es la licencia que tiene un determinado programa (o aplicación móvil) o servicio en Internet. Como hay tanta variedad, utilizar Software Libre tiene la garantía de que otras personas pueden revisar el código fuente de la aplicación o programa y comprobar si, por ejemplo, recopila y envía datos de los usuarios y, en ese caso, hacer público ese hecho. En el caso del software que no es libre, el software propietario o privativo, simplemente no podemos saber qué hacen los programas.

Por otro lado, buscar servicios (email, redes sociales, etc) respetuosos con la privacidad es interesante por un motivo similar. Estos servicios existen y cada vez hay más. Para ver más información relativa a alternativas a los servicios más comunes ver la sección sobre privacidad.

En conclusión, el big data no es una mala herramienta. Pero dado que se puede utilizar para cosas poco recomendables para la gente en general, todos debemos ser responsables con los datos que aportamos a esos modelos. Debemos intentar usar programas y servicios que no recopilen datos con el fin de procesarlos para cualquier objetivo y mucho menos que los compartan con terceras entidades, donde perderemos por completo la pista de lo que se hace con nuestros datos.

Porque esos datos son nuestros, hasta que renunciamos a ellos. Recordad que la privacidad es un derecho fundamental que podemos definir como la capacidad que tiene una persona para decidir qué información comparte con otras personas y con quién la comparte.

No renunciéis a vuestra privacidad, la conciencia colectiva de la humanidad os lo agradecerá.

Volver arriba

Créditos de las imágenes tomadas del exterior: