«Los frutos de la sociedad de la información están bien a la vista, con un teléfono móvil en cada bolsillo, un ordenador portátil en cada mochila, y grandes sistemas de tecnología de la información funcionando en las oficinas por todas partes. Menos llamativa resulta la información en sí misma. Medio siglo después de que los ordenadores se propagaran a la mayoría de la población, los datos han empezado a acumularse hasta el punto de que está sucediendo algo nuevo y especial. No solo es que el mundo esté sumergido en más información que en ningún momento anterior, sino que esa información está creciendo más deprisa. El cambio de escala ha conducido a un cambio de estado. El cambio cuantitativo ha llevado a un cambio cualitativo. Fue en ciencias como la astronomía y la genética, que experimentaron por primera vez esa explosión en la década de 2000, donde se acuñó el término big data, ‘datos masivos’. El concepto está trasladándose ahora hacia todas las áreas de la actividad humana».
El párrafo anterior pertenece al libro Big Data, la revolución de los datos masivos, escrito por el profesor de regulación y gestión de internet en la Universidad de Oxford Viktor Mayer-Schönberger y por el periodista de The Economist Kenneth Cukier, y publicado en 2013, hace ya cinco años. Desde entonces, el uso de los macrodatos, datos masivos, inteligencia de datos o datos a gran escala (las diversas formas en que se suele traducir el término inglés big data, literalmente, «grandes datos») no ha dejado de crecer.
Gracias a todo lo que generamos y compartimos, especialmente en las redes sociales y a través de internet, cada vez hay más y más datos disponibles (y accesibles), y cada vez se emplean más esos datos, en combinación con los algoritmos, y en cualquier campo imaginable, desde la investigacióncientífica,la sanidad o la educación, hasta el marketing, el periodismo, o, por supuesto, la política. Es la enorme cantidad de datos que recogen y procesan plataformas como Google lo que permite que su buscador nos corrija cuando introducimos un término mal escrito y nos de ideas sobre lo que estamos buscando, o que su traductor sea más preciso cuanto más se utilice.
Amazon, por poner otro ejemplo, no sería lo que es sin la minería de datos masiva que le permite establecer los patrones de compra de un usuario, cruzarlos con los datos de compra de otro, y crear así anuncios personalizados. Y algunas de las mejores historias periodísticas recientes han salido, también, del análisis y la interpretación de montañas de datos. Una encuesta de 2016 realizada por la European Public Relations Education and Research Association (Euprera) revelaba que el 72% de los profesionales de la comunicación creen que el big datacambiará la profesión periodística.
Del censo a la lucha contra el cáncer
En 2014, el Instituto Nacional de Estadística (INE) anunció que, por primera vez, iba a combinar mapas interactivos con análisis de big data para la consulta del censo por áreas geográficas hasta el detalle de los barrios, algó que calificó como «la operación estadística de mayor envergadura» de esta institución en los últimos diez años.
Hasta entonces, el desglose del censo por áreas poblacionales solo se recogía en tablas alfanuméricas. El cambio suponía volcarlo en un Sistema de Información Geográfica (GIS por sus siglas en inglés), para poder visualizar toda la información censal en mapas que incorporan y procesan estas capas de datos. A través de la web oficial del INE, ahora se tiene acceso a un mapa de España en el que se pueden efectuar distintos tipos de consulta, obtener indicadores predefinidos para una selección geográfica determinada, consultar mapas temáticos o transferir la selección geográfica realizada a un sistema de consulta de los datos en tablas. Todo, gracias al procesamiento de datos masivos.
Los macrodatos están adquiriendo asimismo un papel clave para el desarrollo de la medicina personalizada, y se prevé que lo hagan también a medio plazo en el descenso de la mortalidad por cáncer y en el control del gasto sanitario. En este sentido, el pasado mes de abril, los oncólogos participantes en el XIV Simposio Abordaje Multidisciplinar del Cáncer destacaban cómo la adaptación de los hospitales a la era digital, sumada a la aparición de nuevas técnicas diagnósticas, han conducido a un auge del big data en el sector oncológico.
Según señalaba a la agencia Efe el doctor Alfredo Carrato, jefe de Servicio de Oncología Médica del Hospital Universitario Ramón y Cajal de Madrid, «gracias a la informatización de los hospitales disponemos de una ingente base de datos clínicos y moleculares». «Su adecuado análisis y procesamiento bioinformático permitirá una aproximación diagnóstica más precisa y un mejor conocimiento de la biología tumoral y de los resultados de las distintas estrategias de tratamiento, así como conocer resultados de tratamiento de tumores raros y las áreas de mejora para una mejor planificación sanitaria», agregaba.
«El límite es nuestra imaginación»
«No hay ningún sector donde no exista posibilidad de sacar partido del gran volumen de información que se genera en la sociedad», explicaba este mismo martes Santiago Bollaín, director general para Pymes en España de IBM, en el Campus Executive de València, un evento organizado por el diario Levante. «La tecnología ha llegado a tal punto que podemos decir que el límite es nuestra imaginación», añadía.
Martin Hilbert, doctor en Ciencias Sociales y en Comunicación en la Universidad de California, calculó que en 2014 el mundo generó unos 5 zettabytes (un zettabyte es un 1 seguido de 21 ceros) de información. «Si pusiéramos todo eso en libros, convirtiendo las imágenes y otros elementos en su equivalente en letras, se podrían hacer 4.500 pilas distintas de libros que llegarían hasta el sol»,explicaba. Teniendo en cuenta que la cantidad de información crece a un ritmo exponencial, y que «se duplica cada dos años y medio, ahora [2017] probablemente son ya 10 zettabytes».
Todos esos datos se generan de múltiples formas. Los creamos cada vez que enviamos un correo electrónico (más de 200 millones cada minuto en todo el mundo) o un mensaje por WhatsApp, cada vez que publicamos algo en Facebook o en Twitter, cada vez que buscamos algo en Google, o cada vez que respondemos a una encuesta. También creamos datos al efectuar transacciones financieras o simplemente navegando por internet, algo esencial para las herramientas de seguimiento utilizadas por los anunciantes.
Y luego están los datos que comparten máquinas entre sí, al recopilar y procesar la información que recogen, por ejemplo, sensores de temperatura, de luz, de altura, de presión, de sonido… Los teléfonos móviles envían peticiones de escucha wifi a todos los puntos de acceso con los que se cruzan, y eso son datos que permiten establecer la ruta que ha seguido un dispositivo (es decir, su dueño), algo que cualquier usuario de Google Maps sabe bien. Eso, sin contar con los datos que provienen de las fuerzas de seguridad y defensa y de los servicios de inteligencia (lectores biométricos como escáneres de retina, escáneres de huellas digitales, lectores de cadenas de ADN, etc.).
Riesgos y desafíos
Todo esto conlleva, obviamente, riesgos, empezando por el uso que se hace de esos datos en relación con la privacidad, pero también con la capacidad de manipular la información para influir, por ejemplo, en el resultado de unas elecciones; para favorecer los intereses de las empresas con más capacidad para manejar esa información; o incluso para establecer conclusiones que puedan acarrear consecuencias penales.
Una de las claves a este respecto es el papel que juegan las empresas especializadas en comerciar con esos datos (los llamados corredores de datos), uno de cuyos principales ejemplos es la estadounidense Acxiom, una compañía que recoge, analiza y vende a sus clientes información, que estos utilizan después para, entre otras cosas, generar anuncios personalizados. En 2012, el diario The New York Times publicó que la firma poseía la mayor base comercial de datos del mundo, con un promedio de 1.500 piezas de información de más de 500 millones de consumidores. Y desde entonces han pasado ya seis años.
Tanto Acxiom, que proporciona datos de consumidores de EE UU, el Reino Unido, Francia, Alemania y Australia, como Epsilon,Oracle Data Cloud,Experian, TransUnion y otras empresas del sector, pueden verse seriamente afectadas por el reciente anuncio de Facebook de que dejará de cooperar, de momento, con todos los recopiladores de datos ajenos, a raíz del escándalo por la filtración a Cambridge Analytica.
El factor humano
Los desafíos del big data tampoco son pequeños. La cantidad de datos crece a un ritmo mucho mayor que nuestra capacidad para procesarlos, no ya como seres humanos, que quedó rebasada hace mucho, sino incluso mediante la tecnología, por más que sea cierto el ejemplo clásico de que un smartphone actual tiene más capacidad de cómputo que la NASA cuando el ser humano llegó a la Luna. Eso nos obliga a confiar cada vez más en sistemas relacionados con la inteligencia artificial, al tiempo que exige más y mejores mecanismos de control.
Por último, existe, además, un problema de orden más filosófico, que se plantea ante el reto de establecer un límite a la percepción de que cualquier conducta humana es explicable, y predecible, a partir del análisis de datos masivos.
En una entrevista concedida a eldiario.es con motivo de la aparición de su mencionado libro, Viktor Mayer-Schönberger distinguía, en este sentido, entre la causalidad (relación entre causa y efecto) y la correlación: «Como humanos estamos configurados para buscar causalidades, pero necesitamos darnos cuenta de que las correlaciones a menudo ofrecen información valiosa y son mucho más fáciles de identificar comparadas con la causalidad real. A menudo pensamos que conocemos las causas de ciertas cosas pero no es así realmente, y esto es peor que no conocer la causa en absoluto. Así es que necesitamos tener humildad cuando pensamos en la causalidad, y estar preparados para aceptar las correlaciones».