¿Qué es el ‘big data’ y para qué sirve?

«Los fru­tos de la sociedad de la infor­ma­ción están bien a la vista, con un telé­fono móvil en cada bol­sil­lo, un orde­nador portátil en cada mochi­la, y grandes sis­temas de tec­nología de la infor­ma­ción fun­cio­nan­do en las ofic­i­nas por todas partes. Menos lla­ma­ti­va resul­ta la infor­ma­ción en sí mis­ma. Medio siglo después de que los orde­nadores se propa­garan a la may­oría de la población, los datos han empeza­do a acu­mu­la­rse has­ta el pun­to de que está suce­di­en­do algo nue­vo y espe­cial. No solo es que el mun­do esté sumergi­do en más infor­ma­ción que en ningún momen­to ante­ri­or, sino que esa infor­ma­ción está cre­cien­do más deprisa. El cam­bio de escala ha con­duci­do a un cam­bio de esta­do. El cam­bio cuan­ti­ta­ti­vo ha lle­va­do a un cam­bio cual­i­ta­ti­vo. Fue en cien­cias como la astronomía y la genéti­ca, que exper­i­men­ta­ron por primera vez esa explosión en la déca­da de 2000, donde se acuñó el tér­mi­no big data, ‘datos masivos’. El con­cep­to está trasladán­dose aho­ra hacia todas las áreas de la activi­dad humana».

El pár­rafo ante­ri­or pertenece al libro Big Data, la rev­olu­ción de los datos masivos, escrito por el pro­fe­sor de reg­u­lación y gestión de inter­net en la Uni­ver­si­dad de Oxford Vik­tor May­er-Schön­berg­er y por el peri­odista de The Econ­o­mist Ken­neth Cuki­er, y pub­li­ca­do en 2013, hace ya cin­co años. Des­de entonces, el uso de los macrodatos, datos masivos, inteligen­cia de datos o datos a gran escala (las diver­sas for­mas en que se suele tra­ducir el tér­mi­no inglés big data, lit­eral­mente, «grandes datos») no ha deja­do de crecer.

Gra­cias a todo lo que gen­er­amos y com­par­ti­mos, espe­cial­mente en las redes sociales y a través de inter­net, cada vez hay más y más datos disponibles (y acce­si­bles), y cada vez se emplean más esos datos, en com­bi­nación con los algo­rit­mos, y en cualquier cam­po imag­in­able, des­de la inves­ti­gación­cien­tí­fi­ca,la sanidad o la edu­cación, has­ta el mar­ket­ing, el peri­odis­mo, o, por supuesto, la políti­ca. Es la enorme can­ti­dad de datos que reco­gen y proce­san platafor­mas como Google lo que per­mite que su bus­cador nos cor­ri­ja cuan­do intro­duci­mos un tér­mi­no mal escrito y nos de ideas sobre lo que esta­mos bus­can­do, o que su tra­duc­tor sea más pre­ciso cuan­to más se utilice.

Ama­zon, por pon­er otro ejem­p­lo, no sería lo que es sin la min­ería de datos masi­va que le per­mite estable­cer los patrones de com­pra de un usuario, cruzar­los con los datos de com­pra de otro, y crear así anun­cios per­son­al­iza­dos. Y algu­nas de las mejores his­to­rias peri­odís­ti­cas recientes han sali­do, tam­bién, del análi­sis y la inter­pretación de mon­tañas de datos. Una encues­ta de 2016 real­iza­da por la Euro­pean Pub­lic Rela­tions Edu­ca­tion and Research Asso­ci­a­tion (Eupre­ra) rev­e­la­ba que el 72% de los pro­fe­sion­ales de la comu­ni­cación creen que el big datacam­biará la pro­fe­sión periodística.

Del censo a la lucha contra el cáncer

En 2014, el Insti­tu­to Nacional de Estadís­ti­ca (INE) anun­ció que, por primera vez, iba a com­bi­nar mapas inter­ac­tivos con análi­sis de big data para la con­sul­ta del cen­so por áreas geográ­fi­cas has­ta el detalle de los bar­rios, algó que cal­i­ficó como «la operación estadís­ti­ca de may­or enver­gadu­ra» de esta insti­tu­ción en los últi­mos diez años.

Has­ta entonces, el des­glose del cen­so por áreas pobla­cionales solo se recogía en tablas alfanuméri­c­as. El cam­bio suponía vol­car­lo en un Sis­tema de Infor­ma­ción Geográ­fi­ca (GIS por sus siglas en inglés), para poder visu­alizar toda la infor­ma­ción cen­sal en mapas que incor­po­ran y proce­san estas capas de datos. A través de la web ofi­cial del INE, aho­ra se tiene acce­so a un mapa de España en el que se pueden efec­tu­ar dis­tin­tos tipos de con­sul­ta, obten­er indi­cadores pre­definidos para una selec­ción geográ­fi­ca deter­mi­na­da, con­sul­tar mapas temáti­cos o trans­ferir la selec­ción geográ­fi­ca real­iza­da a un sis­tema de con­sul­ta de los datos en tablas. Todo, gra­cias al proce­samien­to de datos masivos.

Los macrodatos están adquirien­do asimis­mo un papel clave para el desar­rol­lo de la med­i­c­i­na per­son­al­iza­da, y se pre­vé que lo hagan tam­bién a medio pla­zo en el descen­so de la mor­tal­i­dad por cáncer y en el con­trol del gas­to san­i­tario. En este sen­ti­do, el pasa­do mes de abril, los oncól­o­gos par­tic­i­pantes en el XIV Sim­po­sio Abor­da­je Mul­ti­dis­ci­pli­nar del Cáncer desta­ca­ban cómo la adaptación de los hos­pi­tales a la era dig­i­tal, suma­da a la apari­ción de nuevas téc­ni­cas diag­nós­ti­cas, han con­duci­do a un auge del big data en el sec­tor oncológico.

Según señal­a­ba a la agen­cia Efe el doc­tor Alfre­do Car­ra­to, jefe de Ser­vi­cio de Oncología Médi­ca del Hos­pi­tal Uni­ver­si­tario Ramón y Cajal de Madrid, «gra­cias a la informa­ti­zación de los hos­pi­tales disponemos de una ingente base de datos clíni­cos y mol­e­c­u­lares». «Su ade­cua­do análi­sis y proce­samien­to bioin­for­máti­co per­mi­tirá una aprox­i­mación diag­nós­ti­ca más pre­cisa y un mejor conocimien­to de la biología tumoral y de los resul­ta­dos de las dis­tin­tas estrate­gias de tratamien­to, así como cono­cer resul­ta­dos de tratamien­to de tumores raros y las áreas de mejo­ra para una mejor plan­i­fi­cación san­i­taria», agregaba.

«El límite es nuestra imaginación»

«No hay ningún sec­tor donde no exista posi­bil­i­dad de sacar par­tido del gran vol­u­men de infor­ma­ción que se gen­era en la sociedad», explic­a­ba este mis­mo martes San­ti­a­go Bol­laín, direc­tor gen­er­al para Pymes en España de IBM, en el Cam­pus Exec­u­tive de Valèn­cia, un even­to orga­ni­za­do por el diario Lev­ante. «La tec­nología ha lle­ga­do a tal pun­to que podemos decir que el límite es nues­tra imag­i­nación», añadía.

Mar­tin Hilbert, doc­tor en Cien­cias Sociales y en Comu­ni­cación en la Uni­ver­si­dad de Cal­i­for­nia, cal­culó que en 2014 el mun­do gen­eró unos 5 zettabytes (un zettabyte es un 1 segui­do de 21 ceros) de infor­ma­ción. «Si pusiéramos todo eso en libros, con­vir­tien­do las imá­genes y otros ele­men­tos en su equiv­a­lente en letras, se podrían hac­er 4.500 pilas dis­tin­tas de libros que lle­garían has­ta el sol»,explic­a­ba. Tenien­do en cuen­ta que la can­ti­dad de infor­ma­ción crece a un rit­mo expo­nen­cial, y que «se dupli­ca cada dos años y medio, aho­ra [2017] prob­a­ble­mente son ya 10 zettabytes».

Todos esos datos se gen­er­an de múlti­ples for­mas. Los creamos cada vez que envi­amos un correo elec­tróni­co (más de 200 mil­lones cada min­u­to en todo el mun­do) o un men­saje por What­sApp, cada vez que pub­li­camos algo en Face­book o en Twit­ter, cada vez que bus­camos algo en Google, o cada vez que respon­demos a una encues­ta. Tam­bién creamos datos al efec­tu­ar transac­ciones financieras o sim­ple­mente nave­gan­do por inter­net, algo esen­cial para las her­ramien­tas de seguimien­to uti­lizadas por los anunciantes.

Y luego están los datos que com­parten máquinas entre sí, al recopi­lar y proce­sar la infor­ma­ción que reco­gen, por ejem­p­lo, sen­sores de tem­per­atu­ra, de luz, de altura, de pre­sión, de sonido… Los telé­fonos móviles envían peti­ciones de escucha wifi a todos los pun­tos de acce­so con los que se cruzan, y eso son datos que per­miten estable­cer la ruta que ha segui­do un dis­pos­i­ti­vo (es decir, su dueño), algo que cualquier usuario de Google Maps sabe bien. Eso, sin con­tar con los datos que provienen de las fuerzas de seguri­dad y defen­sa y de los ser­vi­cios de inteligen­cia (lec­tores bio­métri­cos como escáneres de reti­na, escáneres de huel­las dig­i­tales, lec­tores de cade­nas de ADN, etc.).

Riesgos y desafíos

Todo esto con­ll­e­va, obvi­a­mente, ries­gos, empezan­do por el uso que se hace de esos datos en relación con la pri­vaci­dad, pero tam­bién con la capaci­dad de manip­u­lar la infor­ma­ción para influir, por ejem­p­lo, en el resul­ta­do de unas elec­ciones; para favore­cer los intere­ses de las empre­sas con más capaci­dad para mane­jar esa infor­ma­ción; o inclu­so para estable­cer con­clu­siones que puedan acar­rear con­se­cuen­cias penales.

Una de las claves a este respec­to es el papel que jue­gan las empre­sas espe­cial­izadas en com­er­ciar con esos datos (los lla­ma­dos corre­dores de datos), uno de cuyos prin­ci­pales ejem­p­los es la esta­dounidense Acx­iom, una com­pañía que recoge, anal­iza y vende a sus clientes infor­ma­ción, que estos uti­lizan después para, entre otras cosas, gener­ar anun­cios per­son­al­iza­dos. En 2012, el diario The New York Times pub­licó que la fir­ma poseía la may­or base com­er­cial de datos del mun­do, con un prome­dio de 1.500 piezas de infor­ma­ción de más de 500 mil­lones de con­sum­i­dores. Y des­de entonces han pasa­do ya seis años.

Tan­to Acx­iom, que pro­por­ciona datos de con­sum­i­dores de EE UU, el Reino Unido, Fran­cia, Ale­ma­nia y Aus­tralia, como Epsilon,Oracle Data Cloud,Experian, Tran­sUnion y otras empre­sas del sec­tor, pueden verse seri­amente afec­tadas por el reciente anun­cio de Face­book de que dejará de coop­er­ar, de momen­to, con todos los recopi­ladores de datos ajenos, a raíz del escán­da­lo por la fil­tración a Cam­bridge Ana­lyt­i­ca.

El factor humano

Los desafíos del big data tam­poco son pequeños. La can­ti­dad de datos crece a un rit­mo mucho may­or que nues­tra capaci­dad para proce­sar­los, no ya como seres humanos, que quedó rebasa­da hace mucho, sino inclu­so medi­ante la tec­nología, por más que sea cier­to el ejem­p­lo clási­co de que un smart­phone actu­al tiene más capaci­dad de cóm­puto que la NASA cuan­do el ser humano llegó a la Luna. Eso nos obliga a con­fi­ar cada vez más en sis­temas rela­ciona­dos con la inteligen­cia arti­fi­cial, al tiem­po que exige más y mejores mecan­is­mos de control.

Por últi­mo, existe, además, un prob­le­ma de orden más filosó­fi­co, que se plantea ante el reto de estable­cer un límite a la per­cep­ción de que cualquier con­duc­ta humana es explic­a­ble, y pre­deci­ble, a par­tir del análi­sis de datos masivos.

En una entre­vista con­ce­di­da a eldiario.es con moti­vo de la apari­ción de su men­ciona­do libro, Vik­tor May­er-Schön­berg­er dis­tin­guía, en este sen­ti­do, entre la causal­i­dad (relación entre causa y efec­to) y la cor­relación: «Como humanos esta­mos con­fig­u­ra­dos para bus­car causal­i­dades, pero nece­si­ta­mos darnos cuen­ta de que las cor­rela­ciones a menudo ofre­cen infor­ma­ción valiosa y son mucho más fáciles de iden­ti­ficar com­para­das con la causal­i­dad real. A menudo pen­samos que cono­ce­mos las causas de cier­tas cosas pero no es así real­mente, y esto es peor que no cono­cer la causa en abso­lu­to. Así es que nece­si­ta­mos ten­er humil­dad cuan­do pen­samos en la causal­i­dad, y estar prepara­dos para acep­tar las correlaciones».