Big Data. Un Nuevo Paradigma De Análisis De Datos - Comillas

Transcription

Big data. Un nuevo paradigmade análisis de datosThere was five exabytes ofinformation created between thedawn of civilization through2003, but that much informationis now created every two days,and the pace is increasing.Eric Schmidt, former CEOof Google, 2010Carlos Maté JiménezProfesor Propio de la ETSI (ICAI) de la UniversidadPontificia Comillas de Madrid, adscrito al Departamento de Organización Industrial y al Instituto deInvestigación Tecnológica (IIT). Doctor en CienciasMatemáticas y diplomado en Ciencias Económicasy Empresariales por la Universidad Complutense.Actualmente imparte las asignaturas de Análisis deDatos, Economía y Gestión de Empresas y Estadística. Reconocido experto en predicción y en análisisde datos simbólicos, ha escrito varios libros sobreEstadística y publicado diversos artículos sobreaplicaciones de los métodos estadísticos en prestigiosas revistas internacionales y nacionales, tantodel ámbito industrial, informático y de organizacióncomo del económico.Palabras clave: cálculo distribuido,conjuntos de datos masivos, estadística, minería de datos.Resumen:En nuestros días, es un hecho incuestionable la ingente cantidad deinformación que se genera cada segundo en nuestro planeta. Dicha información puede ser estructurada,semiestructurada o no estructurada.También puede aportar enorme valora cualquier entidad o puede suponerun consumo excesivo de recursos humanos, informáticos, etc.El análisis inteligente (y la mayoríade las veces en tiempo real) de estetipo de información está empezandoa ser un requisito innegable para la supervivencia de muchas empresas y organizaciones. Como consecuencia deello han surgido en los últimos añostérminos de nuevo cuño como bigdata, Mapreduce, Hadoop o computación en la nube. Así, la demanda delos llamados “científicos de datos” estácreciendo exponencialmente.Este artículo plantea una introducción divulgativa a todos estos términos y analiza las estructuras más conocidas para el tratamiento de los bigdata, así como las cuestiones legalesy éticas.10 anales de mecánica y electricidad / noviembre-diciembre 2014Key words: data mining, distributedcomputing, massive datasets, statistics.Abstract:An unquestionable fact is the vastamount of information that each secondis now generated on our planet. This information can be structured, semi-structured or unstructured. It can also bringtremendous value to any entity or maylead to undue consumption of human orcomputing resources. Intelligent analysis(generally in real time) of this information is becoming absolutely undeniablefor the survival of many companies andorganizations. As a result demand forthe so-called “data scientist” is growingexponentially and new concepts like bigdata, Mapreduce, Hadoop or cloud computing have emerged.This article presents an informative introduction to all these terms and analyzes the best known structures for thetreatment of big data, as well as legaland ethical issues.

IntroducciónTradicionalmente la estructura deun conjunto de datos se presentacomo una matriz de n filas y p columnas, representando cada fila información sobre p variables medidas encada unidad (individuo, empresa, inmueble, calle de una gran ciudad, procedimiento judicial, etc.). Por ejemplo,la hoja de cálculo Excel 2013 puedeutilizarse para mostrar 1.048.576 filaspor 16.384 columnas en cada hoja,siendo los límites máximo de almacenamiento en memoria de 2 gigabytes(GB) en un entorno de 32 bits, y loslímites del sistema y su memoria en unentorno de 64 bits.Recordamos que un bit es la mínima cantidad de información procesada,sólo puede ser 1 o 0; mientras que unbyte es un conjunto de 8 bits. La Tabla 1muestra los distintos múltiplos del bytecon algunos ejemplos de los ámbitosestático y dinámico de la información,tomando como base el año 2014.Una solución a las limitaciones deExcel procedió de los sistemas degestión de bases de datos relacionales (RDBMS), que utilizan lenguaje deconsultas estructurado (SQL) paradefinir consultas y actualizar la basede datos. Las empresas líderes en elmercado de sistemas de bases de datos son Oracle, IBM y Microsoft.Estos sistemas se diseñaron para laretención de datos estructurados, enlugar de para asimilar un crecimientovertiginoso de los mismos y la mayoríade las veces presentándose en formano estructurada o semiestructurada,lo que hace de ellos una herramientaextraordinariamente costosa si la quisiéramos utilizar para manejar y almacenar datos masivos. Por ejemplo, sepueden consultar las especificacionesde capacidad máxima para un servidor SQL en 2014 en la 32.aspxLa conclusión a la que se llega esla incapacidad de las bases de datostradicionales para dar respuesta amuchos de los datos que aparecenahora en las empresas. Por ejemplo, lainformación que se genera cada día através de la opinión de los clientes deuna marca en las redes sociales comoFacebook, Twitter, etc.El término “big data”:definiciones y tipos. Internetde las cosasDesde hace unos años (especialmente los dos últimos años), se havenido observando que las cantidadesmasivas de datos recogidas a lo largodel tiempo responden al concepto debig data. Se han propuesto varias definiciones para este término, aunquetodavía no hay una definición universal al respecto (http://datascience.berkeley.edu/what-is-big-data/ recogemás de 40 definiciones). La Organización Mundial de Normalización (ISO)ha creado un grupo de trabajo queva a redactar la norma de vocabularioISO 3534-5, dedicada al mundo del bigdata y la analítica predictiva. Mientrasllega esa definición universal comentamos algunas de las más utilizadas.La definición que proporciona el diccionario de inglés de Oxford es “datosde tamaño muy grande, típicamentehasta el extremo de que su gestiónpresenta retos logísticos significativos”.El estudio publicado por McKinseyGlobal Institute (MGI) en junio de 2011:http://www.mckinsey.com/insights/business technology/big data thenext frontier for innovationiluminó el sentido de la definiciónanterior al definir big data como “conjuntos de datos cuyo tamaño va másallá de la capacidad de captura, almacenado, gestión y análisis de las herramientas de base de datos”.Tabla 1. Unidades básicas de información y tratamiento de datosSímboloSistemainternacionalB100 bytes1 B es un número de 0 a 255KilobyteKB103 bytes2 KB es aproximadamente un sector de CD-ROMMegabyteMB106 bytes3 MB es aproximadamente una canciónde 3 minutos4 MB/min en llamadas de vídeo por SkypeGigabyteGB109 bytes8/16 GB es el tamaño estándar de mercadode un pen-drive4 GB/hora de vídeo de alta calidadTerabyteTB1012 bytes4 TB es el tamaño de un disco de 120 quealmacena 800.000 fotos o canciones mp320 TB/hora es la información generada por unmotor de avión en el airePetabytePB1015 bytes2 PB es la información almacenada en todas lasbibliotecas de investigación académicas de USA24 PB/día es la información recogida por GoogleExabyteEB1018 bytes5 EB es aproximadamente todas las palabraspronunciadas por todos los seres humanos966 EB es aproximadamente la predicción delvolumen total de Internet en 2015ZettabyteZB1021 bytesSe estimó que en 2012 la capacidad instaladade almacenamiento de información en el mundosería de 2,5 ZB.5 ZB/año es la cantidad de datos digitales promedio que se van a generar en la Tierra en lospróximos 8 añosYottabyteYB1024 bytes1 YB equivale a la capacidad del Data Centerinaugurado por la NASA en 2013XerabyteXB1027 bytes1 XB equivale a 1.257.000 iPad 3 de máximacapacidad por cada habitante de la tierraNombreByteEjemplo 2014 estáticoEjemplo 2014 dinámicoBig data. Un nuevo paradigma de análisis de datos11

En 2012 Gartner definió big datacomo “activos de información caracterizados por su volumen elevado, velocidad elevada y alta variedad, quedemandan soluciones innovadoras y eficientes de procesado para la mejora delconocimiento y la toma de decisionesen las organizaciones”. Esta definiciónhace mención a las 3 famosas “V” delos big data: Volumen, Velocidad y Veracidad (Figura 1); cuyos detalles sepueden consultar en el libro blancode Fujitsu –Mitchell et al. (2012)– yen Zicari (2014). Adicionalmente sehan propuesto nuevas “V” como Valor, Veracidad y Visualización; o inclusoVolatilidad, Validez y Viabilidad.Los tipos de datos en las aplicaciones de big data se muestran en laTabla 2.Las redes sociales como Facebook,Twitter, Linkedin, etc., son uno de losmás reconocidos caladeros para obtener datos masivos, habiendo dadolugar a una línea de investigación importante, que es el análisis del sentimiento. Una de sus ramificaciones esla incidencia que tiene en las finanzas(ver, por ejemplo, Cerchiello and Giudici [2014]).Otra fuente de generación ingentede big data en los próximos años vaa ser el Internet de las cosas, cuyosdetalles se pueden consultar e/assets/pdf/internet-of-things-iot-ibsg.pdfSe trata de todos los datos que segeneran entre persona y máquina oentre máquina y máquina (Tabla 2),que como ocurre con los datos de lasredes sociales también suelen ser noestructurados.Distintos ejemplos de contextos sobre big data se muestran enAkerkar (2014).Figura 1. Las 3 primeras “V” de big dataFuente: ig-data-as-applied-conferences/información anterior. Sin embargo,con un clúster de 1.000 nodos sólonecesitaremos 3,3 minutos.Una parte importante de los iniciosde desarrollo de plataformas informáticas para el tratamiento de big data seencuentra en dos artículos que escribieron los investigadores de Google.Ghemawat et al. (2003) diseñaron eimplantaron el sistema de ficheros deGoogle (GFS) como un sistema deficheros distribuido y escalable paraaplicaciones intensivas en datos. Deany Ghemawat (2008) crearon la herramienta MapReduce y en 2004 (primera versión de su artículo) solicitaron lapatente del sistema y método para elprocesado eficiente de datos a granescala, que fue concedida seis añosdespués (Dean y Ghemawat [2010]).Soluciones informáticas parael tratamiento de big dataEl procesar la información asociada a conjuntos de datos cuyotamaño es del orden de 10 TB plantea utilizar sistemas distribuidos ennodos en lugar de sistemas con unúnico nodo. La razón principal es larapidez. Si un nodo procesa 50 MB/srequerirá 2,3 días para procesar la12 anales de mecánica y electricidad / noviembre-diciembre 2014MapReduceEs un modelo de programación yuna implantación para procesar y generar grandes conjuntos de datos quetiene sus orígenes en el lenguaje LISP.Los usuarios tienen que especificar varias funciones Map (M en la Figura 2).Una función mapa (Map) procesa unpar clave/valor generando un conjuntointermedio de pares clave/valor. Es decir:Map (clave, valor) (clave’, valor’)A continuación actúan varias funciones Reduce (R en la Figura 2). Unafunción de reducción (Reduce) mezclatodos los valores intermedios (clave’,valor’) asociados con la misma clave intermedia (clave’). Cada Reduce generauna salida de fichero única (o cero).Tabla 2.Tipos de datos en el paradigma big dataDatos estructuradosFichas de clientesFecha de nacimientoNombreDirecciónTransacciones en un mesPuntos de compraDatos semiestructuradosCorreos electrónicosParte estructurada:destinatario,receptores,temaParte no estructurada:cuerpo del mensajeDatos no estructuradosPersona a personaComunicaciones en las redessocialesPersona a máquinaDispositivos médicosComercio electrónicoOrdenadores, móvilesMáquina a máquinaSensores, dispositivos GPSCámaras de seguridad

La Figura 2 muestra el marco MapReduce, cuya empresa pionera fueGoogle.EjEMPLo:Un caso de uso frecuente es aplicar Map y Reduce de forma sucesiva,primero se prepara un conjunto dedatos vía Map y luego se extrae información vía Reduce. Por ejemplo, siguiendo la información de la siguiente uceFoundation/la Figura 3 muestra una tarea deMapReduce en la que contabiliza lasocurrencias de cada palabra (datosde salida a la derecha) en los datosde entrada (izquierda).Es decir, el ejemplo anterior nosmuestra el cálculo de la frecuenciaabsoluta en términos de EstadísticaDescriptiva de cada una de las modalidades presentes en los datos deentrada. Lógicamente con los datosde salida se pueden obtener frecuencias relativas y aplicar procedimientos gráficos como pictogramas,diagramas de barras, etc. En el casode que la información de entrada sea numérica, una de las tareasclaves en la generación de gráficosde cajas y búsqueda de los cuantiles consiste en ordenar los datos deentrada.Los programas escritos en esteestilo funcional automáticamente seconfiguran en paralelo y se ejecutansobre un gran clúster de máquinas,siendo altamente escalable. Porejemplo, un cálculo típico de MapReduce procesa decenas de TB enmiles de máquinas.Figura 2. Marco MapReduce de GoogleFuente: Dean y Ghemawat (2008).HadoopEl proyecto Apache Hadoop (http://hadoop.apache.org/) desarrollasoftware libre para el cálculo distribuido, fiable y escalable. Conocido popularmente por Hadoop y representadopor un elefante amarillo (Figura 4), setrata de una plataforma de softwareque permite escribir con facilidad yejecutar aplicaciones que procesaningentes cantidades de datos. Incluye: MapReduce (motor de cálculooffline). HDFS (sistema de ficheros distribuidos de Hadoop). HBase (acceso de datos online).El mayor contribuyente a los desarrollos de Hadoop es por el momentoYahoo. Las características de Hadoopque lo hacen especialmente útil son: Escalable: diseñado para escalar de servidores individualesa miles de máquinas, cada unaofreciendo cálculo local y almacenamiento; puede llegar a procesar y almacenar petabytes demanera fiable. Económico: distribuye los datosy los procesa a través de clústersde ordenadores comúnmentedisponibles (en miles). Eficiente: al distribuir los datospuede procesarlos en paralelosobre los nodos donde los datosestán localizados. Fiable: automáticamente mantiene copias de datos y tambiénde manera automática realiza denuevo tareas de computación basadas en fallos.Figura 3. Ejemplo de MapReduceFuente: undation/Big data. Un nuevo paradigma de análisis de datos13

EjEMPLoS: Amazon. Para construir los índices de búsqueda de producto deAmazon dentro de su analítica seprocesan diariamente millones desesiones. Se emplean JAVA y APIde streaming, variando los clústersde 1 a 100 nodos. Yahoo. Hadoop se ejecuta enmás de 100.000 CPU que se encuentran en aproximadamente20.000 ordenadores. El clústermás grande es de 2.000 nodos(cada disco tiene 4 TB y estámontado en cajas de 2 x 4 CPU).Su uso está vinculado a búsquedas en la web. Facebook. Emplea Hadoop paraalmacenar copias de log internosy fuentes de dimensión de datos.Lo utiliza como fuente para generar informes de analítica y aprendizaje de máquina. El sistema tieneun clúster de 320 máquinas con2.560 núcleos y alrededor de 1,3PB de almacenamiento bruto.Más detalles en Zicari (2014).NoSQL y HadoopEl término NoSQL (Not Only SQL)hace referencia a amplias clases deFigura 4. Esquema de Hadoop y MapReduceFuente: Apache Software Foundationbases de datos que se diseñan paramanejar datos semiestructurados. Noutilizan el lenguaje de consultas o SQL.Más detalles en Pokorny (2013).Hadoop y NoSQL son sistemasabiertos o libres, poseen alta velocidad y muestran un elevado grado detolerancia al fallo. Son eficientes encostes porque almacenan los datosFuente: Blog Qmee14 anales de mecánica y electricidad / noviembre-diciembre 2014en pequeños trozos a través de variosservidores. Pueden procesar consultascon rapidez al enviar varias consultasa múltiples máquinas al mismo tiempo. Debido a estas ventajas, Microsoft,Oracle, IBM, EMC, Teradata y otrasempresas los han incorporado en suspropias plataformas.Computación en la nubeEl término computación en la nube(cloud computing) es una solución delas tecnologías de la información (IT)para ofrecer recursos y servicios sobre Internet. Según la definición delNIST (National Institute of Standardand Technology), el cloud computing esun modelo tecnológico que permiteel acceso ubicuo, adaptado y bajo demanda en red a un conjunto de recursos de computación configurablescompartidos (por ejemplo, redes, servidores, equipos de almacenamiento,aplicaciones y servicios) que puedenser rápidamente aprovisionados y liberados con un esfuerzo de gestiónreducido o interacción mínima con elproveedor del servicio.La idea básica es que toda la información se almacena de forma distribuida en servidores, siendo accesibleen cualquier momento por el usuariosin que éste se preocupe de nada, elpropio sistema de “cloud” es el quese encarga de mantener siempre la

información disponible. En el caso deque se esté almacenando una aplicación en la nube, el propio sistema esel que se encarga de subir la capacidad de computo, memoria, etc., enfunción del uso que se le está dandoa la aplicación, con lo cual en la nubeno sólo se delega la capacidad de almacenamiento sino que también sedistribuye en los servidores el procesamiento de datos. Esto hace que enun sistema en la nube las capacidadesde cálculo y almacenamiento seanmuy elevadas.La computación en la nube ha supuesto una reducción de costes, unamayor flexibilidad y una utilizaciónóptima de los recursos, por lo que seconsidera que es una herramienta deventaja competitiva de las empresas.Entre sus usos destaca la analítica delos big data. Kambatla et al. (2014) hanindicado que una de las principalesaplicaciones de la generación futurade sistemas distribuidos y de cálculoparalelo se encuentra en la analíticade los datos enormes. Los repositorios de datos para tales aplicacionesexceden actualmente la magnitud deexabytes y están creciendo rápidamente en tamaño. Los datos residenen plataformas con capacidades computacionales y de red que varían ampliamente. Ello hace que las consideraciones de tolerancia a fallos, seguridady control de acceso sean críticas.El territorio emergente de entornosbasados en la nube con centros de datos que acogen grandes repositoriosde datos plantea la necesidad de algoritmos distribuidos/paralelo efectivos.Se trata de un tema de investigaciónen la frontera del conocimiento delas técnicas de inteligencia artificial deaprendizaje de máquina como las redes neuronales, las técnicas de clasificación o los diagramas en árbol.Para más detalles acerca de lascuestiones relativas al tratamiento delos big data a través de la computación en la nube veáse la revisión deHashem et al. (2015).Cuestiones legales y éticasLa obtención, tratamiento y explotación de los big data plantea importantes cuestiones de índole legal. ElFigura 5. Estructura de cloud computingFuente: http://es.wikipedia.org/wiki/Computación en la nubeantecedente legislativo más conocidoes la Ley Orgánica de Protección deDatos (LOPD), que se puede consultar en la Agencia Española de Protección de Datos (AEPD), cuya web php.phpSu modificación por la influencia delos datos masivos, computación en lanube, internet de las cosas, etc., todavía no ha sido propuesta en Españapero es posible que sea acometidaen la próxima legislatura. La imperiosa necesidad de esa modificación dela LOPD vendrá de la toma de conciencia por parte de la sociedad de lasimplicaciones éticas correspondientesque analizamos más adelante. Un documento actualizado de la AEPD sobre todo ello cion/publicaciones/common/Guias/Guia EIPD.pdf.La reflexión sobre las implicaciones éticas de los big data suele estarpresente en los distintos eventos quese organizan sobre este tema, comola clausura del Año Internacional dela Estadística en diciembre de 2013,entre otros; concluyendo que se vaa poner a prueba el nivel ético delos distintos usuarios de estos datosya sean gobiernos, organizaciones oempresas.Recientemente, Pulido (2014) en lalección inaugural del curso 2014-2015en la UAM ha identificado las siguientescuestiones éticas sobre los big data: privacidad, transparencia, pérdida de identidad, discriminación y castigo anticipado y peligro de exclusión. Remitimos alos lectores a dicho documento paraprofundizar sobre estas cuestiones. Enel caso del marketing se puede consultar Nunan y Di Domenico (2013).Digamos que igual que es necesario un carné de conducir para dirigirlos movimientos de una moto, cocheo camión con las consiguientes responsabilidades penales; será necesariotambién un carné de conducción dedatos para tratar y analizar los datos,también con las consiguientes responsabilidades penales. Las modalidadesde este futuro carné de datos probablemente dependerán de la complejidad y tamaño de los datos a analizar.ConclusionesEn el año 2010 el término big dataera prácticamente desconocido. Amediados de 2011 se convertía enuna palabra que aparecía con frecuencia entre las últimas tendencias. Lo queparecía iba a ser una palabra de moda(buzzword) y, por ende pasajera, se haconvertido en todo un área de interés enorme para las empresas, orgaBig data. Un nuevo paradigma de análisis de datos15

nizaciones y administraciones públicas;generando un mercado profesionalemergente, que es el de los científicosde datos, y abriendo nuevas líneas deinvestigación y nuevas revistas específicas en el contexto académico comoBig Data o Big Data Research. Desdeel punto de vista de la normalización,ISO está desarrollando la nueva norma de vocabulario ISO 3435-5, dondese recogerán los términos asociados aeste concepto.Este artículo ha presentado la evolución del análisis de datos clásico,básicamente pensado para datos estructurados (cualitativos y/o cuantitativos), desde las típicas matrices dedatos de n filas por p columnas (conn no superando el millón de unidadeso casos y p no superando un par dedecenas de miles de variables), hastael nuevo marco del análisis de los datos enormes donde los datos puedenser estructurados, semiestructuradoso no estructurados, y se presentan encientos de billones de filas y millonesde variables.Los sistemas de gestión de bases dedatos tradicionales RDBMS basadosen SQL son incapaces de procesareste nuevo contexto de los big data, loque ha hecho necesaria la aparición denuevos paradigmas en el tratamientode datos masivos como MapReduce,Hadoop, NoSQL o cloud computing;términos que han sido presentadosde forma divulgativa en este artículo.La analítica de los big data no se hapodido desarrollar por cuestión de espacio. Sólo queda comentar que la estadística de los big data tiene, como eslógico, sus cimientos en la EstadísticaClásica, pero requiere un enfoque dela llamada Ingeniería Estadística, donde las técnicas de Inteligencia Artificialproporcionan una base imprescindibley crítica para el futuro analítico de losdatos masivos.Todo lo anterior nos lleva a afirmarcon rotundidad que big data representa un nuevo paradigma dentro delAnálisis de Datos.Mención aparte merecen las cuestiones legales y éticas de los big dataque han sido someramente expuestas.Con ellas se abre un campo de investigación fascinante y multidisciplinardonde la colaboración entre distintoscentros de una misma Universidadpodría dar unos resultados absolutamente espectaculares en el medioplazo.BibliografíaAkerkar R. (Ed.). (2014). Big data computing. CRCPress.Cerchiello P, Giudici P. (2014). How to measure thequality of financial tweets (No. 069). Universityof Pavia, Department of Economics and Management.Dean J, Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.Dean J, Ghemawat S. (2010). U.S. Patent No.7,650,331. Washington, DC: U.S. Patent andTrademark Office.Ghemawat S, Gobioff H, Leung ST. (2003). TheGoogle file system. In ACM SIGOPS OperatingSystems Review (Vol. 37, No. 5, pp. 29-43).ACM.Hashem IAT,Yaqoob I,Anuar NB, Mokhtar S, Gani A, Khan SU. (2015).The rise of “big data” oncloud computing: Review and open researchissues. Information Systems, 47, 98-115.Kambatla K, Kollias G, Kumar V, Grama A. (2014).Trends in big data analytics. Journal of ParallelDistributed Computation, 74, 2561-2573.McKinsey Global Institute. (2011). Big data: Thenext frontier for innovation, competition, andproductivity.Mitchell I, Locke M, Wilson M, Fuller A. (2012).The White Book of Big Data. The definitiveguide to the revolution in business analytics.Fujitsu. gData.pdfNunan D, Di Domenico M. (2013). Market research and the ethics of big data. International Journal of Market Research, 55(4), 505-520.Pokorny J. (2013). NoSQL databases: a step todatabase scalability in web environment. International Journal of Web Information Systems,9(1), 69-82.Pulido E. (2014). Big data: solución o problema.Lección inaugural curso 2014-2015 en la Universidad Autónoma de Madrid. http://arantxa.ii.uam.es/ epulido/bigdata.pdfZicari RV. (2014). Big Data: Challenges and Opportunities. In Akerkar R. (Ed.). (2014). Big data computing. CRC Press.16 anales de mecánica y electricidad / noviembre-diciembre 2014

El término "big data": definiciones y tipos. Internet de las cosas Desde hace unos años (especial-mente los dos últimos años), se ha venido observando que las cantidades masivas de datos recogidas a lo largo del tiempo responden al concepto de big data. Se han propuesto varias de-finiciones para este término, aunque