Le Big Data Mining - IRIT

Transcription

Le Big Data Miningenjeux et approches techniquesBernard DoussetProfesseur de universitésInstitut de Recherche en Informatique de ToulouseUMR 5505Université de Toulouse118, Route de Narbonne, F-31062 Toulouse cedex 9 (France)bernard.dousset@irit.fr

Plan 2IntroductionLes enjeux et les verrousQuelques exemples d’applicationsLes avantages et les inconvénientsLes solutions techniquesLes nouveaux outilsLes nouveaux algorithmesConclusionsLe Big Data Mining enjeux et approches techniques, Bernard DOUSSET

IntroductionLe BIG DataDéfinition par les 5 V du Big Data Volume Vitesse Variabilité Véracité VisualisationLe Big Data Mining L’économiste en chef de Google Hal VARIAN a dit« Data Scientist, le job le plus sexy du 21e siècle » Le Big Data va fortement faire évoluer les statistiques, l’analysede données, le data mining, le text mining (répartition optimale desdonnées et traitements parallèles) 3L’or noir du XXI siècle ?Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

IntroductionPourquoi cet engouement L’information produite par toute l’humanité a doublé en 2 ans à cause du web, de la téléphonie, des réseaux, des capteurs, des vidéos, 3 verrous : le coût des connexions, les I/O, la puissance d’un seul processeur Les systèmes SQL coûtent cher (SI, SGBD, Main frame, systèmes distribués, BI, ) Pour de gros volumes ( 108), ils ne sont plus assez efficaces Les clusters coutent beaucoup moins cher et passent à l’échelle Les cartes vidéos, détournées de leur usage, coutent encore moins cher * Deux solutions en fonction des besoins Mutualiser des ressources (Cloud, Data Center)UC, DD, I/O, logiciels, sauvegardes, maintenance, sécurité, Paralléliser (Big Data) et changer de mondeNoSQL, NewSQL, Map reduce, Adoop, Cassandra, MongoDB, BigTable, * s-catalog-lowres.pdf4Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les enjeux et les verrousLe gouvernement a défini 5 leviers pour le Big Data Ouvrir les données publiques, Favoriser la création de start-up Renforcer la chaîne de financement fonds « ambition numérique » Lancer des défis de valorisation de stocks de données Utiliser le potentiel de ces données (OpenData) Pôle emploi, sécurité sociale, éducation nationale, enseignementsupérieur, patrimoine touristique, Création d’un centre de ressources technologiques Outils logiciels, méthodes statistiques ou mathématiques, Jeux de données massives Infrastructures de calcul, kit de briques technologiques.5 Renforcer la capacité à l’export des PME du Big Data Création d’un droit à l’expérimentationLe Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les enjeux et les verrous6Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les enjeux et les verrousQuelques chiffres Le génome (3 Md), il y a 10 ans (10 ans ,1Md ) aujourd’hui (2 jours, 2K ) La photo il y a 20 ans (105 Pixels), aujourd’hui (3.107 Pixels, prix/100)1024 1021 1018 1015 1012 109 106 103010-3 10-6 10-9 10-12 10-15 10-18 10-21 10-24000 000 000 000 000 000 000 000,000 000 000 000 000 000 000 000Yota zeta exa péta téra giga méga kilo , milli micro nano pico femto atto zepto yoctoFacebook/jourDonnéesde 2013Télescope/jour*I/O*PuissanceDes UC*CoûtMémoire* Depuis 19807Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les enjeux et les verrousLes trois principaux verrous Coût des connexions Un clic sur le web équivaut à 20 watts/heure Un Data center consomme l’équivalent d’une ville de 20 000 habitants Consommation de l’informatique 10% (2013) 50% dans 20 ans Éviter le plus possible les transferts de données Débit des entrés sorties 0,4 Mo/S en1980, 40 Mo/S actuellement x100 MV : 300 le Mo en 1980 0,5 10-6 actuellement Temps de lecture d’un de mémoire DD multiplié par 75 000 ! Paralléliser les I/O donc distribuer le stockage ou le changer Puissance des processeurs Fin de la loi de Moore (l’intégration double tous les 18 mois) Puissance x 10 à 20 000 depuis 1980 (plafonnée à 3ghz, 30nm) Calcul parallèle et/ou distribué8Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Quelques exemples d’applications9Les acteurs La domotique et les compteurs électriques intelligents Les essais en vol (enregistrement des paramètres de vol) La téléphonie (facturation, historique, statistiques, ) L’imagerie médicale (scanners, IRM, échos, ) La génomique et l’épidémiologie Les données bancaires et financières L’analyse d’opinions (politique, marketing, e-réputation, ) Les données astronomiques (Hubble, radiotélescopes, ) Les données géo-référencées, la géolocalisation, Les modélisations (climatique, sismique, fluides, matériaux, molécules) La physique des particules (CERN), la chimie quantique, Les données ouvertes Le web des données, le web invisible Les data centers, les réseaux sociauxIBMGoogleMicrosoftIntelOracleSaasSap Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les avantages et les inconvénientsLes du Big Data Le passage à l’échelle La solution peut rester en interne Solutions open source Le coût pour les très gros volumes Le temps de réponse Etude des queues de distribution (pas d’échatillonnage) Etude des données à faible densité informationnelle 64% des organisations veulent s’y mettreLes – du Big Data Il faut maîtriser une nouvelle technologie Moins de possibilités que les SGBD classiques, qu’OLAP, Nouvelle approche de l’analyse de données (Data, Text, Web mining) Améliorer les analyses et les données existantes avant de passer au BigData 8% seulement des organisations se sont lancées10Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les solutions techniquesAu niveau hadware Clusters Coût / disponibilité, homogénéité Montée en charge, répartition de la charge, Gestion des ressources (processeur, mémoire, disque, bande passante) Grilles Hétérogène (clusters, serveurs, PC, téléphones mobiles, tablettes, ) Partage, distribution, coordination (middleware), autonomie, délocalisation Cartes graphiques Machine Learning, Data Mining, recherche, tri, BD, MapReduce, Cloud Virtualisation Partage des ressources matérielles et logicielles et des serviceshttp://www.nvidia.com11Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les solutions techniquesAu niveau de la plateforme Solutions Hadoop** (HDFS, HBase, MapReduce) Cloudera (la plus installée) HortonWorks (100% d’Apache Hadoop) MapR (support fichiers HDFS) Cisco, Google, Amazon Pivotal HD EMC Corparation IBM InfoSphere BigInSights Amazon Elastic Map Reduce (solution hébergée) he.orgLe Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les solutions techniquesAu niveau des packages Big Data Open source ou propriétaire Critères de choix Simplicité expérimentation Respect des standards Facilité d’intégration des données Adéquation des fonctionnalités supportées Pièges à éviter Taxe sur les données (on est en Big Data) Package non compatibles avec le mode natif d’Apache Hadoop Un moteur par serveur Coût Ne pas sur dimensionner hadoop.apache.orgLe Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux outilsBases de données Clé/Valeur Caractéristiques Solution dite NoSQL , hachage optimisé pour la répartition Stockage en mémoire d’un couple clé-valeur blob (binary large object) Les Simpicité Extensibilité Performances (volume important) Les – Utilisation spécifique (requêtes basées uniquement sur les clés) Pas de modèle relationnel Faible complexité des données*DynamoDB (amazon), SimpleDB,Voldemort, Riak, Redis, Cassandra (Apache)14Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux outilsBases de données orientées colonnes Caractéristiques Transposée d’un base de donnée relationnelle Pas de valeur « null » stockée Les Utilisée par les grands du Web Gain d’espace, bonne indexationNomVacancesVoitureMarc (1)Mer (1)Berline (2)Jean (2)Montagne (3)4x4 (3)Alain (3)Break (5)Victor (5) Facilité et rapidité de récupération d’une colonne Possibilité d’un très grand nombre de colonnes, de redimensionnement Quelques requêtes proche de SQL (select/update/delete) Les – Données d’un même type, qui se ressemblent Fortement orientée Big Data*BigTable (Google),Vertica (hp), Hadoop (Apache), Cloudera, DataStax, 15Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux outilsBases de données orientées documents Caractéristiques Cas particulier des bases Clé/Valeur* Un document (Html, Xml, Image, ) est associé à une clé Un commentaire (Titre) est associé au document Les On peut facilement récupérer les Titres Orientée données hétérogènes Gestion du contenu de pages Web Ajout simplifié de machines Les – Problème dus à la duplications de données Très (Trop) grande flexibilité incohérences*Terrastore, RavenDB, RaptorDB, SimpleDB, Redis, MongoDB, CouchDB, GigaSpaces, GemFire, 16Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux outilsBases de données orientées graphes Caractéristiques Des nœuds représentent des objets possédants de nombreuses propriétés Des liens représentent des relations entre les objets Possibilités Hypergraphes Les On peut facilement parcourir le graphe (largeur, profondeur, ) Trouver les liens entre objets similaires Trouver des ascendants ou descendants communs Bien adaptée aux données relationnelles : réseaux sociaux, RDF, Objets Les – Approche spécifique : nœuds/liens/propriétés Ne remplace pas les autres BD NoSQL ni les BD relationnelles*Neo4j (java), HyperGraphDB, FlockDB (Twitter), BigData, 17Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux algorithmesLes algorithmes de tri18 tri par insertion tri par sélection tri bulle tri fusion tri rapideLe Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux algorithmesExemple de tri distribué 19Sur Google plus de 2 milliards de résultats pour « Big Data » PagerankLe Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux algorithmesLe filtrage distribué20Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux algorithmesLes dénombrements distribuésNomVacancesVoitureHenri (6)Mer (6)Berline (7)Audrey (7)Mer (7)21NomMarc (1)Jean (2)Julie (5)Victor reMer (1)Berline (2)Montagne (5) 4x4 (9)Break (1)NomVacancesVoitureAnne (3)Campagne (3) Spider (4)Léa (4)Mer (8)Alain (8)VacancesNbCampagne1Mer4Montagne1Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Les nouveaux algorithmesEn théorie des graphes Calcul du degré Algorithme du plus court chemin Dijkstra parallèle Bellman Ford parallèle Arbre partiel extremum (couvrant) Prim parallèle Arborescence minimum Huffman parallèle22Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Conclusions Choix de la bonne solution Installer un cluster ou le simuler Hadoop or not Hadoop Quelle distribution ? (Cloudera, Hortonworks , MapR, ) Modélisation, génération de code, planification des jobs Big Data, Intégration de différentes sources de données Problèmes juridiques Données ouvertes Données personnelles23Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

ConclusionsEst-ce que les données sont fortement structurées ou non ?Quel est le ratio entre les lectures et les écritures ?Est-il acceptable de perdre un enregistrement sur un million ? Sur un milliard ?Est-ce que les données sont réparties sur plusieurs data-centres ?Est-ce que la taille des données peut être multipliée par 10 en l'espace d'un mois ?Quelle indisponibilité du service peut-on se permettre ?Etc.24Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Conclusions25Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Merci pour votre attention !!!Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET

Introduction 3 Le Big Data Mining enjeux et approches techniques, Bernard DOUSSET Le BIG Data Définition par les 5 V du Big Data Volume Vitesse Variabilité Véracité Visualisation Le Big Data Mining L'économiste en chef de Google Hal VARIAN a dit « Data Scientist, le job le plus sexy du 21e siècle » Le Big Data va fortement faire évoluer les statistiques, l'analyse