Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Par où commencer ? La direction demande un projet Big Data « générique » – Identification des sujets HP Big Data Discovery Workshop Echanges métiers – Mise en place d’une stratégie Datalab – Mise en place d’une stratégie DataLake – Mise en place d’une stratégie DataViz Un métier a une demande précise – Phase de qualification : SLA, Stratégie de restitution – Privilégier les approches itératives – « Pizza Team » L’IT veut se faire la main en attendant les demandes métier – Partir de besoins Big Data de l’IT (Gestion des logs, Sécurité…) L’IT veut monter une offre Hadoop as a service – Expertise et références HP © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Changement de paradigme pour les DBA Type de données On traite du structuré mais aussi du non structuré – Evolution de la notion de qualité des données (Moins de synchronisation, plus d’échantillons, time stamp) – Recherche de performance – – – – – – – – Passage systématique à des schémas ‘dénormalisés’ (réplication pour éviter les jointures) Plus d’effet de seuil (mode Batch, traitement long mais pas bloqué) Peu ou pas d’indexes Possibilité de définir les « formats » a postériori -> Datalake Plus de partitionnement des données (data sharding, rotation) Peu ou pas de triggers et de procédures stockées (mais modules CEP disponibles) Architecture MPP : Matériel faible cout, le volume peut améliorer la performance Possibilité de solutions spécialisés (Base en colonne, Base document, base Graphe…) Procédure d’opération Pas de Backup Restore sur plusieurs Peta – Multi-site restreint – Sécurité spécifique – 3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Intégration aux stratégies de développements Direct Hadoop Connections Hadoop Data SQL Scalable MPP SQL Database with Hadoop Connector Hadoop integration tools Traditional Database ie : PostgreSQL Extract / format data In Hadoop (ETL) Key/Value Store Developped with Hadoop tools Storm 4 Clojure © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Monde Hadoop BI traditionnel BI Tools Math. Language 5 Hive Pig Mahout HCatalog Batch Processing MapReduce Impala, Stinger, Drill Low latency Processing TEZ, Spark Cascading Resource management & Coordination YARN MESOS Zookeeper Distributed Storage HDFS2 OS Server OS Server OS Server OS Server OS Server HP ProLiant Gen8 server with DAS © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. … OS Server Data Integration Services HBase, Cassandra, Spark Non-Relational Database Oozie Workflow & Scheduling Ambari, Cloudera Mger, Hue CMU Management & Monitoring Sentry , Knox, Kerberos, OpenLDAP Security Hadoop Virtualization Extensions on VMware vSphere® 5 (HVE) Cloud Enablement Data Processing Flume, Sqoop, Storm, Kafka, WebHDFS Selectionner ses modules dans l’ecosystème Hadoop Hadoop les aspects réseau Les principes de base Hadoop est sensible à la bande passante Un réseau 10Gbit Ethernet est une option, cette architecture n’est pas obligatoire – L’usage de plusieurs ports 1Gbit Ethernet en agrégation de liens (LACP) est une architecture alternative – Hadoop n’était pas sensible à la latence mais cela évolue Il n’est donc pas nécessaire de considérer un réseau Infiniband ou 40Gbit Ethernet – Avec l’introduction des requêtes interactives cet aspect va évoluer – Hadoop génère un trafic inter-nœuds important (en particulier la phase Shuffle) L’utilisation de commutateurs « Deep Buffer Caching » est un atout pour les performances – Il faut éviter les architectures réseaux « Nord-Sud » qui remontent les flux dans un back-bone et prendre des top-of-racks qui « isolent » le cluster – Hadoop n’est pas « routable » (niveau 3) 6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Gestion des architectures parallèles (MPP) Nouvelles procédures et nouveaux utilitaire (HPInsight CMU) Gestion de systèmes standards • • • • L’objectif est de déployer de nombreux services sur une machine Tous les OS peuvent être différents Les opérations sont par défaut basées sur l’Hyperviseur La performance s’analyse au niveau d’un système unitaire -> le coût d’opération est lié au nombre d’OS Massivelly Parallel systems management • • • • L’objectif est de déployer un unique service sur de nombreuses machines Tous les OS doivent être similaires au firmware près Pas d’hyperviseur (les services utilisent 100% des systèmes) La performance s’analyse au niveau global -> le coût d’opération doit être lié au nombre de services Hadoop (comme Mongo DB, Couchbase, Vertica, SAS VA, Moonshot…) induit la gestion de systèmes massivement parallèles 7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. HP CMU Gestion des fermes de calcul - Aide au tuning du développement - Opérer 10, 100, 1000 systèmes comme un seul - Adresse Vertica et Hadoop, SAS HPA et SAS Visual Analytics 8 8© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Merci Didier.Kirszenberg@hp.com © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
© Copyright 2025