Sélectionner une page

Objectifs de la formation

  • Connaître les technologies pour mettre en place un projet Big Data et construire l'architecture associée

Participants / Pré-requis

  • Ce cours est destiné aux administrateurs de clusters Hadoop, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs

  • Connaissance de l’administration Linux (manipulation de fichiers, service, package, etc.) pour pouvoir réaliser les travaux pratiques

Moyens pédagogiques

  • Formation avec un formateur, dans une salle dédiée à la formation, équipée d'un vidéoprojecteur, d'un tableau blanc ou à distance dans le cas de solutions de Digital Learning
  • 1 poste de travail par stagiaire adapté aux besoins de la formation + 1 support de cours et/ou un manuel de référence au format numérique ou papier
  • Modalités pédagogiques : Exposés – Cas pratiques – Synthèse

Programme

1. Les questions clés à se poser lors de la mise en place d'un projet Big Data

  • Quels sont les différents cas d’usage de l'application ?
  • Quelles sont les sources de données ?
  • Les mesures de qualité et de performances ?
  • Quel est le cycle de vie de la donnée ? Par quelles transformations passe-t-elle ? Comment la gouverner ?
  • Comment gérer les différentes charges de travail et héberger des projets différents sur la même infrastructure ?
  • Quelles sont les principaux modèles d'architecture d'un SI Big Data ? C’est quoi le "Data Lake" ?
  • Comment dimensionner l'infrastructure et mesurer la scalabilité du système ?
  • C'est quoi le cycle de vie d'un projet Big Data ?
  • Quelles sont les compétences nécessaires pour réussir dans la mise en place d’un projet Big Data ?
  • Comparaison des principales distributions d’Hadoop : Apache Hadoop vs HortonWorks vs Cloudera vs MapR

2. Architecture Big Data

  • Limites des architectures classiques
  • Avantages des nouvelles architectures Big Data
    • Structures différentes de données (structurées, semi-structurées et non structurées)
    • Stockage de grandes quantités de données à moindre coût et Scalabilité en termes de stockage
    • Performances élevées du traitement de données massives sous différentes latences (Batch ou en Streaming) et scalabilité en termes de traitements
    • Haute disponibilité
    • Agilité du système et son impact positif sur son évolution et sa maintenance
    • Impact sur l’entreprise et sa transformation en Client-Centric
  • Le Data Lake : une nouvelle philosophie pour le stockage et le traitement de la donnée
    • Architecture du Data Lake et centralisation des données
    • Cas d’usages basés sur le Data Lake
    • Le modèle « en couches » de données
    • Data Lake vs Data Warehouse
  • La qualité de la donnée (Dataquality) dans un système Big Data
    • Causes du problème de la qualité de données dans les systèmes Big Data
    • Mise en place de la Gouvernance Applicative pour assurer la qualité des données
  • La qualité des traitements dans un système Big Data
    • Importance de la supervision des chaînes de traitements
    • Exploitation efficaces des logs et détection des anomalies en temps réelle
    • Mise en place de tableaux de bord pour la visualisation de la qualité des traitements en temps réelle
  • Types d’architectures Big Data selon les exigences temporelles
    • architectures Batch
    • Architectures Streaming
    • Lambda Architectures

3. Tour d'horizon sur les technologies Big Data cléssées par cas d'usage

  • Limites des outils et des paradigmes classiques qui ont mené à l’apparition des technologies Big Data
  • Historique des technologies Big Data : Google’s GFS & MapReduce
  • Principaux Frameworks du Big Data : Hadoop, Spark, Storm, etc.
  • Classification des outils du Big Data selon leurs cas d’usage :
    • Stockage et traitement de la donnée (Le système de fichiers distribué de Hadoop (HDFS), MapReduce, YARN, Spark)
    • Les bases de données et la gestion des données (Définition du NoSQL, NoSQL Vs SGBD Relationnels, Classification des bases de données NoSQL selon leurs types et leurs cas d'usages)
    • La sérialisation (Avro, JSON, Parquet)
    • Le management et le monitoring (Ambari, HCatalog, ZooKeeper, Oozie)
    • L’analyse et la visualisation des données (Spark MLIB, Mahout, Hadoop Streaming, Pig et MapReduce v. Hadoop Image Processing Interface (HIPI))
    • Recherche (Elasticsearch, Solr)
    • Le transfert des données (Sqoop, Flume, DistCP, Storm v. Kafka)
    • La sécurité et le contrôle d’accès (Kerberos , Ranger, Sentry , Knox)

4. Solutions Big Data sur le Cloud

5. Retour d'expérience sur les Frameworks et les outils Big Data utilisés : avantages, limites et leurs évolutions

Intéressé par une de nos formation ? Inscrivez-vous ou contactez votre conseiller AFIB !

Intéressé par une de nos formations ? Inscrivez-vous ou contactez votre conseiller AFIB !