Programme du cours

3 jours (21 H) | 3-BIGDATA-1Renseignez-vousCette formation vous intéresse ? 
 

Objectifs

L’objectif est de proposer une formation théorique et pratique sur la construction d’une plateforme Big Data et son industrialisation.
La formation abordera les étapes nécessaires pour un cluster Hadoop quant à :
• son déploiement
• son administration
• son exploitation (alimentation / restitution des données)

Participants / Pré-requis

Cette formation s’adresse en particulier à :
• des chefs de projet techniques
• des développeurs
• des architectes techniques

compétences SQL
notions d’ETL
familier avec l’environnement Linux

Contenu

création d’un cluster

  • Introduction
    • Discussion autour du « mystère » Big Data
    • Origine du Big Data, les nouvelles problématiques des SI
    • Apparition de nouveaux métiers (datascientist, scalability architecture)

Les concepts du Big Data

  • Un changement majeur : la donnée au cœur du métier
  • Les quatres V du Big Data (Volume, Velocity, Variety, Veracity)

Qu’est ce que le Cloud ?

  • Concept de virtualisation
  • Modèle de cloud computing : SAAS / PAAS / IAAS
  • Apercu des différents acteurs du marché :
    • Google Compute Engine
    • Amazon Web Services
    • Microsoft Azure

HADOOP, l’écosystème Big Data

  • Ecosystème Hadoop
  • Map Reduce
  • Différents acteurs du marché
    • MapR
    • Cloudera
    • Horton Works

Création d’un cluster Google Compute Engine

  • Création d’un compte Google
  • Initialisation des différentes machines
  • Installation d’un cluster Hadoop MapR

Alimentation des données

  • Architecture d’entreprise avec Hadoop
    • Alimentation des données
  • Concept des ETL
  • Focus sur le leader des ETL Big Data : TALEND
  • Open Data
    • Processing et technologies d’agrégation (PIG, HIVE, HQL)
    • Stockage des informations
  • HDFS
  • Format des données
    • Restitution de la donnée
  • Branchement avec des outils de reporting existants (QlikView, BO)
  • Création de requêtes ad-hoc (HUE, Drill)
  • Big Data, fournisseur d’API

Travaux pratiques : installation et manipulation de l’écosystème Hadoop

  • Installation et tests de l’écosystème Hadoop
    • HDF
    • Hive
    • Pig
    • Console MapR
  • Installation de Talend Big Data
  • Alimentation du cluster à partir de flux Talend

Restitution, NoSQL

Différence entre Big Data et Business Intelligence

  • Scalabilité horizontale VS verticale
  • Modèle en étoile VS Modèle de données répliquées
  • Analyse décisionnelle VS Données opérationnelles

NoSQL

  • Concept du NoSQL
  • Apercu des différents types de base NoSQL
  • Base colonne
  • Base graphe
  • Base Clé Valeur
  • Base Document

Travaux pratiques sur la restitution des données

  • Installation d’un outil de reporting QlikView
  • Manipulation des données
  • Construction de rapports
  • Aperçu des fonctionnalités
  • Exploration des données de la plateforme avec HUE
  • Mises en place de niveaux de sécurité
  • Requete de type Search
  • Aperçu des fonctionnalités

Discussion autour d’un retour d’expérience

  • Retour d’expérience dans le domaine du E-COMMERCE et du MARKETING
  • Conclusion
 
Cette formation vous intéresse ? Renseignez-vous