retour

Analyse de données avec Hadoop Hortonworks

Apache Hadoop 2.x: Analyse de données avec l’environnement Hadoop Hortonworks

  • Référence HADOOPA
  • Durée 4 jours (28 heures)
Ces 4 jours de formation vont vous apprendre à développer des applications et à analyser un grands nombre de données stockées dans Apache Hadoop 2.x utilisant Pig et Hive

Vous apprendrez tout sur Hadoop 2.x, YARN et Hadoop Distributed File System (HDFS). Vous aurez une vue d’ensemble de MapReduce et nous nous attarderons sur l’utilisation de Pig et Hive pour exécuter l’analyse de données. Nous couvrirons également d’autres sujets tels que l’injection de données avec Sqoop et Flume et la définition du workflow en utilisant Oozie.

Vous allez apprendre à :

A la fin du cours les participants seront capable de :

  • Expliquer ce qu’est Hadoop 2.x et ses cas d’utilisation
  • Expliquer les différents outils et les Framework dans l’environnement Hadoop 2.x
  • Expliquer l’architecture d’Hadoop Distributed File System (HDFS)
  • Expliquer comment HDFS Federation et HDFS High Availability (HA) fonctionnent dans Hadoop 2.x
  • Utiliser le client Hadoop pour manipuler les données dans HDFS
  • Utiliser Flume pour intégrer des données sur HDFS
  • Utiliser Sqoop pour transférer des données entre HDFS et un RDBMS
  • Expliquer l’architecture de MapReduce
  • Expliquer l’architecture de YARN
  • Faire tourner une tache de MapReduce sur YARN
  • Ecrire un script Pig pour explorer et transformer les données dans le HDFS
  • Définir ses propres fonctions UDF et les utiliser dans un script Pig
  • Réaliser des analyses de données plus avancées avec Pig en utilisant la librairie DataFu (e.g., les quantiles, le PageRank, l’analyse de flux de données)
  • Comprendre comment les tables Hive sont définies et intégrées dans HDFS.
  • Ecrire des requêtes Hive pour réaliser des analyses des données (e.g., rank, dense_rank, ngrams, …)
  • Utiliser les caractéristiques avancées de Hive comme le fenêtrage, les vues, les fichiers ORC, la vectorisation
  • Optimiser la jonction de deux ensembles de données avec Hive
  • Utiliser HCatalog avec Pig et Hive
  • Ecrire un réducteur personnalisé dans Python permettant de diminuer le nombre de tâches MapReduce générés à partir d’une requête Hive.
  • Comprendre et utiliser TEZ
  • Définir un workflow en utilisant Oozie.
  • Planifier un workflow récurant en utilisant Oozie Coordinator

Méthode pédagogique :

Audience :

Analystes de données, Analystes BI, Développeurs BI, développeurs SAS et tous les autres analystes qui souhaitent en savoir d’avantage plus sur l’analyse du Big Data dans un cluster Hadoop

Pré-requis :

  • Les participants doivent connaître les principes de la programmation et avoir de l’expérience dans le développement de logiciels.
  • Une connaissance de SQL est un plus.
  • Une connaissance d’Hadoop n’est pas nécessaire

Travaux pratiques :

Présentations, discussions, études de cas
retour
Accès direct à nos cours

DIGITAL

WEB

MOBILE

AGILITÉ

ANALYSE ET CONCEPTION

JAVA et C++

JAVA EE ET FRAMEWORKS

ARCHITECTURE

.NET

BIG DATA