Description
La plateforme d’intégration de données de Talend étend ses possibilités aux technologies Big Data que sont Hadoop (HDFS, HBase, HCatalog, Hive et Pig) et les bases NoSQL Cassandra et MongoDB. Ce stage vous apportera les bases pour bien utiliser les composants Talend crées pour communiquer avec les systèmes Big Data.
Objectifs pédagogiques
- Lire/écrire des données sur HDFS/HBase/HCatalog
- Réaliser des jobs de transformation à l’aide de Pig et Hive
- Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
- Mettre en oeuvre les bases NoSQL MongoDB et Cassandra dans des jobs Talend
Travaux pratiques
Succession de mini-projets donnant lieu à la conception de jobs Talend Big Data de difficulté croissante.
PROGRAMME DE FORMATION
Présentation de Talend Open Studio for Big Data
- Problématique du Big Data : le modèle de 4V, les cas d’usage.
- L’écosystème Hadoop (HDFS, MapReduce, HBase, Hive, Pig…).
- Données non structurées et base de données NoSQL.
- TOS for Big Data versus TOS for Data Integration.
Travaux pratiques
Installation/configuration de TOS for Big Data et d’un cluster Hadoop (Cloudera ou Hortonworks), vérification du bon fonctionnement.
Mise en oeuvre de HDFS, HBase et HCatalog
- Définition des métadonnées de connexion du cluster Hadoop.
- Gestion des ressources HDFS : les principaux composants Talend.
- Connexion à HBase, création, lecture/écriture dans une table HBase.
- Configuration HBase, mode local versus mode distribué.
- Création de bases de données, tables et de partitions via HCatalog.
- Lecture de tweets (composants d’extension).
Travaux pratiques
Lire des tweets et les stocker sous forme de fichiers dans HDFS, analyser la fréquence des thèmes abordés et mémorisation du résultat dans HBase.
Effectuer des traitements à l’aide de Pig
- Le langage de script Pig Latin, Pig versus SQL.
- Principaux composants Pig de Talend, conception de flux Pig.
- Exécution de scripts Pig (tPigCode).
- Configuration des propriétés associées à l’usage de MapReduce.
- Développement de routines UDF.
Travaux pratiques
Dégager les tendances d’utilisation d’un site Web à partir de l’analyse de ses logs.
Exploiter Hive
- Métadonnées de connexion et de schéma Hive.
- Le langage HiveQL.
- Conception de flux Hive, exécution de requêtes.
- Mettre en oeuvre les composants ELT de Hive.
Travaux pratiques
Stocker dans HBase l’évolution du cours d’une action, consolider ce flux avec Hive de manière à matérialiser son évolution heure par heure pour une journée donnée.
Autres aspects couverts par Talend for Big Data
- Utiliser Scoop pour importer, exporter, mettre à jour des données entre systèmes RDBMS et HDFS.
- Support Talend des bases de données NoSQL (MongoDB et Cassandra).
- Conception de jobs MapReduce et Spark Streaming.
- Configuration avancée des composants du cluster (zookeeper, resource manager, job history…).
ATTESTATION
attestation de formation agrée par l’état sous le N° attestation de formation agrée par l’etat sous le N° 82-097-16