SDS 202 : Architecture Big Data


Retour
Imprimer la fiche programme
Code analytique: EMMCSDS01
Responsable  : Laurent LECORNU
Co-responsable  : Cécile BOTHOREL
   
Programmé en UVMSC-SDS

Présentation :

Ce cours d'introduction au Big Data permet d'aborder d'un point de vue pratique l'administration et l'utilisation d'une architecture Big Data pour réaliser des analyses de données.

Il s'agit d'un module informatique. Ce module est axé sur la mise en place d'un Cluster Big Data à partir de Raspberry Pi 3 : configuration d'un cluster, initiation au système de fichiers réparti HDFS avec un focus sur l'architecture technique et logicielle. Puis vient l'utilisation du Cluster pour des calculs de type Wordcount (mais pas seulement), en Map Reduce et Spark, sans oublier le monitoring de processus et l'évaluation de performances.

Le fil conducteur de cet enseignement est de comprendre l'architecture d'un cluster big data et la philosophie de programmation fonctionnelle exploitant la parallélisation horizontale.

Objectifs (obsolète):

Connaître Hadoop et son écosystème, son histoire, sa raison d'être et ses limites
Comprendre son architecture physique et logicielle
Concevoir des jobs MapReduce et Spark dans des cas simples d'analyse de données

Pré-requis :

Commandes de base Linux (cd, ls, chmod, mkdir, etc.)

Volume horaire : 21h


Contenu détaillé :

Après une introduction à l'écosystème Hadoop, la première partie du module concerne la construction
d'un cluster à partir de Rapsberry Pi nus. Les machines seront données avec le système d'exploitation
Raspbian installé et SSH configuré ; les archives des logiciels Hadoop auront été pré-téléchargées et
stockés en ZIP dans un répertoire des SD cards de façon à gagner le temps de téléchargement).
Les manipulations du système seront agrémentées de cours expliquant l'architecture matérielle et
logicielle.
Une fois l'architecture mise en place, les étudiants manipuleront le système de fichier HDFS et
concevront des jobs de traitement de données en Map/Reduce et Spark.
Là encore, des cours viendront expliciter de manière fine les processus, les flux de données, les rôles des
nodes mis en jeu lors de chaque étape.


Année 2018/2019
Dernière mise à jour le 07-FEB-19
Validation par le responsable de programme le


IMT Atlantique
Campus de Brest
Technopôle Brest-Iroise
CS 83818
29238 Brest Cedex 3
France

Tél  +33 (0)2 29 00 11 11
Fax +33 (0)2 29 00 10 00