SDS 202 : Big Data Analytics


Retour
Imprimer la fiche programme
Code analytique: EMMCSDS01
Responsable  : Cécile BOTHOREL
Co-responsable  : Philippe LENCA
   
Programmé en UVMSC-SDS

Présentation :

Ce cours d'introduction au Big Data permet d'aborder d'un point de vue pratique l'utilisation d'une architecture BigData pour réaliser des analyses de données.

Le cours commence par une introduction sur le data mining à l'ère du Big Data, mettant en avant les problématiques de volumétrie, variété, vélocité (les fameux "V" du BigData).

Une deuxième séance de cours plus pragmatique présente l'environnement Hadoop, un des frameworks open source de stockage et de traitement distribués. Seront abordés le système de fichier distribué HDFS, les principes de traitement distribué Map/Reduce, mais aussi, brièvement l'écosystème d'outils autour de Hadoop. L'accent sera mis sur l'architecture technique, les composants tels que les noeuds d'un cluster, les flux de données entre noeuds, etc de sorte à comprendre les mécanismes de base de Hadoop.

Enfin, des séances de TP viendront illustrer la mise en oeuvre de tels outils. Les étudiants manipuleront le système de fichier HDFS, réaliseront en Python des Mappers et des Reducers pour procéder à des analyses simples de jeux de données tels que des logs d'achat ou des cours de bourses. Des exercices permettront également d'utiliser la librairie de Machine Learning Mahout, fournissant ainsi aux étudiants les bases de la manipulation avancée de données sous Hadoop avec la réutilisation des outils de développement connus tels que Python ou Java déployés sous Hadoop.

Pré-requis :

Manipulation basique de Python et Linux, avoir suivi le cours de data mining.

Volume horaire : 9h



Année 2014/2015
Dernière mise à jour le 20-FEB-15
Validation par le responsable de programme le


IMT Atlantique
Campus de Brest
Technopôle Brest-Iroise
CS 83818
29238 Brest Cedex 3
France

Tél  +33 (0)2 29 00 11 11
Fax +33 (0)2 29 00 10 00