F3B308B : Data Analytics


Retour
Imprimer la fiche programme
Code analytique: EDF03B308
Responsable  : Cécile BOTHOREL
Co-responsable  : Laurent BRISSON
   
Programmé en UVF3B308

Présentation :

Le module d'analyse de données a pour objectif de répondre à une problématique métier et mettra les élèves en situation réelle où le Data Scientist conçoit une solution à la question posée.

L'objectif principal est de confronter les étudiants à la méthodologie Big Data. Ils s'inscriront dans le processus CRISP-DM et le focus sera mis sur la compréhension du besoin métier (en lien avec le module F3B308C), la compréhension des données, le pré-traitement et l'extraction de mini-datasets qu'ils pourront commencer à analyser dans ce module, ou bien poursuivre de manière fine dans l'UV de niveau 4 Fouille de données.

L'enjeu est de comprendre comment utiliser à bon escient des environnements Big Data, quels sont les traitements à paralléliser parmi l'ensemble des traitements d'analyse de données à faire (souvent le pré-traitement).

À la fin du module, les étudiants auront préparé un jeu de données utilisable pour la fouille de données. Les données seront décrites par des indicateurs de statistiques descriptives, les étudiants sauront justifier pourquoi ils auront construit et/ou sélectionné des variables, en s'appuyant sur les analyses statistiques simples, et sur les questions posées dans le module F3B308C. Ils présenteront leurs jeux de données grâce à des outils de Dataviz et pourront proposer des éléments de réponse à la question métier adressée s'ils ont la possibilité de mettre en oeuvre des techniques de fouille.

Objectifs pédagogiques :


  • Mettre en oeuvre une méthodologie de datascience
  • Décrire un jeu de données
  • Pré-traitement de données
  • Utilisation d'un environnement Big Data à bon escient
  • Création de de jeu de donnée pour la fouille de donnée
  • Analyse de données
  • Utiliser des outils de dataviz pour argumenter et répondre à une problématique métier

Pré-requis :

Statistiques descriptives
Avoir déjà manipulé Hadoop, HDFS
Commandes de base Linux (cd, ls, chmod, mkdir, etc.)
Editeur de texte type vim, nano
Accès en SSH (Putty sous Windows)


Volume horaire : 24h


Contenu détaillé :

Le module s'articule autour d'un projet commun avec le module F3B308C Économie et droit des données. Dans le F3B308C, il s'agira de définir les "propriétaires" des données, les risques sur la vie privée, le modèle économique, et, ce qui est un point d'entrée pour ce module, la question "métier" à traiter.

Au cours du module Data Analytics, le projet consistera à répondre à la question en utilisant à bon escient l'environnement Big Data. Il s'agira de traiter la collecte des données, le stockage, la compréhension du jeu de données et sa caractérisation via l'analyse statistique, et plus généralement les tâches de pré-traitement de données qui nécessitent un environnement Big Data.

Une séance de Kick-off permettra d'introduire la méthodologie sur un mini-projet global de datascience. Des contenus pédagogiques seront conseillés de manière progressive pour avancer sereinement dans le projet : stockage, data munging/wrangling pour l'extraction de mini-jeux de données, analytics et description statistiques de jeux de données, dataviz.

Des séances de travail personnel sont aussi des points d'étape. Ces moments sont l'occasion de réunir l'équipe enseignante autour du projet, de recueillir des conseils personnalisés, de solliciter des supports pédagogiques supplémentaires. Ces séances débuteront par un état d'avancement, il convient donc à chaque équipe de bien préparer ces séances particulières pour bien présenter les tâches réalisées et les problèmes rencontrés.


Année 2016/2017
Dernière mise à jour le 13-JUL-16
Validation par le responsable de programme le


IMT Atlantique
Campus de Brest
Technopôle Brest-Iroise
CS 83818
29238 Brest Cedex 3
France

Tél  +33 (0)2 29 00 11 11
Fax +33 (0)2 29 00 10 00