F3B403A : Fouille de données


Retour
Imprimer la fiche programme
Code analytique: EDF03B403
Responsable  : Philippe LENCA   
Programmé en UVF3B403, UVF3B413, MRSISEAUE35D, UVMCSDS401

Présentation :

L'informatique décisionnelle (en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser, restituer et explorer les données recueillies ponctuellement ou accumulées au fil du temps au sein d'une organisation en vue d'offrir une aide à la décision.

Cette aide à la décision peut avoir différents d'objectifs, par exemple :
- l'identification d'une population particulière (des patients présentant une certaine pathologie)
- la segmentation d'une population (identifier les usages qui sont faits d'un service comme un site web, déterminer des profils d'investisseurs)
- la description de comportement (déterminer des règles du style « les gens achetant de la bière achètent également des chips »)
- la prévision par régression (prévoir la consommation d'électricité, le montant moyen des achats réalisés par un client) ou par classification (prévoir la classe de risque d'un emprunteur)

Des données à la décision, le chemin est long : la mise en place d'un projet d'informatique décisionnelle nécessite de respecter un processus découpé en plusieurs étapes (récupération et préparation des données, constitution d'un entrepôt de données, fouille des données, évaluation des résultats, etc). Cette UV permet de présenter les différentes approches et méthodes qui forment le socle théorique de l'informatique décisionnelle. Après avoir suivi l'UV, l'étudiant disposera d'une variété de méthodes et d'outils qui doivent lui permettre de résoudre la plupart des problèmes relevant de l'analyse de données et de l'informatique décisionnelle.
La discipline connaît depuis plusieurs années une forte expansion. Face aux besoins qualitatifs des entreprises, à la variété des méthodes disponibles, à la diversité des données (voix, image, etc.) et au rythme d'augmentation de leur volume, le domaine draine une large palette d'emplois allant de l'ingénieur d'études ou du chercheur en décisionnel (qui participe à la conception et au développement de systèmes décisionnels), du consultant décisionnel (qui participe aux différentes phases d'un projet : spécifications, conception, modélisation, alimentation, restitution et maintenance) jusqu'au manager (qui contrôle la mise en œuvre des projets). Les emplois sont nombreux et variés tant chez les SSII que chez les éditeurs et les grands comptes. Les compétences scientifiques recherchées sont variées et fortement liées au processus : analyse de données, apprentissage et bases de données, mais aussi les compétences métier du client final.

Les différentes étapes d'un projet décisionnel seront présentées. Un accent particulier sera porté sur l'étape d'exploration des données (la fouille des données) pour des objectifs de classification, de description, de prédiction et de régression. On s'intéressera également à la validité des résultats et aux méthodes de comparaisons des algorithmes.
Les travaux pratiques permettront aux étudiants de s'approprier les différentes méthodes d'analyse et solutions logicielles. En particulier on présentera la méthodologie CRISP-DM, la solution SAS Entreprise Miner et la méthodologie SEMMA associée.


Objectifs pédagogiques :


  • Savoir évaluer, comparer et combiner les techniques de la fouille de données
  • Savoir proposer une solution argumentée
  • Savoir appliquer les techniques de la fouille de données sur des problèmes réels à l'aide de logiciels de référence
  • Connaître et comprendre les techniques de la fouille de données

Pré-requis :

Eléments de statistiques, d'analyse de données et de bases de données.

Liens :

Aide à la décision
Apprentissage
Bases de données
Recherche opérationnelle

Volume horaire : 63h


Contenu détaillé :

1) Cours
Introduction aux problématiques de la fouille de données
Les étapes d'un projet décisionnel & les aspects méthodologiques
Méthodologies CRISP-DM et SEMMA
Méthodes d'exploration des données & qualité des données
Méthodes de préparation des données
Méthodes de modélisation : méthodes supervisées et non supervisées
- arbres de décision, règles d'association
- apprentissage statistique et bayésien
- apprentissage connexioniste
- support vector machine
- régression
- etc.
Évaluation des modèles
- critères de performances et mesures de qualité
- mesures et procédures de validation
- tests statistiques, méthodes graphiques
Combinaison de modèles
- Méthodes hybrides
- Méthodes ensemblistes & re-échantillonnage
Fouille interactive de données
Morceaux choisis : text mining, web mining, bioinformatique, etc.

2) Bureaux d'études, travaux pratiques
- Maîtrise de la suite SAS, exemples pris dans le cours
- Approfondissement de Sas Entreprise Miner, exemples pris dans le cours
- Étude de cas & projet


Année 2016/2017
Dernière mise à jour le 13-JUL-16
Validation par le responsable de programme le


IMT Atlantique
Campus de Brest
Technopôle Brest-Iroise
CS 83818
29238 Brest Cedex 3
France

Tél  +33 (0)2 29 00 11 11
Fax +33 (0)2 29 00 10 00