Programmé en UVFIP CO310B
Présentation :
Ce module présentera particulièrement les méthodes et outils permettant d'explorer les données recueillies ponctuellement ou accumulées au fil du temps au sein d'une organisation en vue d'offrir une aide à la décision, par exemple :
- l'identification d'une population particulière (des patients présentant une certaine pathologie)
- la segmentation d'une population (identifier les usages qui sont faits d'un service comme un site web, déterminer des profils d'investisseurs)
- la description de comportement (déterminer des règles du style « les gens achetant de la bière achètent également des chips »)
- la prévision par régression (prévoir la consommation d'électricité, le montant moyen des achats réalisés par un client) ou par classification (prévoir la classe de risque d'un emprunteur)
Les méthodes vues en cours seront illustrées avec le traitement d'une base de données lors des séances de travaux pratiques à l'aide d'un logiciel professionnel.
Objectifs pédagogiques :
- Connaître et comprendre les techniques de la fouille de données
- Savoir proposer une solution argumentée
- Savoir concevoir une solution décisionnelle
- Savoir appliquer ces techniques sur des problèmes réels à l'aide de logiciels de référence
- Savoir évaluer, comparer et combiner ces techniques
Pré-requis :
Des notions élémentaires de statistiques, d'analyse de données et de bases de données sont souhaitables mais pas indispensables.
Volume horaire :
21h
Contenu détaillé :
1) Cours
Introduction aux problématiques de la fouille de données
Les étapes d'un projet décisionnel & les aspects méthodologiques
Méthodologies CRISP-DM et SEMMA
Méthodes d'exploration des données & qualité des données
Méthodes de préparation des données
Méthodes de modélisation : méthodes supervisées et non supervisées
- arbres de décision
- règles d'association
Évaluation des modèles
- critères de performances et mesures de qualité
- mesures et procédures de validation
- tests statistiques, méthodes graphiques
Combinaison de modèles
- Méthodes hybrides
- Méthodes ensemblistes & ré-échantillonnage
Morceaux choisis : sécurité, text mining, web mining, bio-informatique, etc.
2) Travaux pratiques
- Maîtrise de RapidMiner, introduction à la suite SAS, exemples pris dans le cours
- Mise en œuvre d'un processus de fouille de données, étude de cas
Année 2016/2017
Dernière mise à jour le 04-MAY-16
Validation par le responsable de programme le
|