F2B403C : Traitement automatique des langues naturelles


Retour
Imprimer la fiche programme
Code analytique: EDF02B403
Responsable  :    
Programmé en UVF2B403

Présentation :

Le traitement automatique des langues naturelles (TALN) est un domaine de l'informatique qui cherche à modéliser les phénomènes linguistiques à l'oeuvre dans la communication humaine et à implémenter des mécanismes permettant de les analyser (compréhension de texte) ou de les reproduire (génération de texte).
Les défis théoriques (en particulier la modélisation du sens) et techniques (par exemple la gestion efficace de l'ambiguïté), sont nombreux et complexifiés encore par la diversité des langues. Ils nécessitent de rassembler des équipes pluridisciplinaires constituées de linguistiques et d'informaticiens.
Les enjeux industriels sont multiples, et vont d'applications arrivées à un niveau de maturité permettant une utilisation opérationnelle (recherche d'information, résumé automatique, interprétation du style SMS) à des objectifs à plus long terme très ambitieux (la mythique traduction automatique de qualité).

Objectifs (obsolète):

Donner aux étudiants un panorama relavitement complet du domaine : les phénomènes à traiter, les niveaux d'analyse, les choix d'architecture, les principales techniques, les verrous actuels, la modélisation des données, les applications.

Volume horaire : 21h


Contenu détaillé :

Le cours est structuré en deux parties :

Partie I : traitement automatique des langues naturelles, 5 sessions de 3 heures de cours et TPs intégrés (enseignants : Jérôme Vinesse, Emilie Guimier De Neef, Christine Chardenon, Johannes Heinecke, Malek Boualem)

Partie II : dialogue naturel , 2 sessions de 3 heures (enseignants : Philippe Bretier, Florence Duclaye, Franck Panaget)


Organisation de la partie I

Cette partie est un panorama du domaine du TALN, illustré au fil des TPs par la mise au point d'un mini-système de traduction automatique (quelques phrases) utilisant le logiciel TiLT entre les différentes langues parlées par les étudiants.

Contraintes techniques : nécessité d'avoir au moins un poste de travail informatique pour deux élèves, sous Unix (Solaris ou Linux), avec accès Internet, et accès à un serveur où seront installés à l'avance les outils TiLT nécessaires + une clé USB par binôme pour évaluation et enrichissement des données entre les TPs.

Session 1
Titre : Introduction au TALN
Enseignant : Jérôme Vinesse
Cours : présentation globale du module, présentation de la démarche des TPs de la partie I. Présentation générale du TALN : les différents niveaux d'analyse, les types de données linguistiques manipulées, les applications du TALN.

TP : manipulation à partir de services en lignes afin de mettre en évidence le niveau d'analyse linguistique de divers services et les limites des traitements proposés. Choix des langues pour la réalisation des traducteurs, constitution d'un corpus de référence parallèle dans les différentes langues.

Session 2
Titre : Les données pour le TALN
Enseignante : Emilie Guimier De Neef
Cours : les dictionnaires électroniques, les traits, les grammaires, le thesaurus, les prédicats, l'interface syntaxe/sémantique.

TP : construction du lexique pour traiter le corpus sur les langues choisies, conception des modèles et spécification des traits nécessaires, validation à partir des outils TiLT.

Session 3
Titre : L'analyse syntaxique
Enseignante : Christine Chardenon
Cours : analyse syntaxique de surface, analyse syntaxique profonde
TP : écriture des grammaires de dépendance pour le corpus, sur la base des données lexicales constituées précédemmement, validation à partir des outils TiLT.

Session 4
Titre : TALN, sémantique et ontologies
Enseignant : Johannes Heinecke
Cours : l'analyse sémantique, les ontologies, les liens entre données linguistiques et ontologiques, construction automatique de représentations ontologiques

TP : observation de représentations sémantiques issues des TPs précédents à partir des outils TiLT, analyse des dysfonctionnements et des divergences entre langues, identification des possibilités d'amélioration

Session 5
Titre : traduction automatique
Enseignant : Malek Boualem
Cours : la traduction automatique (historique, différentes techniques)
TP : manipulation de traducteurs en ligne sur le Web, manipulation des différents traducteurs TiLT produits au cours des TPs, analyse des dysfonctionnements.

Organisation de la partie II

Enseignants : Philippe Bretier, Florence Duclaye, Franck Panaget

Session 6
contenu à préciser par les enseignants

Session 7
contenu à préciser par les enseignants


Travaux personnels encadrés :

Cf. ci-dessus


Année 2006/2007
Dernière mise à jour le 05-JUL-06
Validation par le responsable de programme le


IMT Atlantique
Campus de Brest
Technopôle Brest-Iroise
CS 83818
29238 Brest Cedex 3
France

Tél  +33 (0)2 29 00 11 11
Fax +33 (0)2 29 00 10 00