INF 421 A : Traitement automatique du langage naturel


Retour
Imprimer la fiche programme
Code analytique: EDOINFMA2
Responsable  :    
Programmé en UV2 MAJ INF

Présentation :

Le traitement automatique de la langue naturelle (TALN) constitue un domaine pratiquement incontournable en recherche et développement dans divers domaines. Encore plus, dans le cadre de la problématique des télécommunications. Les raisons en sont multiples. Tout dabord, dès quun problème de communication se pose dans le cadre dune application, quelle soit entre les hommes ou entre lhomme et la machine, la langue sinstitue comme une forme de communication type. La plus intelligible aussi pour un humain, en recherche perpétuelle de naturalité dans un paysage de plus en plus technique. Ensuite, la langue semble être le seul moyen quon puisse disposer lorsquon souhaite décrire les entités dun domaine avec une certaine clarté et en les dotant dun contenu compréhensible. Linteraction Homme/Machine en est toujours demandeuse. Enfin, nos machines, outils de calcul symbolique, semblent pouvoir travailler de manière assez convenable avec des entités comme les mots, également symboliques. Le grand défi du TALN est de pouvoir avancer dans les couches les plus intérieures de la langue, toutes faites de sémantique, et seules qui justifient son existence et sa fonction. En effet, la langue naturelle est le médium pour transmettre non pas des formes symboliques mais des contenus. Sabstenant de toute reprise des vieux fantasmes de lintelligence artificielle, suivant lesquels la machine pourrait faire aussi bien que lhomme en matière de communication langagière, il sagit aujourdhui de concevoir des modèles et des applications qui sachent circonscrire ce que la machine est décidément capable doffrir : une gestion fine de certains aspects syntaxiques, éventuellement, de quelques aspects sémantiques corrélatifs à des phénomènes syntaxiques. Et, par conséquent, de mieux définir son interaction avec lhomme, seule instance pouvant traiter authentiquement les aspects de contenu. Ce cours vise à retracer les chemins théoriques et formels de cette mouvance, ailleurs dénommée « informatique linguistique » (voire « linguistique informatique » lorsquon met laccent sur lapport linguistique). Il vise aussi à en donner un aperçu des applications qui peuplent de plus en plus notre environnement qui, par lavènement des Nouvelles Technologies dInformation et de Communication et lappropriation du WEB, a fait exploser les aspects de communication linguistique de notre paysage quotidien. Le terme d« industries de la langue » rassemble, précisément, aujourdhui un ensemble de pratiques façonnées pour ce milieu hybride fait désormais dhommes et de machines en relation de communication.

Objectifs (obsolète):

1. Familiariser l¿élève avec la problématique du traitement automatique de la langue, tant écrite qu¿orale.
2. En présenter une synthèse des théories et des techniques en vigueur, mais aussi des limites qui en découlent par l¿utilisation de machines.
3. Donner un panorama des applications issues des industries de la langue, faisant appel à du TALN.
4. Faire sentir les perspectives ouvertes d¿un tel domaine, en particulier dans le cadre des Nouvelles Technologies de l¿Information et de Communication ainsi que des Multimédia.

Pré-requis :

Aucun pré-requis particulier. Le cours ayant une visée démonstrative, fera léconomie de techniques complexes de traitement de la langue.

Liens :

Le cours est autonome. Cependant, l¿élève saisira sans doute mieux certains aspects de son contenu en le mettant en parallèle avec le cours de Logique.

Volume horaire : 21h


Contenu détaillé :

Traitement Automatique de la Langue Écrite : 9 heures
- Introduction : les industries de la langue.
- La topique classique : Analyse Syntaxique, Sémantique et Pragmatique.
- Compréhension et Génération de textes.
- Grammaires et représentation de connaissances linguistiques.
- Traduction automatique, indexation, lexicologie assistée par ordinateur, résumé automatique...
- Langages appropriés.
Traitement Automatique de la Langue Parlée : 6 heures
- Compréhension de la langue parlée.
- Techniques de transformation du texte en voix et inversement.
Démonstrations d¿applications et rapports avec les NTIC et les Multimédia : 4,5 heures
- Moteurs de recherche, traitement de corpus de textes.
- Grammaires et lexiques implémentés, correcteurs orthographiques.
- Sémantique d¿image par le texte.
- Dialogue simulé, « text-to-speech », « speech-to-text ».


Année 2006/2007
Dernière mise à jour le 20-MAR-06
Validation par le responsable de programme le


IMT Atlantique
Campus de Brest
Technopôle Brest-Iroise
CS 83818
29238 Brest Cedex 3
France

Tél  +33 (0)2 29 00 11 11
Fax +33 (0)2 29 00 10 00