Activités de Recherche de Bruno Jacob

Dans le cadre du DEA

L'objet du projet BDLEX ( base de données et de connaissance lexicales du français écrit et parlé ) est de fournir aux usagers, travaillant dans le domaine du traitement automatique de la parole et des textes, des matériaux lexicaux et un ensemble d'outils linguistiques. D'autres utilisations sont envisagées comme par exemple la sélection de corpus de tests en neuropsycholinguistique. Au cours de mon stage, j'ai réalisé un programme de consultation, dans un premier temps, afin de rendre plus facile l'accès des informations, stockées sur leur poste de travail, aux neuropsycholinguistes par le biais d'Hypercard. Ensuite, les recensements du neuropsycholinguiste Baudot m'ont permis d'augmenter la base de données BDLEX avec l'attribut de référence d'usage des mots. J'ai pu terminer ce stage en implantant sous ORACLE/SUN des demandes d'informations émanant des neuropsycholinguistes en complétant la base de données existante par de nouveaux attributs au moyen de programmes écrits en Pro*C.

Dans le cadre du Doctorat

Mes travaux de thèse portent sur la conception d'un outil informatique dédié à la gestion de modèles de Markov cachés dans le cadre de la Reconnaissance Automatique de la Parole ( RAP ).

A l'heure actuelle, les modules classiques de RAP les plus efficaces utilisent une approche statistique et plus particulièrement des Modèles de Markov Cachés ( MMC ). Il en existe une grande diversité et les recherches autour de ces modèles sont nombreuses. Posséder un outil suffisamment souple, permettant d'accéder aux différents niveaux d'abstraction de ces modèles, est un réel besoin en recherche fondamentale sur la reconnaissance automatique de la parole. Afin d'apporter une aide dans la conception de systèmes de reconnaissance basés sur la notion de réseau probabilisé, nous avons conçu un outil permettant de compiler des réseaux multi-niveaux à partir d'un langage de compilation simple et contenant le moins de contraintes possible. Cet outil est modulable et rapidement adaptable à de nouveaux besoins sans être nécessairement expert en informatique. Nous avons réalisé deux principales applications dans le cadre de la reconnaissance automatique de parole afin d'évaluer cet outil :

Une application classique de filtrage lexical dans lequel nous développons un algorithme de reconnaissance en deux étapes basé sur deux MMC créés par le compilateur.
Une variante d'utilisation des Modèles de Markov Cachés afin d'étudier la faisabilité d'implémentation d'extensions à partir de notre outil : nous avons adapté le compilateur afin qu'il réalise la conception de deux MMC mis en parallèle et corrélés par une relation de type Maître-Esclave.

Pour plus de détails sur mes travaux de thèse, on peut se référer au document de thèse ou au résumé de mes activités de recherche.

Dans le cadre du poste d'Ingénieur Expert à l'IRISA

Vérification du Locuteur dans le projet PICASSO
(transparents postcript)
Décodage acoustico-phonétique dans le système de Dictée Vocale SIROCCO
(transparents postcript)

Dans le cadre du poste de Maître de Conférence au LIUM

On peut trouver les transparents du séminaire du 10/05/2001 au LIUM, présentant mes activités de recherche, en version postcript ou pdf

jacob@univ-lemans.fr

02.43.83.38.40 (France)

Mai 2001