sábado, 18 de octubre de 2008

Felicidades al nuevo Doctor

Anibal Arias presento su tesis finales de septiembre el tema ( con un resumen para los que estén interesados) :

Metodos espectrales para el procesamiento automatico de documentos audio

Jury :
Rapporteurs:
M. Hervé GLOTIN Université Sud Toulon Var
M. Antonio ARTÉS-RODRÍGUEZ Universidad Carlos III de Madrid

Examinateurs :
M. Jean-Yves TOURNERET Université Toulouse III
M. Fernando PÉREZ-CRUZ Princeton University

Directeur de thèse :
Mme Régine ANDRÉ-OBRECHT Université Toulouse III

Encadrant :
M. Jérôme FARINAS Université Toulouse III

RESUME DE LA THESE:

Plusieurs problèmes de traitement audio sont liés à l'extraction de caractéristiques pertinentes à partir des ensembles de paramètres "bruts".
Une étape de ce pré-traitement peut être la réduction de la dimensionnalité des données en préservant les signatures informatives du signal. Celles-ci, par exemple, permettent de différencier les phonèmes de la parole et d'identifier les tons d'un instrument de musique. Si la variabilité acoustique est décrite par un ensemble réduit de caractéristiques, on peut imaginer que les données font partie d'une variété de faible dimensionnalité emboîtée dans un espace de haute dimension. Ces représentations peuvent fournir des informations utiles sur la nature et l'organisation des données et être exploitées en tâches de classification ou de regroupement.

Dans une première partie, nous faisons une analyse des signaux acoustiques à l'aide des méthodes spectrales et d'estimation de la dimensionnalité intrinsèque. Nous décrivons l'utilisation de ces méthodes avec l'information acoustique en entrée (séquences de paramètres cepstraux). Nous étudions la dimensionnalité intrinsèque des vecteurs ainsi que la variance originale conservée dans les composantes principales de leurs représentations de faible dimensionnalité. Grâce à la disponibilité de l'étiquetage phonétique du corpus OGI, nous analysons aussi la distribution des principales classes phonétiques dans les projections.

Notre seconde contribution consiste à appliquer la théorie du regroupement spectral aux séquences audio. Ainsi, nous définissons une nouvelle mesure de similarité, fondée sur la distance euclidienne et la proximité temporelle entre les vecteurs. Cette métrique est utile pour adapter les matrices classiques du regroupement spectral aux séquences de vecteurs. Un des résultats de cette modification est la détection de variations abruptes de la séquence d'entrée, ce qui permet de définir une segmentation temporelle du signal. Ensuite, nous traitons les segments résultants à l'aide des méthodes Kernel PCA et Isomap, ce qui permet de les associer à la classe phonétique la plus proche, selon leur énergie : silence, consonne voisée, consonne non voisée ou voyelle.

Nous proposons enfin une démarche permettant de transformer des séquences audio de longueur variable en vecteurs de taille fixe (trois dimensions).
Cette transformation nous permet d'explorer les contenus des bases de données acoustiques. D'abord, on modélise les paramètres cepstraux de chaque séquence de la base de données par un GMM. Ensuite, on fait l'estimation de la divergence symétrique de Kullback-Leibler entre deux GMM à l'aide d'un échantillonnage de Monte-Carlo. Ces dissimilarités statistiques sont utilisées comme entrées de l'algorithme d'échelle multidimensionnelle (MDS), qui produit un système de représentation de faible dimensionnalité pour chaque GMM donc pour chaque séquence d'entrée. Dans ces espaces, les vecteurs-séquences sont traités par des algorithmes à noyau et des méthodes de regroupement. On obtient des résultats dans trois bases de données : parole/musique, locuteurs, langues.

Mots clé : Méthodes spectrales, fonctions noyaux, réduction de la dimensionnalité, segmentation du signal, regroupement, classification.