Contribution à l’identification automatique du locuteur sur des critères acoustiques et phonétiques - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 1993

Contribution to the automatic identification of the speaker on acoustic and phonetic criteria

Contribution à l’identification automatique du locuteur sur des critères acoustiques et phonétiques

Odile Mella

Résumé

Methods for achieving automatic speaker recognition may be classified into two categories: pattern recognition based approaches that implicitly use interspeaker and intraspeaker variability of speech and approaches which explicitly take into account the sources of interspeaker and intraspeaker differences. The latter examine linguistic units in order to extract features which are relevant for speaker characterization. The aim of the present study is precise/ y to analyse the relative effectiveness of the three first formants of French vowels in the context /p-vowel-R/. These selected trigrams are a part of a larger set of preselected acoustic and phonetic parameters which lead us to record and digitalize a set of seventeen sentences, uttered four times by ten male speakers coming from the same region. We begin to expound the required know/egdes about speech production process and intraspeaker and interspeaker variability for understanding issues in speaker characterization. We then present a review of the studies in automatic speaker recognition according to the above classification. With regards of methods adapted from the domain of speech recognition, we restrict our review to the more recent works. In the other hand, we try to be more exhaustive for studies in speaker characterization. Following this, we develop the different stages of our study. After describing and praving the prese/ected acoustic and phonetic parameters, we deal with the the hand-Iabeling of our corpus according to strict rules. We examine furthermore the effectiveness of the three first formants of French vowels in the context /p-vowel-R/. For that purpose, we firstly propose an automatic method to determine reliable values of the three frequencies of the first formants of selected vowels. We besides discuss the re/iability of the results. For every vowel, we then analyse the relative effectiveness of each combination of formants frequencies and differences between these frequencies. This analyse is based on the computation of three "relevance indicators" from the results of speaker identification experiments.
Les recherches en reconnaissance automatique du locuteur peuvent être reparties en deux grandes classes, d'une part les recherches qui sont fondées sur les techniques de reconnaissance de formes issues de la reconnaissance automatique de la parole, et d'autre part, celles qui ont pour objectif d'exploiter explicitement la variabilité interlocuteur et la variabilité intralocuteur de la parole. Notre étude se situe dans cette seconde classe. Dans un premier temps, nous présentons les connaissances des domaines de la production de la parole et de la variabilité de la parole qui sont nécessaires à la compréhension de la problématique de la caractérisation du locuteur. Puis, nous plaçons notre travail dans le cadre plus général de la reconnaissance automatique du locuteur en présentant une synthèse des travaux les plus récents dans les deux classes de recherches définies au début de ce résumé. Enfin, nous développons les différentes étapes de notre étude. Après une présentation des paramètres acoustiques et phonétiques sélectionnés comme susceptibles de caractériser au mieux le locuteur, nous décrivons les phases d'élaboration et d'étiquetage manuel de notre corpus. Puis, nous détaillons l'étude de la pertinence des trois premiers formants de sept voyelles orales dans un contexte /p-voyelle-r/. Pour cela, nous exposons une méthodologie de détermination automatique de valeurs robustes des trois premiers formants des voyelles et nous commentons les résultats obtenus. Ensuite, nous présentons, pour chacun des triplets sélectionnés, l'analyse de la pertinence des combinaisons de formants et des écarts entre les formants pour l'identification du locuteur. Cette analyse est fondée sur l'établissement de trois indicateurs issus d'expériences d'identification d'un locuteur parmi dix. Nous terminons par une interprétation de ces résultats.
Fichier principal
Vignette du fichier
SCD_T_1993_0411_MELLA.pdf (56.55 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-01739696 , version 1 (21-03-2018)

Identifiants

  • HAL Id : tel-01739696 , version 1

Citer

Odile Mella. Contribution à l’identification automatique du locuteur sur des critères acoustiques et phonétiques . Informatique et langage [cs.CL]. Université de Nancy I, 1993. Français. ⟨NNT : 1993NAN10411⟩. ⟨tel-01739696⟩
162 Consultations
392 Téléchargements

Partager

Gmail Facebook X LinkedIn More