Abstract

Au cours des dernières décennies, beaucoup d'attention a été accordée à la séparation aveugle de sources. Dans plusieurs situations, il est souhaitable de récupérer toutes les sources à partir des mélanges enregistrés, ou du moins de séparer une source particulière. Cette thèse est focalisée sur l'étude de la séparation aveugle de sources dans le cas de mélanges instantanés et convolutifs ; en particulier, des sources de signaux de parole.

La première partie de ce rapport de thèse est consacrée aux mélanges instantanés. Nous présentons les résultats d'une étude comparative sur les méthodes de séparation aveugle de signaux de parole. Nous avons développé une méthode utilisant les moments d’ordre supérieur : HOS (High Order Statistics), exploitant l’hypothèse de l’indépendance des signaux. La deuxième approche que nous avons développée est basée sur la méthode de l’analyse en composantes principales orientées (OPCA : Oriented Principal Components Analysis). C’est une méthode utilisant les statistiques du second ordre et qui représente une extension de l’analyse en composantes principales (PCA) visant à maximiser le rapport de puissance d'une paire de signaux. L'avantage de cette méthode par rapport aux autres techniques de second ordre est l'absence de l’étape du pré-blanchiment. L’évaluation des techniques développées a été effectuée en les comparant avec une approche de référence connue : Fast-ICA (Fast-Independant Component Analysis).

Dans la deuxième partie de cette thèse, nous nous placerons dans une situation plus réaliste et donc plus complexe où nous considérerons un mélange convolutif. Les expériences ont été réalisées en considérant deux types de mélange : un mélange convolutif suivant le modèle HRTF (Head Related Transfert Function) et un mélange convolutif anéchoïque. Les deux mélanges sont enregistrés dans des milieux non réverbérants. Nous avons appliqué une approche que nous avons appelée FOPCA. L’idée était d’étendre l'algorithme OPCA aux mélanges convolutifs en l’appliquant dans le domaine fréquentiel. Cette méthode présente l’avantage de ne pas produire le problème de permutation de fréquences. L’évaluation a été réalisée en faisant la comparaison des résultats avec deux algorithmes de référence connus : Degenerate Unmixing Evaluation Technique (DUET) and Convolutive Fast Independent Component Analysis (C-FICA). Le cas sous- déterminé a été aussi considéré.

Toutes les techniques ont été objectivement comparées en utilisant cinq métriques différentes : le domaine temporel, le spectrogramme, le coefficient de corrélation, le rapport signal-à-interférence : SIR, ainsi que le PESQ (Perceptual Evaluation Signal Quality). Pour des fins de comparaison subjective, nous avons utilisé une méthode basée sur la note d’opinion moyenne : le MOS. Les résultats des expériences ont été réalisés en utilisant les bases de données TIMIT, Noizeus ainsi que d’autres enregistrements plus longs des signaux de parole.

Abstract (AI English translation)

Information popover about translation disclaimer

In recent decades, much attention has been paid to indiscriminate source separation. In many situations, it is desirable to recover all sources from recorded mixes, or at least to separate a particular source. This thesis is focused on the study of blind source separation in the case of instantaneous and convolutional mixtures; in particular, sources of speech signals.

The first part of this thesis report is devoted to instantaneous mixtures. We present the results of a comparative study on methods for the blind separation of speech signals. We have developed a method using higher order moments: HOS (High Order Statistics), exploiting the assumption of signal independence. The second approach that we have developed is based on the method of oriented principal component analysis (OPCA: Oriented Principal Components Analysis). It is a method using second-order statistics and which represents an extension of principal component analysis (PCA) aimed at maximizing the power ratio of a pair of signals. The advantage of this method over other second-order techniques is the absence of the pre-bleaching step. The evaluation of the techniques developed was carried out by comparing them with a known reference approach: Fast-ICA (Fast-Independent Component Analysis).

In the second part of this thesis, we will place ourselves in a more realistic and therefore more complex situation where we will consider a convolutional mixture. The experiments were carried out considering two types of mixing: convolutional mixing according to the HRTF model (Head Related Transfer Function) and anechoic convolutional mixing. Both mixes are recorded in non-reverberant environments. We applied an approach that we called FOPCA. The idea was to extend the OPCA algorithm to convolutional mixtures by applying it in the frequency domain. This method has the advantage of not producing the frequency permutation problem. The evaluation was carried out by comparing the results with two known reference algorithms: Degenerate Unmixing Evaluation Technique (DUET) and Convolutional Fast Independent Component Analysis (C-FICA). The underdetermined case was also considered.

All techniques were objectively compared using five different metrics: time domain, spectrogram, correlation coefficient, signal-to-interference ratio: SIR, and PESQ (Perceptual Evaluation Signal Quality). For subjective comparison purposes, we used a method based on the mean opinion score: the MOS. The results of the experiments were carried out using the databases TIMIT, Noizeus as well as other longer recordings of the speech signals.

Details

Title
Séparation Aveugle de Signaux de Parole Utilisant les Statistiques D'ordre Supérieur et la Décomposition en Sous-Espaces
Author
Benabderrahmane, Yasmina
Publication year
2011
Publisher
ProQuest Dissertations & Theses
ISBN
9798379469504
Source type
Dissertation or Thesis
Language of publication
French
ProQuest document ID
2813963529
Full text outside of ProQuest
Copyright
Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.