Dépôt numérique
RECHERCHER

Codage échelonnable à granularité fine de la parole utilisant la quantification vectorielle arborescente.

Djamah, Mouloud (2011). Codage échelonnable à granularité fine de la parole utilisant la quantification vectorielle arborescente. Thèse. Québec, Université du Québec, Institut national de la recherche scientifique, Doctorat en télécommunications, 229 p.

[img]
Prévisualisation
PDF
Télécharger (2MB) | Prévisualisation

Résumé

Avec le déploiement de la transmission de la parole sur les réseaux à paquets, où la congestion du trafic est chose commune, il est devenu une exigence de développer des algorithmes de compression de parole qui doivent être capables d’adapter dynamiquement le débit binaire de la parole compressée à la bande passante du réseau de transmission produisant une variation lisse et graduelle de la qualité de la parole synthétisée. Dans certains codeurs normalisés de type CELP ou paramétrique, l’encodeur génère un seul type de flux-binaire à un débit fixe. Cependant, si le trafic dans le canal de transmission est congestionné, les données transmises pourraient être perdues. Pour gérer la congestion, le flux-binaire est organisé en différentes parties avec divers degrés d'importance. La partie la plus importante est désignée par la couche noyau et les parties les moins importantes sont désignées par les couches d’amélioration. Lorsque le canal de transmission est congestionné, les couches d’amélioration peuvent être rejetées une couche à la fois sans que la qualité de la parole décodée ne subisse une dégradation importante. Le débit binaire peut être ajusté à la volée par la troncation du flux-binaire incorporé à un point quelconque de la chaîne de communication. Différentes versions de la parole peuvent, donc, être reconstruites au niveau du décodeur et la suppression des paquets, qui altère sévèrement la qualité de la parole décodée, est ainsi évitée. L’échelonnabilité à granularité fine FGC (Fine Granularity Scalability) est une approche où le flux-binaire peut être rejeté avec une granularité plus fine, bit par bit dans le cas extrême, au lieu d’une couche entière. L’objectif de ce travail consiste à modifier des codeurs de parole normalisés de telle manière à ce qu’ils produisent des flux-binaires incorporés rendant ainsi ces codeurs échelonnables et évitant ainsi la suppression des paquets. Cependant les modifications qui doivent être introduites dans ces codeurs (pour les rendre échelonnables) ne doivent pas altérer les performances de ces derniers aux débits pour lesquelles ils ont été destinées à l’origine. Un algorithme efficace de conception d’un quantificateur vectoriel arborescent, utilisant la technique de fusion de cellule, est proposé. La quantification vectorielle arborescente est utilisée pour produire une échelonnabilité à granularité fine (bit par bit). La qualité de la parole produite par ces codeurs ainsi modifiés est évaluée en fonction de la longueur (nombre de bits) du flux-binaire reçu par le décodeur. Des procédures de recherche rapides pour localiser des vecteurs-code au sein d’un quantificateur ayant une structure multi-étages arborescente ou non sont proposées. Ces algorithmes sont évalués pour la quantification des coefficients LSF (Line Spectral Frequencies) en comparaison à d’autres algorithmes de recherche rapides connus. Un logiciel interactif d’outils pour le codage de la parole est aussi proposé.

Abstract

With the deployment of speech transmission over packet networks, where traffic congestion is common, it has become a requirement to develop speech compression algorithms that must be able to adapt dynamically the bit-rate, of the compressed speech, to the channel bandwidth producing a smooth and gradual variation of the synthesized speech quality. In several standardized CELP or parametric speech coders, the encoder generates only one type of bit-stream at a fixed bit-rate. However, if the traffic in the transmission channel is congested, the transmitted data could be lost. To handle the congestion, the bit-stream is organized into different portions with various degrees of importance. The most important portion is referred to as the core layer and the less important portions are referred to as enhancement layers. When the transmission channel is congested, the enhancement layers can be discarded one layer at time without a strong degradation of the speech quality. The bit-rate can be adjusted on the fly by truncating the embedded bit-stream at any point of the communication chain. Therefore, different versions of the speech can be provided at the decoder and packet dropping that severely impairs the decoded speech quality is avoided. Fine Granularity Scalability (FGS) is an approach wherein the bit-stream can be discarded with finer granularity, on a bit-by-bit basis in the extreme case, instead of the whole layer. The objective of this work consists of modifying standardized speech coders in such a way that these coders produce embedded bit-streams avoiding packet dropping. However the introduced modifications should not deteriorate the performances of these coders when operating at their original rates. An efficient codebook design for tree-structured vector quantization, using the cell merging technique, is proposed. The tree-structured vector quantization is used to provide fine granularity scalability. The speech quality produced by the modified coders is evaluated according to the length (number of bits) of the bit-stream received by the decoder. Fast search algorithms to reduce the search complexity required to locate the codevectors during encoding in multistage tree-structured (or not) vector quantization are proposed. These algorithms are compared to other known fast algorithms for vector quantization of LSF (Line Spectral Frequencies) parameters. Interactive software of tools for speech coding is proposed too.

Type de document: Thèse
Directeur de mémoire/thèse: O'Shaughnessy, Douglas
Mots-clés libres: codage; parole; flux-binaire incorporé; quantification vectorielle; algorithme; logiciel
Centre: Centre Énergie Matériaux Télécommunications
Date de dépôt: 11 avr. 2014 21:26
Dernière modification: 17 nov. 2015 18:54
URI: http://espace.inrs.ca/id/eprint/2142

Actions (Identification requise)

Modifier la notice Modifier la notice