Djamah, Mouloud (2011). Codage échelonnable à granularité fine de la parole utilisant la quantification vectorielle arborescente. Thèse. Québec, Université du Québec, Institut national de la recherche scientifique, Doctorat en télécommunications, 229 p.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Résumé
Avec le déploiement de la transmission de la parole sur les réseaux à paquets, où la
congestion du trafic est chose commune, il est devenu une exigence de développer des
algorithmes de compression de parole qui doivent être capables d’adapter dynamiquement
le débit binaire de la parole compressée à la bande passante du réseau de transmission
produisant une variation lisse et graduelle de la qualité de la parole synthétisée.
Dans certains codeurs normalisés de type CELP ou paramétrique, l’encodeur génère
un seul type de flux-binaire à un débit fixe. Cependant, si le trafic dans le canal de
transmission est congestionné, les données transmises pourraient être perdues. Pour gérer
la congestion, le flux-binaire est organisé en différentes parties avec divers degrés
d'importance. La partie la plus importante est désignée par la couche noyau et les parties
les moins importantes sont désignées par les couches d’amélioration. Lorsque le canal de
transmission est congestionné, les couches d’amélioration peuvent être rejetées une
couche à la fois sans que la qualité de la parole décodée ne subisse une dégradation
importante. Le débit binaire peut être ajusté à la volée par la troncation du flux-binaire
incorporé à un point quelconque de la chaîne de communication. Différentes versions de
la parole peuvent, donc, être reconstruites au niveau du décodeur et la suppression des
paquets, qui altère sévèrement la qualité de la parole décodée, est ainsi évitée.
L’échelonnabilité à granularité fine FGC (Fine Granularity Scalability) est une approche
où le flux-binaire peut être rejeté avec une granularité plus fine, bit par bit dans le cas
extrême, au lieu d’une couche entière.
L’objectif de ce travail consiste à modifier des codeurs de parole normalisés de telle
manière à ce qu’ils produisent des flux-binaires incorporés rendant ainsi ces codeurs
échelonnables et évitant ainsi la suppression des paquets. Cependant les modifications qui
doivent être introduites dans ces codeurs (pour les rendre échelonnables) ne doivent pas
altérer les performances de ces derniers aux débits pour lesquelles ils ont été destinées à
l’origine. Un algorithme efficace de conception d’un quantificateur vectoriel arborescent,
utilisant la technique de fusion de cellule, est proposé. La quantification vectorielle
arborescente est utilisée pour produire une échelonnabilité à granularité fine (bit par bit).
La qualité de la parole produite par ces codeurs ainsi modifiés est évaluée en fonction de
la longueur (nombre de bits) du flux-binaire reçu par le décodeur.
Des procédures de recherche rapides pour localiser des vecteurs-code au sein d’un
quantificateur ayant une structure multi-étages arborescente ou non sont proposées. Ces
algorithmes sont évalués pour la quantification des coefficients LSF (Line Spectral
Frequencies) en comparaison à d’autres algorithmes de recherche rapides connus. Un
logiciel interactif d’outils pour le codage de la parole est aussi proposé.
With the deployment of speech transmission over packet networks, where traffic
congestion is common, it has become a requirement to develop speech compression
algorithms that must be able to adapt dynamically the bit-rate, of the compressed speech,
to the channel bandwidth producing a smooth and gradual variation of the synthesized
speech quality.
In several standardized CELP or parametric speech coders, the encoder generates
only one type of bit-stream at a fixed bit-rate. However, if the traffic in the transmission
channel is congested, the transmitted data could be lost. To handle the congestion, the bit-stream is organized into different portions with various degrees of importance. The most
important portion is referred to as the core layer and the less important portions are
referred to as enhancement layers. When the transmission channel is congested, the
enhancement layers can be discarded one layer at time without a strong degradation of the
speech quality. The bit-rate can be adjusted on the fly by truncating the embedded bit-stream
at any point of the communication chain. Therefore, different versions of the
speech can be provided at the decoder and packet dropping that severely impairs the
decoded speech quality is avoided. Fine Granularity Scalability (FGS) is an approach
wherein the bit-stream can be discarded with finer granularity, on a bit-by-bit basis in the
extreme case, instead of the whole layer.
The objective of this work consists of modifying standardized speech coders in such
a way that these coders produce embedded bit-streams avoiding packet dropping.
However the introduced modifications should not deteriorate the performances of these
coders when operating at their original rates. An efficient codebook design for tree-structured
vector quantization, using the cell merging technique, is proposed. The tree-structured
vector quantization is used to provide fine granularity scalability. The speech
quality produced by the modified coders is evaluated according to the length (number of
bits) of the bit-stream received by the decoder.
Fast search algorithms to reduce the search complexity required to locate the
codevectors during encoding in multistage tree-structured (or not) vector quantization are
proposed. These algorithms are compared to other known fast algorithms for vector
quantization of LSF (Line Spectral Frequencies) parameters. Interactive software of tools
for speech coding is proposed too.
Type de document: | Thèse Thèse |
---|---|
Directeur de mémoire/thèse: | O'Shaughnessy, Douglas |
Mots-clés libres: | codage; parole; flux-binaire incorporé; quantification vectorielle; algorithme; logiciel |
Centre: | Centre Énergie Matériaux Télécommunications |
Date de dépôt: | 11 avr. 2014 21:26 |
Dernière modification: | 01 oct. 2021 18:46 |
URI: | https://espace.inrs.ca/id/eprint/2142 |
Gestion Actions (Identification requise)
Modifier la notice |