Demirbilek, Edip (2017). Modèles d’apprentissage automatique d’estimation de qualité perçue dans les communications en temps réel / Machine learning based perceived quality estimation models in realtime communications. Thèse. Québec, Université du Québec, Institut national de la recherche scientifique, Doctorat en télécommunications, 184 p.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Résumé
L’objectif de notre travail est de développer des modèles d’apprentissage automatique qui prédisent
la qualité audiovisuelle perçue. La prédiction se fait à partir d’un ensemble de paramètres
corrélés dérivés d’un ensemble de données extraits de la cible. Afin d’atteindre cet objectif, nous
avons tout d’abord développé, avec VLC, un banc d’essai de la VsD (Vidéo sur Demande) et avons
généré un ensemble de données préliminaires de la qualité audiovisuelle. Le but était d’étudier divers
algorithmes d’apprentissage automatique. Ces premières expérimentations nous ont encouragé à développer
un banc d’essai plus robuste, basé sur le framework multimédia GStreamer. Nous avons
généré, avec ce nouveau banc d’essai, un ensemble de données de qualité audiovisuelle, propre à
notre contexte. Ces données reflètent les configurations contemporaines des communications interactives
pour le taux d’image par seconde, la quantification vidéo, les paramètres de réduction du
bruit et le taux de perte des paquets du réseau. Nous avons ensuite utilisé cet ensemble de données
afin de développer divers modèles, reposant soit sur l’information média (« paramétriques »), soit
sur les données réseau (« bitstream »), d’estimation de la qualité perçue. Ces modèles sont basés
sur les méthodes des forêts d’arbres décisionnels, des techniques dites de démarrage (« bootstrap
»), de l’apprentissage profond et de la programmation génétique.
Pour les modèles paramétriques, les quatre méthodes ont atteint une précision élevée en terme
de corrélation RMSE et de Pearson. Les modèles basés sur les forêts d’arbres décisionnels et les
techniques de bootstrap montrent un petit avantage par rapport à l’apprentissage profond quant
à la précision qu’ils ont atteint. Les modèles basés sur la programmation génétique sont moins
performants même si leur précision est impressionnante. Nous avons également obtenu une précision
élevée en utilisant les autres ensembles de données sur la qualité visuelle, accessibles au public. Les
métriques de performance que nous avons calculées sont comparables aux modèles existants formés
et testés sur ces ensembles de données.
Pour les modèles bitstream, les méthodes de forêts d’arbres décisionnels ainsi que les techniques
de bootstrap ont surpassé les modèles basés sur l’apprentissage profond et la programmation génétique
ainsi que tous les modèles paramétriques. Cependant, les modèles bitstream réalisés en
programmation génétique et en apprentissage profond ont moins bien performé que les modèles paramétriques
à cause d’une augmentation significative du nombre de caractéristiques dans l’ensemble
de données bitstream. Dans l’ensemble, nous concluons que le calcul de l’information bitstream mérite
l’effort fourni pour la générer. Ce calcul aide à construire des modèles plus précis mais demeure
utile uniquement pour le déploiement de bons algorithmes.
Sur la base de nos résultats, nous concluons que les algorithmes basés sur l’arbre de décision
conviennent aux modèles paramétriques ainsi qu’aux modèles bitstream. De plus, nous savons que
l’extraction de données corrélées supplémentaires de l’ensemble de données nous aide à générer des
modèles plus précis lorsque des algorithmes d’apprentissage automatique appropriés sont déployés. L’ensemble des données, les outils et les codes d’apprentissage automatique qui ont été développés
au cours de cette recherche sont gracieusement offerts à la communauté pour des fins de
recherche et de développement.
This research has started with the initial objective to build machine learning based models
that predict the perceived audiovisual quality directly from a set of correlated parameters that
are extracted from a target quality dataset. To reach that goal, we have first created a VideoLAN
Video-on-Demand based testbed and generated a preliminary audiovisual quality dataset that let
us experiment with various machine learning algorithms. These early experiments encouraged us
to create a more robust testbed based on the GStreamer multimedia framework. With this new
testbed, we have generated the INRS audiovisual quality dataset that reflects contemporary realtime
configurations for video frame rate, video quantization, noise reduction parameters and network
packet loss rate. Then we have utilized this INRS dataset to build several machine learning based
parametric and bitstream perceived quality estimation models based on Random Forests, Bagging,
Deep Learning and Genetic Programming methods.
For the parametric models, all four methods have achieved high accuracy in terms of RMSE and
Pearson correlation with subjective ratings. Random Forests and Bagging based models show a small
edge over Deep Learning with respect to the accuracy they have achieved. Genetic Programming
based models fell behind even though their accuracy is impressive as well. We have also obtained
high accuracy on other publicly available audiovisual quality datasets and the performance metrics
we have computed are comparable to the existing models trained and tested on these datasets.
For the bitstream models, both the Random Forests and Bagging based bitstream models have
outperformed the Deep Learning and Genetic Programming based bitstream models as well as
all of the parametric models. However, both the Genetic Programming and Deep Learning based
bitstream models fell behind the parametric models due to a significant increase in the number of
features in the bitstream dataset. Overall we conclude that computing the bitstream information
is worth the effort and helps to build more accurate models. However, it is useful only for the
deployment of the right algorithms.
In light of our results, we conclude that the Decision Trees based algorithms are well suited
to the parametric models as well as to the bitstream models. Moreover, we know that extracting
additional correlated data from the dataset helps us to generate more accurate models when suitable
machine learning algorithms are deployed.
The dataset, tools and machine learning codes that have been generated during this research
are publicly available for research and development purposes.
Type de document: | Thèse Thèse |
---|---|
Directeur de mémoire/thèse: | Grégoire, Jean-Charles |
Mots-clés libres: | banc d’essai de la communication multimédia; données de mesure de la qualité audiovisuelle; modélisation de la qualité perçue; apprentissage automatique; forêts d’arbres décisionnels; techniques de bootstrap; apprentissage profond; programmation génétique; multimedia communication testbed; audiovisual quality dataset; perceived quality modeling; machine learning; random forests; bagging; deep learning; genetic programming |
Centre: | Centre Énergie Matériaux Télécommunications |
Date de dépôt: | 09 avr. 2019 21:13 |
Dernière modification: | 30 sept. 2021 19:01 |
URI: | https://espace.inrs.ca/id/eprint/8018 |
Gestion Actions (Identification requise)
Modifier la notice |