Modèles d’apprentissage automatique d’estimation de qualité perçue dans les communications en temps réel / Machine learning based perceived quality estimation models in realtime communications.

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Demirbilek, Edip (2017). Modèles d’apprentissage automatique d’estimation de qualité perçue dans les communications en temps réel / Machine learning based perceived quality estimation models in realtime communications. Thèse. Québec, Université du Québec, Institut national de la recherche scientifique, Doctorat en télécommunications, 184 p.

Prévisualisation

PDF
Télécharger (3MB) | Prévisualisation

Résumé

L’objectif de notre travail est de développer des modèles d’apprentissage automatique qui prédisent la qualité audiovisuelle perçue. La prédiction se fait à partir d’un ensemble de paramètres corrélés dérivés d’un ensemble de données extraits de la cible. Afin d’atteindre cet objectif, nous avons tout d’abord développé, avec VLC, un banc d’essai de la VsD (Vidéo sur Demande) et avons généré un ensemble de données préliminaires de la qualité audiovisuelle. Le but était d’étudier divers algorithmes d’apprentissage automatique. Ces premières expérimentations nous ont encouragé à développer un banc d’essai plus robuste, basé sur le framework multimédia GStreamer. Nous avons généré, avec ce nouveau banc d’essai, un ensemble de données de qualité audiovisuelle, propre à notre contexte. Ces données reflètent les configurations contemporaines des communications interactives pour le taux d’image par seconde, la quantification vidéo, les paramètres de réduction du bruit et le taux de perte des paquets du réseau. Nous avons ensuite utilisé cet ensemble de données afin de développer divers modèles, reposant soit sur l’information média (« paramétriques »), soit sur les données réseau (« bitstream »), d’estimation de la qualité perçue. Ces modèles sont basés sur les méthodes des forêts d’arbres décisionnels, des techniques dites de démarrage (« bootstrap »), de l’apprentissage profond et de la programmation génétique. Pour les modèles paramétriques, les quatre méthodes ont atteint une précision élevée en terme de corrélation RMSE et de Pearson. Les modèles basés sur les forêts d’arbres décisionnels et les techniques de bootstrap montrent un petit avantage par rapport à l’apprentissage profond quant à la précision qu’ils ont atteint. Les modèles basés sur la programmation génétique sont moins performants même si leur précision est impressionnante. Nous avons également obtenu une précision élevée en utilisant les autres ensembles de données sur la qualité visuelle, accessibles au public. Les métriques de performance que nous avons calculées sont comparables aux modèles existants formés et testés sur ces ensembles de données. Pour les modèles bitstream, les méthodes de forêts d’arbres décisionnels ainsi que les techniques de bootstrap ont surpassé les modèles basés sur l’apprentissage profond et la programmation génétique ainsi que tous les modèles paramétriques. Cependant, les modèles bitstream réalisés en programmation génétique et en apprentissage profond ont moins bien performé que les modèles paramétriques à cause d’une augmentation significative du nombre de caractéristiques dans l’ensemble de données bitstream. Dans l’ensemble, nous concluons que le calcul de l’information bitstream mérite l’effort fourni pour la générer. Ce calcul aide à construire des modèles plus précis mais demeure utile uniquement pour le déploiement de bons algorithmes. Sur la base de nos résultats, nous concluons que les algorithmes basés sur l’arbre de décision conviennent aux modèles paramétriques ainsi qu’aux modèles bitstream. De plus, nous savons que l’extraction de données corrélées supplémentaires de l’ensemble de données nous aide à générer des modèles plus précis lorsque des algorithmes d’apprentissage automatique appropriés sont déployés. L’ensemble des données, les outils et les codes d’apprentissage automatique qui ont été développés au cours de cette recherche sont gracieusement offerts à la communauté pour des fins de recherche et de développement.

This research has started with the initial objective to build machine learning based models that predict the perceived audiovisual quality directly from a set of correlated parameters that are extracted from a target quality dataset. To reach that goal, we have first created a VideoLAN Video-on-Demand based testbed and generated a preliminary audiovisual quality dataset that let us experiment with various machine learning algorithms. These early experiments encouraged us to create a more robust testbed based on the GStreamer multimedia framework. With this new testbed, we have generated the INRS audiovisual quality dataset that reflects contemporary realtime configurations for video frame rate, video quantization, noise reduction parameters and network packet loss rate. Then we have utilized this INRS dataset to build several machine learning based parametric and bitstream perceived quality estimation models based on Random Forests, Bagging, Deep Learning and Genetic Programming methods. For the parametric models, all four methods have achieved high accuracy in terms of RMSE and Pearson correlation with subjective ratings. Random Forests and Bagging based models show a small edge over Deep Learning with respect to the accuracy they have achieved. Genetic Programming based models fell behind even though their accuracy is impressive as well. We have also obtained high accuracy on other publicly available audiovisual quality datasets and the performance metrics we have computed are comparable to the existing models trained and tested on these datasets. For the bitstream models, both the Random Forests and Bagging based bitstream models have outperformed the Deep Learning and Genetic Programming based bitstream models as well as all of the parametric models. However, both the Genetic Programming and Deep Learning based bitstream models fell behind the parametric models due to a significant increase in the number of features in the bitstream dataset. Overall we conclude that computing the bitstream information is worth the effort and helps to build more accurate models. However, it is useful only for the deployment of the right algorithms. In light of our results, we conclude that the Decision Trees based algorithms are well suited to the parametric models as well as to the bitstream models. Moreover, we know that extracting additional correlated data from the dataset helps us to generate more accurate models when suitable machine learning algorithms are deployed. The dataset, tools and machine learning codes that have been generated during this research are publicly available for research and development purposes.

Type de document:	Thèse Thèse
Directeur de mémoire/thèse:	Grégoire, Jean-Charles
Mots-clés libres:	banc d’essai de la communication multimédia; données de mesure de la qualité audiovisuelle; modélisation de la qualité perçue; apprentissage automatique; forêts d’arbres décisionnels; techniques de bootstrap; apprentissage profond; programmation génétique; multimedia communication testbed; audiovisual quality dataset; perceived quality modeling; machine learning; random forests; bagging; deep learning; genetic programming
Centre:	Centre Énergie Matériaux Télécommunications
Date de dépôt:	09 avr. 2019 21:13
Dernière modification:	30 sept. 2021 19:01
URI:	https://espace.inrs.ca/id/eprint/8018

Gestion Actions (Identification requise)

Modifier la notice