Dépôt numérique
RECHERCHER

Synthèse de la journée d’étude communs du numérique et IA

Téléchargements

Téléchargements par mois depuis la dernière année

Casemajor, Nathalie ORCID logoORCID: https://orcid.org/0000-0001-7901-4859 et Germain, Louis . Synthèse de la journée d’étude communs du numérique et IA In: Journée Communs du Numérique et IA, 1er novembre 2024, Québec.

[thumbnail of SyntheseCommunsIA.pdf]
Prévisualisation
PDF
Disponible sous licence Creative Commons Attribution Share Alike.

Télécharger (2MB) | Prévisualisation

Résumé

Cette synthèse vise à ouvrir une discussion sur la place des communs numériques, et en particulier les communs de la connaissance, comme ressource d’entraînement pour les systèmes d’intelligence artificielle (SIA) 1 dans les territoires francophones. Les grands modèles de langage (LLM, tels que ceux à la base de services comme ChatGPT) sont majoritairement entraînés sur des corpus anglo-américains, ce qui cause une sous-représentation des contenus et schémas culturels des autres territoires. L’entraînement d’IA sur des corpus dans d’autres langues, dont le français, mais aussi les langues des territoires francophones (langues autochtones, langues régionales), revêt donc une importance cruciale pour l’accès au savoir dans une pluralité de contextes culturels et linguistiques. Les communs de la connaissance désignent des ressources informationnelles, culturelles ou artistiques produites, partagées et gouvernées collectivement par une communauté autogérée, selon des règles établies par les personnes participantes. Ils se caractérisent par leur accessibilité, leur non-rivalité (leur usage par une personne n’empêche pas celui par une autre) et leur enrichissement continu grâce à la collaboration ouverte. Dans l’environnement numérique, un exemple emblématique est constitué par les projets Wikimédia. Ils incluent l’encyclopédie Wikipédia (en 340 langues), la base de données liées multilingue Wikidata (115 millions d’éléments), la base multimédia Wikimédia Commons (112 millions de fichiers) et le projet Lingua Libre (près d’1 million d’enregistrements en 170 langues). Leurs contenus sont publiés sous une licence libre autorisant la réutilisation, y compris commerciale. Ces communs constituent des données ouvertes précieuses pour l’entraînement des modèles d’IA, incluant dans des langues à ressources limitées. De même, les fonds patrimoniaux publics (bibliothèques et archives nationales, fonds audiovisuels) sont convoités pour entraîner des IA francophones. Ces fonds et collections revêtent une valeur inestimable en tant que documents historiques et ressources clés pour l’étude et la transmission du patrimoine culturel. Leur statut juridique est cependant complexe : les œuvres les plus anciennes appartiennent au domaine public, ce qui signifie qu’elles ne sont plus protégées par des droits d’auteur et peuvent (théoriquement) être librement utilisées. Certaines de ces ressources, accompagnées d’ensembles de métadonnées descriptives, sont rendues accessibles sous forme de données ouvertes, à la fois sur les portails internes de ces institutions et via des plateformes tierces. En revanche, les œuvres plus récentes restent protégées par le droit d’auteur, limitant leur exploitation sans autorisation ou licence appropriée. Par ailleurs, ces fonds sont souvent soumis à un empilement de couches de droits (droits sur les reproductions, droits voisins, droits moraux), rendant leur mise à disposition pour l’entraînement des modèles d’IA particulièrement difficile à évaluer. Il existe des différences significatives entre les ressources informationnelles gérées par le mouvement Wikimédia et par les GLAM. Ces deux cas de figure se distinguent tant en termes de production que de gestion et de financement. Les ressources de Wikimédia sont produites par des bénévoles, gérées selon des principes de gouvernance collective des communs 2 et financées essentiellement par des dons. En revanche, les fonds patrimoniaux des bibliothèques et archives nationales constituent un héritage national, valorisé par des professionnels, administré par des entités publiques sous la tutelle de l’État et largement financé par des subventions publiques. Cependant, les fonds patrimoniaux publics et les projets wikimédiens partagent certaines missions et valeurs fondamentales : la préservation du patrimoine collectif, l’accessibilité des ressources, leur potentiel de réutilisation (notamment pour les œuvres dans le domaine public) et leur contribution au bien commun. Dans les deux cas se pose la question des types de relations à construire avec les acteurs de l’industrie de l’IA sur le plan économique, juridique et éthique. Or le dialogue entre les projets Wikimédia et les établissements publics patrimoniaux concernant ces enjeux reste très limité à ce jour. Il est capital d’approfondir ces échanges à un moment où se cristallisent des relations et des modèles qui auront un impact sur les années à venir. Cette synergie est particulièrement importante dans le contexte de la montée de la désinformation et du désengagement des plateformes numériques commerciales envers la vérification des faits.

Type de document: Document issu d'une conférence ou d'un atelier
Informations complémentaires: L'édition de la WikiConvention francophone à Québec est rendue possible grâce au soutien de la Fondation Wikimédia et du gouvernement du Québec, en vertu des programmes de soutien en matière de francophonie canadienne.
Mots-clés libres: Communs numériques; IA; intelligence artificielle; français; francophone, wikimédia
Centre: Centre Urbanisation Culture Société
Date de dépôt: 20 févr. 2025 19:42
Dernière modification: 20 févr. 2025 20:01
URI: https://espace.inrs.ca/id/eprint/16327

Gestion Actions (Identification requise)

Modifier la notice Modifier la notice