Methodology for Design and Analysis of Machine Learning Competitions - A&O (Apprentissage et Optimisation) Accéder directement au contenu
Thèse Année : 2023

Methodology for Design and Analysis of Machine Learning Competitions

Méthodologie pour la conception et l'analyse de compétitions en apprentissage automatique

Adrien Pavão

Résumé

We develop and study a systematic and unified methodology to organize and use scientific challenges in research, particularly in the domain of machine learning (data-driven artificial intelligence). As of today, challenges are becoming more and more popular as a pedagogic tool and as a means of pushing the state-of-the-art by engaging scientists of all ages, within or outside academia. This can be thought of as a form of citizen science. There is the promise that this form of community involvement in science might contribute to reproducible research and democratize artificial intelligence. However, while the distinction between organizers and participants may mitigate certain biases, there exists a risk that biases in data selection, scoring metrics, and other experimental design elements could compromise the integrity of the outcomes and amplify the influence of randomness. In extreme cases, the results could range from being useless to detrimental for the scientific community and, ultimately, society at large. Our objective is to structure challenge organization within a rigorous framework and offer the community insightful guidelines. In conjunction with the tools of challenge organization that we are developing as part of the CodaLab project, we aim to provide a valuable contribution to the community. This thesis includes theoretical fundamental contributions drawing on experimental design, statistics and game theory, and practical empirical findings resulting from the analysis of data from previous challenges.
Nous développons et étudions une méthodologie systématique et unifiée pour organiser et utiliser les compétitions scientifiques dans la recherche, en particulier dans le domaine de l'apprentissage automatique (intelligence artificielle basée sur les données). De nos jours, les compétitions deviennent de plus en plus populaires en tant qu'outil pédagogique et comme moyen de repousser les limites de l'état de l'art en engageant des scientifiques de tous âges, à l'intérieur ou à l'extérieur du milieu universitaire. On peut y voir une forme de science citoyenne. Cette forme de contribution communautaire à la science pourrait contribuer à la recherche reproductible et démocratiser l'intelligence artificielle. Toutefois, si la distinction entre organisateurs et participants peut atténuer certains biais, il existe un risque que des biais dans la sélection des données, les métriques d'évaluation, et d'autres éléments de conception expérimentale compromettent l'intégrité des résultats et amplifient l'influence du hasard. Dans les cas extrêmes, les résultats pourraient être inutiles, voire préjudiciables à la communauté scientifique et, en conséquence, à la société dans son ensemble. Notre objectif est d'inscrire l'organisation de compétitions scientifiques dans un cadre rigoureux et d'offrir à la communauté des recommandations éclairées. Conjointement avec l'effort de développement des outils d'organisation de compétitions que nous développons dans le cadre du projet CodaLab, nous visons à fournir une contribution utile à la communauté. Cette thèse comprend des contributions théoriques s'appuyant sur la conception expérimentale, les statistiques et la théorie des jeux, ainsi que des résultats empiriques pratiques résultant de l'analyse des données de compétitions passées.
Fichier principal
Vignette du fichier
122584_PAVAO_2023_archivage.pdf (5.01 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04401932 , version 1 (18-01-2024)
tel-04401932 , version 2 (09-02-2024)

Identifiants

  • HAL Id : tel-04401932 , version 2

Citer

Adrien Pavão. Methodology for Design and Analysis of Machine Learning Competitions. Machine Learning [cs.LG]. Université Paris-Saclay, 2023. English. ⟨NNT : 2023UPASG088⟩. ⟨tel-04401932v2⟩
101 Consultations
43 Téléchargements

Partager

Gmail Facebook X LinkedIn More