Self-taught Robots: Autonomous and Weakly-Supervised Learning for Robotic Manipulation - Apprentissage de modèles visuels à partir de données massives Accéder directement au contenu
Thèse Année : 2022

Self-taught Robots: Autonomous and Weakly-Supervised Learning for Robotic Manipulation

Robots autodidactes: Apprentissage autonome et faiblement supervisé pour la manipulation robotique

Résumé

Despite significant advances in machine learning in recent years, robotic control learned from data has yet to show large-scale impact in the real world. One of the main limitations is access to data -- especially when coupled with the complexity of high-dimensional and underactuated control problems. Unlike in domains such as image classification or machine translation, explicit training examples cannot be easily sourced and annotated on the internet but data collection is bounded by real-time robot operation. This thesis presents several ways to leverage external data sources, from task demonstrations to full-length tutorial videos, to address the challenge of slow data collection and thus accelerate learning of robotic manipulation tasks. First, we propose a method to efficiently leverage a small number of demonstrations as a starting point, and autonomously improve this initial policy through residual reinforcement learning. No reward shaping, controller engineering or state estimation is needed as the policy uses image and proprioceptive inputs as well as sparse task completion rewards only. In our second contribution, we show that robotic agents can acquire inductive biases for manipulation by watching videos of humans using their hands and arms before ever interacting with the world themselves. We demonstrate that our reward functions, though trained exclusively on human data, are able to generalize their predictions of task progress to robot arms and accelerate training of several unseen manipulation tasks. Finally, we propose that narrated instruction videos can not only help agents gain subtask execution skills, but also teach them which subtasks are needed to accomplish long-horizon goals and in which order, as well as how they map to natural language instructions. Specifically, we present a discriminative clustering based method leveraging the temporal alignment of the narration and visual streams for automatic subtask discovery and segmentation. Both short and long-form instructional videos are especially promising data sources as they are widely available on the internet. In this thesis, we investigate the performance of purely learning-based algorithms for robotic manipulation, while acknowledging that optimal control as well as hybrid approaches can provide complementary solutions to some of the open challenges. Our key argument is that advances in the related fields of computer vision, signal processing, natural language processing, imitation and deep reinforcement learning can help lead the way towards more adaptive robotic agents. In manipulation domains, in particular, the variety of materials, shapes and tasks present in the real world beyond tightly controlled operating conditions poses great difficulty for fixed control strategies and the precise physical modelling required by classical model-predictive control approaches. Our overarching goal is therefore to enable more capable and versatile robotic manipulation through data-driven methods. Reducing the amount of domain expertise required to train robots by emphasizing example-based learning and autonomous improvement will ultimately support more widespread adoption of adaptive robotic solutions.
Malgré des progrès considérables réalisés ces dernières années dans l'apprentissage automatique, son utilisation dans le cadre de la commande de robots n'a pas encore eu d'impact à grande échelle. L'une des principales limitations est l'accès aux données, surtout si l'on tient compte de la complexité des problèmes de commande en haute dimension et pour des systèmes sous-actionnés. Contrairement au cas des domaines tels que la classification d'images ou la traduction automatique, il est difficile de trouver des exemples d'entraînement annotés sur Internet, et la collecte de données dans des environnements physiques est limitée par le fonctionnement du robot. Cette thèse présente plusieurs façons d'exploiter des sources de données externes, de démonstrations de tâches aux tutoriels vidéo, pour relever le défi de la lenteur de la collecte de données et ainsi accélérer l'apprentissage des tâches de manipulation robotique. Nous proposons d'abord une méthode pour exploiter efficacement un petit nombre de démonstrations comme point de départ, et améliorer de manière automatique la politique initiale par un apprentissage par renforcement résiduel. Des étapes d'affinement de la fonction de récompense, des contrôleurs ou encore d'estimation d'état ne sont pas nécessaires car la politique utilise uniquement des entrées d'image et proprioceptives ainsi que des récompenses binaires obtenues en fonction de la réussite de la tâche désirée. Dans notre deuxième contribution, nous montrons que les agents robotiques peuvent acquérir des biais inductifs pour la manipulation avant d'interagir eux-mêmes avec le monde physique, en regardant des vidéos de personnes utilisant leurs mains et leurs bras. Nous démontrons que nos fonctions de récompense, bien qu'entraînées exclusivement sur des données humaines, sont capables de généraliser leurs prédictions de progression de tâche aux bras robotiques et d'accélérer l'entraînement de plusieurs tâches de manipulation. Enfin, nous proposons d'utiliser des tutoriels vidéo pour enseigner aux agents des compétences en matière d'exécution de sous-tâches, quelles sont les sous-tâches nécessaires pour accomplir une tâche à long terme, leur ordre d'exécution, et comment elles correspondent aux instructions en langage naturel. Plus précisément, nous présentons une méthode basée sur le clustering discriminant qui exploite l'alignement temporel de la narration et du flux visuel pour la découverte et la segmentation des sous-tâches. Les tutoriels vidéo, qu'ils soient courts ou longs, sont des sources de données particulièrement prometteuses car ils sont abondants sur Internet. Dans cette thèse, nous étudions la performance des algorithmes purement basés sur l'apprentissage pour la manipulation robotique, tout en reconnaissant que la commande optimale ainsi que les approches hybrides peuvent fournir des solutions complémentaires à certains des défis ouverts. Notre argument central est que les avancées dans les domaines connexes de la vision par ordinateur, du traitement du signal, du traitement du langage naturel, des l'apprentissage par imitation et par renforcement profond peuvent aider à ouvrir la voie à des agents robotiques plus adaptatifs. C'est particulièrement le cas pour le domaine de la manipulation dans le monde réel, en dehors de conditions d'exploitation étroitement contrôlées. En effet, la variété des matériaux, des formes et des tâches pose de grandes difficultés pour les stratégies de contrôle fixes et les approches classiques de commande prédictive qui nécessitent une modélisation physique précise. Notre objectif principal est donc de permettre une manipulation robotique plus performante et polyvalente grâce à des méthodes appris à partir des données. Réduire l'expertise liée au domaine nécessaire pour former les robots, en mettant l'accent sur l'apprentissage à partir d'exemples et l'amélioration autonome, favorisera en fin de compte l'adoption plus large de solutions robotiques adaptatives.
Fichier principal
Vignette du fichier
PhD_Thesis_221208.pdf (25.25 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04001370 , version 1 (22-02-2023)
tel-04001370 , version 2 (10-10-2023)

Identifiants

  • HAL Id : tel-04001370 , version 1

Citer

Minttu Alakuijala. Self-taught Robots: Autonomous and Weakly-Supervised Learning for Robotic Manipulation. Computer Science [cs]. ENS Paris - Ecole Normale Supérieure de Paris, 2022. English. ⟨NNT : ⟩. ⟨tel-04001370v1⟩
299 Consultations
19 Téléchargements

Partager

Gmail Facebook X LinkedIn More