Deep Learning for 3D Shape Modelling - Apprentissage de modèles visuels à partir de données massives Accéder directement au contenu
Thèse Année : 2021

Deep Learning for 3D Shape Modelling

Deep learning pour la modélisation de formes 3D

Résumé

Application of deep learning to geometric 3D data poses various challenges for researchers. The complex nature of geometric 3D data allows to represent it in different forms: occupancy grids, point clouds, meshes, implicit functions, etc. Each of those representations has already spawned streams of deep neural network models, capable of processing and predicting according data samples for further use in various data recognition, generation, and modification tasks.Modern deep learning models force researchers to make various design choices, associated with their architectures, learning algorithms and other specific aspects of the chosen applications. Often, these choices are made with the help of various heuristics and best practice methods discovered through numerous costly experimental evaluations. Probabilistic modeling provides an alternative to these methods that allows to formalize machine learning tasks in a meaningful manner and develop probability-based training objectives. This thesis explores combinations of deep learning based methods and probabilistic modeling in application to geometric 3D data.The first contribution explores how probabilistic modeling could be applied in the context of single-view 3D shape inference task. We propose a family of probabilistic models, Probabilistic Reconstruction Networks (PRNs),which treats the task as image conditioned generation and introduces a global latent variable, encoding shape geometry information. We explore different image conditioning options, and two different training objectives based on Monte Carlo and variational approximations of the model likelihood. Parameters of every distribution are predicted by multi-layered convolutional and fully-connected neural networks from the input images. All the options in the family of models are evaluated in the single-view 3D occupancy grid inference task on synthetic shapes and according image renderings from randomized viewpoints. We show that conditioning the latent variable prior on the input images is sufficient to achieve competitive and state-of-the-art single-view 3D shape inference performance for point cloud based and voxel based metrics, respectively. We additionally demonstrate that probabilistic objective based on variational approximation of the likelihood allows the model to obtain better results compared to Monte Carlo based approximation.The second contribution proposes a probabilistic model for 3D point cloud generation. It treats point clouds as distributions over exchangeable variables and use de Finetti’s representation theorem to define a global latent variable model with conditionally independent distributions for coordinates of each point. To model these point distributions a novel type of conditional normalizing flows is proposed, based on discrete coupling of point coordinate dimensions. These flows update the coordinates of each point sample multiple times by dividing them in two groups and inferring the updates for one group of coordinates from another group and, additionally, global latent variable sample by the means of multi-layered fully-connected neural networks with parameters shared for all the points. We also extend our Discrete Point Flow Networks (DPFNs) from generation to single-view inference task by conditioning the global latent variable prior in a manner similar to PRNs from the first contribution. Resulting generative performance demonstrates that DPFNs produce sets of samples of similar quality and diversity compared to state of the art based on continuous normalizing flows, but are approximately 30 times faster both in training and sampling. Results in autoencoding and single-view inference tasks show competitive and state-of-the-art performance for Chamfer distance, F-score and earth mover’s distance similarity metrics for point clouds.
L’application des stratégies d’apprentissage profond, aux données de formes 3D pose divers défis aux chercheurs. La nature complexe de ces données 3D autorise différentes représentations, par exemples les grilles d’occupation, les nuages de points, les maillages ou les fonctions implicites. Chacune de ces représentations a vu apparaitre des familles de réseaux de neurones profonds capables de traiter et prédire en fonction d’échantillons, cela pour diverses tâches de reconnaissance, de génération et de modification de données.Les modèles d’apprentissage profond modernes obligent les chercheurs à effectuer divers choix de conception associés à leurs architectures, aux algorithmes d’apprentissage et à d’autres aspects plus spécifiques des applications choisies. Ces choix sont souvent faits sur la base d’heuristiques, ou de manière empirique au travers de nombreuses évaluations expérimentales coûteuses. La modélisation probabiliste offre une alternative à cela et permet de formaliser les tâches d’apprentissage automatique de manière rigoureuse et de développer des objectifs d’entrainement qui reposent sur les probabilités. Cette thèse explore la combinaison de l’apprentissage profond avec la modélisation probabiliste dans le cadre applicatif des données 3D de formes géométriques.La première contribution porte sur l’inférence d’une forme 3D à partir d’une seule vue et explore comment la modélisation probabiliste pourrait être appliquée dans ce contexte. Nous proposons pour cela un ensemble de modèles probabilistes, les réseaux de reconstruction probabilistes (PRN), qui traitent la tâche comme une génération conditionnée par l’image et introduisent une variable latente globale qui encode les informations de géométrie des formes. Nous expérimentons différents conditionnements par l’image et deux objectifs d’entraînement différents basés pour l’un sur la méthode de Monte Carlo et pour l’autre sur l’approximation variationnel de la vraisemblance du modèle. Les modèles PRN sont évalués avec l’inférence de grilles d’occupation 3D à partir d’une seule vue, sur des formes synthétiques observées à partir de points de vue aléatoires. Nous montrons que le conditionnement, par l’image observée, de la distribution a priori de la variable latente est suffisant pour obtenir des performances compétitives pour les métriques basées sur les nuages de points et état de l’art pour les métriques basées sur les voxels. Nous démontrons en outre que l’objectif probabiliste basé sur l’approximation variationnelle de la vraisemblance permet au modèle d’obtenir de meilleurs résultats que l’approximation basée sur Monte Carlo.La deuxième contribution est un modèle probabiliste pour la génération de nuages de points 3D. Ces nuages de points sont vus comme des distributions sur des variables échangeables et utilise le théorème de Finetti pour définir un modèle global de variables latentes avec des distributions conditionnellement indépendantes pour les coordonnées de chaque point. Pour modéliser ces distributions ponctuelles, un nouveau type de flux de normalisation conditionnelle est proposé, basé sur un couplage discret des dimensions des coordonnées ponctuelles. Nous étendons également nos réseaux de flux ponctuels discrets (DPFN) de la génération à la tâche d’inférence à vue unique en conditionnant la variable latente globale a priori d’une manière similaire aux PRN de la première contribution. Les performances génératives résultantes démontrent que les DPFN produisent des échantillons de qualité et de diversité similaires à l’état de l’art basé sur des flux de normalisation continus, mais sont environ 30 fois plus rapides que ces derniers, à la fois dans la formation et l’échantillonnage. Les résultats des tâches d’encodage automatique et d’inférence à vue unique montrent des performances compétitives et état de l’art avec les métriques de distance de chanfrein, de F-score et de distance de Wasserstein pour les nuages de points.
Fichier principal
Vignette du fichier
KLOKOV_2021_archivage.pdf (2.13 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04062587 , version 1 (07-04-2023)

Identifiants

  • HAL Id : tel-04062587 , version 1

Citer

Roman Klokov. Deep Learning for 3D Shape Modelling. Modeling and Simulation. Université Grenoble Alpes [2020-..], 2021. English. ⟨NNT : 2021GRALM060⟩. ⟨tel-04062587⟩
75 Consultations
649 Téléchargements

Partager

Gmail Facebook X LinkedIn More