Les forêts d'arbres extrêmement aléatoires : utilisation dans un cadre non supervisé - Department of Complex Systems, Artificial Intelligence  & Robotics Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Les forêts d'arbres extrêmement aléatoires : utilisation dans un cadre non supervisé

Résumé

Dans ce travail, nous présentons une nouvelle méthode permettant le calcul de similarités entre objets basée sur les forêts d'arbres extrêmement aléa-toires. L'idée principale de notre méthode est de séparer les données de manière itérative jusqu'à ce qu'une condition d'arrêt soit respectée, et de calculer une similarité basée sur la co-occurrence des instances dans les feuilles de chaque arbre obtenu. Nous évaluons la méthode sur un ensemble de jeux de données synthétiques et réels. Cette évaluation est basée sur la comparaison des similari-tés moyennes entre instances ayant la même étiquette aux similarités moyennes entre instances d'étiquette différente. Ces mesures sont comparables aux notions de similarités intracluster et intercluster, mais ont pour intérêt d'être agnostiques aux choix d'une méthode de clustering en particulier. L'étude empirique montre que la méthode permet effectivement de distinguer les individus n'appartenant pas aux même clusters. Les forêts d'arbres extrêmement aléatoires non supervi-sées ont des propriétés intéressantes, telles que : (i) l'invariance aux transformations monotones de variables, (ii) la robustesse aux variables corrélées, et (iii), la robustesse au bruit. Enfin, nous présentons les résulats obtenus par l'appli-caton d'un algorithme de clustering hiérarchique agglomératif, en utilisant les matrices de similarité obtenues par notre méthode. Les résultats obtenus sur des jeux de données homogènes et hétérogènes sont prometteurs.
Fichier principal
Vignette du fichier
f-egc_nyoman.pdf (138.42 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-02099532 , version 1 (15-04-2019)

Identifiants

  • HAL Id : hal-02099532 , version 1

Citer

Kevin Dalleau, Miguel Couceiro, Malika Smaïl-Tabbone. Les forêts d'arbres extrêmement aléatoires : utilisation dans un cadre non supervisé. EGC 2019 - 19ème Conférence Francophone sur l'Extraction et Gestion des connaissances, Jan 2019, Metz, France. pp.395-400. ⟨hal-02099532⟩
109 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More