Similarité par recouvrement de séquences pour la fouille de données séquentielles et textuelles

Nous introduisons la notion de similarité par recouvrement de sé- quences pour estimer la similarité entre une séquence et un ensemble de sé- quences. Nous en dérivons une pseudo-distance qui sapparente aux distances dédition de type Levenshtein pour comparer des paires de séquences. La com- plexité algorithmique associée à cette semi-métrique peut-être ramenée à O(n · log(n)) en utilisant des arbres de suffixes. Nous introduisons un nouveau mo- dèle discriminant dédié à la classification de données textuelles dont la com- plexité algorithmique ne dépend pas de la taille de lensemble dapprentissage, mais uniquement du nombre de classes et de la longueur des séquences. Létude expérimentale préliminaire présentée sappuie sur deux benchmaks : le premier concerne des séquences de nucléotides, le second une tâche de classification de textes. Les résultats obtenus positionnent lapproche proposée au niveau de létat de lart (incluant les approches "deep learning") sur les tâches considérées., avec des temps de calcul et un nombre de méta-paramètres avantageux.

Domaines

Recherche d'information [cs.IR] Intelligence artificielle [cs.AI] Traitement du texte et du document Apprentissage [cs.LG]

Pierre-François Marteau : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01999965

Soumis le : mercredi 30 janvier 2019-12:29:43

Dernière modification le : vendredi 24 mars 2023-14:53:09

Dates et versions

hal-01999965 , version 1 (30-01-2019)

Identifiants

HAL Id : hal-01999965 , version 1

Citer

Pierre-François Marteau, Nicolas Béchet, Oussama Ahmia. Similarité par recouvrement de séquences pour la fouille de données séquentielles et textuelles. Extraction et Gestion des Connaissances (EGC 2019), Jan 2019, Metz, France. pp.105-116. ⟨hal-01999965⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA CENTRALESUPELEC IRISA-D6 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE IRISA_UBS_2 UR1-MATH-NUM

79 Consultations

0 Téléchargements