Using natural language processing techniques to study and regulate emergency department flows : development and application to the study of trauma risks based on ED venues in Bordeaux

Gabrielle Chenais

Résumé

The TARPON (Traitement Automatique des Résumés de Passage aux urgences dans le but de créer un Observatoire National du traumatisme) project aims to demonstrate the feasibility of setting up a French observatory of trauma. Emergency Departments (EDs) generate a large volume of health-related data and approximately one-third of ED visits are the result of trauma. Most of the information contained in electronic health records is in the form of free text format and manual information extraction is time and resource consuming. Artificial Intelligence (AI) and particularly Natural Language Processing (NLP) could optimize this process. NLP has seen a recent breakthrough with the introduction of deep learning and in particular the Transformer architecture. These Large Language Models (LLMs) have reached the state-of-the-art for most NLP tasks and their use for clinical and medical data is promising. To explore the potential of Transformers for trauma classification (multi-class), we conducted an evaluation using free-text clinical notes from a single large University Hospital (Bordeaux) ED. A total of 69,110 free-text clinical notes generated between 2012 and 2019 were manually annotated, with 22,481 identified as traumas. To compare the performance of traditional machine learning classifiers and Transformer models, we employed different architectures (BERT and GPT-2), varied sizes, pre-training corpora languages and tokenizers (OSCAR, Wiki, and CCNET). Additionally, we investigated the impact of incorporating a pre-training step on a domain-specific corpus. Our findings revealed that bagging algorithms and Light Gradient Boosting exhibited similar results to the lower-performing Transformers. Interestingly, we discovered that larger models did not necessarily translate to better performance, but the choice of pre-training corpora significantly influenced the outcomes. The best results, with an average F1-score of 0.976, were achieved using a GPT-2 architecture with two steps of pre-training utilizing a French corpus then with a domain-specific corpus. These results highlight the potential of Transformers, particularly when an unsupervised pre-training with a domain-specific corpus is performed, in the accurate classification of traumas based on free-text clinical notes. Our contribution to the TARPON project laid the groundwork for the use of LLMs for processing clinical notes. These models, which are becoming increasingly efficient and powerful, have led to a recent paradigm shift in NLP. Most AI applications currently in use in emergency medicine are based on NLP and automatic speech recognition because of the privileged documentation medium of free or semi-structured text or the practitioner-patient interaction. However, these applications lack proper derivation, validation, or impact evaluations that are performed rigorously and independently. Building a trustworthy, safe, and explainable AI requires a holistic approach that encompasses all sociotechnical aspects involved. Human factors such as participatory design and multi-stakeholder approaches are important for building such AI systems. Inclusiveness begins at the very beginning of the design step, with the inclusion of stakeholders. All possible biases and risks should be identified and documented before any initiation, and they should be monitored continuously. However, when emergency medicine is concerned with the development of AI applications, several principles mentioned above collide, and trade-offs must be determined. How can we determine the trade-off among interpretability and performance, time, and explainability? How can transparency be ensured when intellectual property is involved? How can liability be determined when AI harms?(…).

Le projet TARPON (Traitement Automatique des Résumés de Passage aux urgences dans le but de créer un Observatoire National du traumatisme) vise à démontrer la faisabilité de la mise en place d'un observatoire français des traumatismes. Les services d'urgences génèrent un volume important de données de santé et environ un tiers des visites aux urgences sont liées à des traumatismes. La plupart des informations contenues dans les dossiers médicaux électroniques sont sous forme de texte libre, et l'extraction manuelle d'informations est une tâche chronophage qui nécessite beaucoup de ressources. L'intelligence artificielle (IA) et plus particulièrement le traitement automatique du langage naturel (TALN) pourraient optimiser ce processus. Le TALN a connu un changement de paradigme récent avec l'introduction de l'apprentissage profond et en particulier l'architecture de type Transformer. Ces larges modèles de langage (LLMs) ont atteint l'état de l'art pour la plupart des tâches de TALN et leur utilisation pour les données cliniques et médicales est prometteuse. Afin d’explorer le potentiel des Transformers dans la classification multi-classe des traumatismes, nous les avons évalués sur des notes cliniques en texte libre provenant d'un centre hospitalier universitaire (Bordeaux). Un total de 69 110 notes cliniques en texte libre générées entre 2012 et 2019 ont été annotées manuellement, parmi elles, 22 481 ont été identifiées comme des traumatismes. Nous avons comparé les performances d’outils de classification issus du machine learning traditionel à des modèles de type Transformer. Concernant ces derniers, nous avons utilisé différentes architectures (BERT et GPT-2), des tailles de modèles variables et des modèles pré-entrainés avec des langues et des tokenizers différents pour les corpus de pré-entraînement (OSCAR, Wiki et CCNET). De plus, nous avons étudié l'impact de l'ajout d'une étape de pré-entraînement sur la base de données non labelisée des urgences. Les algorithmes de bagging et le Light Gradient Boosting ont obtenu des résultats similaires aux Transformers les moins performants. De plus, nous avons découvert que des modèles plus grands n’induisaient pas nécessairement par de meilleures performances, en revanche, le choix des corpus de pré-entraînement influençait les performances en classification. Les meilleurs résultats, avec un score F1 moyen de 0,976, ont été obtenus avec une architecture de type GPT-2 comprenant deux étapes de pré-entraînement non supervisé utilisant un corpus français puis la base de données entière. Ces résultats mettent en évidence la capacité des Transformers, en particulier lorsqu'un pré-entraînement non supervisé avec un corpus spécifique au domaine est effectué, dans la classification précise des traumatismes à partir de notes cliniques en texte libre. Notre contribution au projet TARPON a posé les bases de l'utilisation des LLM pour la classification des notes cliniques. Ces modèles, de plus en plus efficaces et puissants, ont récemment entraîné un changement de paradigme dans le domaine du TALN. La plupart des applications d'IA actuellement utilisées en médecine d'urgence sont basées sur le TALN et la reconnaissance vocale automatique en raison mode de documentation privilégié (texte libre ou semi-structuré) des professionnels de santé ou de l'interaction entre le praticien et le patient. Cependant, ces applications ne bénéficient pas d’études de validation et de dérivation ou d'évaluations d'impact adéquates et effectuées de manière rigoureuse et indépendante. La construction d'une IA fiable, sûre et explicable nécessite une approche holistique englobant tous les aspects sociotechniques impliqués. Des facteurs humains tels que la conception participative et les approches transversales sont importants pour la construction de tels systèmes d'IA Dès le commencement de l'étape de conception, il est essentiel d'adopter une approche inclusive (…).

Using natural language processing techniques to study and regulate emergency department flows : development and application to the study of trauma risks based on ED venues in Bordeaux

Exploitation des techniques de traitement automatique du langage pour l’étude et la régulation des flux aux urgences : développement et application à l’étude des risques de traumatismes à partir des admissions aux urgences à Bordeaux

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager