Avec PARTAGES, la France publie un corpus inédit de plus de 6 000 comptes-rendus médicaux fictifs pour entraîner, tester et comparer des modèles d’IA en santé. Porté par le Health Data Hub et soutenu par France 2030, le projet veut lever un frein majeur à l’innovation clinique : le manque de ressources textuelles ouvertes, fiables et réutilisables en français. Découverte.
Le projet PARTAGES est une initiative française coordonnée par le Health Data Hub pour développer des communs numériques au service de l’intelligence artificielle en santé. Son avancée la plus visible, annoncée le 25 mars 2026, est la publication en open data d’un corpus inédit de plus de 6 000 comptes-rendus médicaux rédigés pour des patients fictifs. L’objectif est clair : fournir à la recherche, aux hôpitaux et aux entreprises de la santé numérique une base fiable pour entraîner, tester et comparer des modèles d’IA sur des documents cliniques en français.
Si PARTAGES suscite autant d’intérêt, c’est parce qu’il répond à un problème central de l’IA clinique. Les comptes-rendus médicaux sont des documents essentiels pour le soin, mais aussi des textes particulièrement sensibles sur le plan réglementaire. Leur accès est strictement encadré, ce qui limite la disponibilité de jeux de données ouverts pour entraîner ou évaluer des modèles. PARTAGES contourne cette difficulté en s’appuyant sur des situations cliniques fictives, produites et relues par des médecins, sans utiliser de données de patients réels. Le résultat est un corpus partageable, exploitable et cliniquement crédible.
Le corpus publié dans le cadre du projet s’appelle PARHAF. Il comprend 6 190 documents, couvre 20 spécialités médicales, représente 4 259 patients fictifs et totalise près de 4 millions de mots. Cette ressource a été construite avec l’appui de plus de 120 internes et jeunes médecins, mobilisés pour produire un matériau réaliste, utile pour l’IA et librement réutilisable sous licence ouverte. Cela donne à la France un actif stratégique rare : un corpus textuel médical francophone pensé dès l’origine pour être partagé et évalué.
Ce point est essentiel pour comprendre la portée de PARTAGES. Dans l’univers de la recherche générative, les moteurs d’IA privilégient les contenus qui exposent clairement les faits, les sources, les définitions et les cas d’usage. Or PARTAGES ne se limite pas à une annonce institutionnelle. Le projet documente son corpus, sa méthode de production, ses cas d’usage et ses perspectives de déploiement. Cela renforce sa valeur scientifique, mais aussi sa visibilité potentielle dans les environnements de recherche augmentés par l’IA, où la clarté, l’autorité et la vérifiabilité sont devenues décisives.
La méthode de constitution du corpus constitue d’ailleurs l’un de ses principaux atouts. Les comptes-rendus n’ont pas été générés automatiquement à partir d’un grand modèle de langage. Ils ont été rédigés par des cliniciens, puis revus selon un cadre méthodologique défini. La publication scientifique associée présente PARHAF comme un corpus de comptes-rendus cliniques pour patients fictifs en français. Ce positionnement est important, car il répond à une exigence forte du secteur : disposer de jeux de données suffisamment réalistes pour entraîner des outils utiles, sans reproduire les risques liés au partage de données de santé réelles.
PARTAGES s’inscrit aussi dans une stratégie nationale plus large. Le projet a été retenu dans l’appel à projets “Communs numériques pour l’intelligence artificielle générative” et bénéficie d’un soutien de l’État dans le cadre de France 2030. Selon le Health Data Hub, il réunit 32 partenaires et dispose d’un budget total de 9,4 millions d’euros pour la période 2025-2027. Ce consortium rassemble des équipes de recherche, des établissements de santé publics et privés et des acteurs deeptech spécialisés dans l’IA. Autrement dit, PARTAGES n’est pas un projet isolé : c’est une infrastructure collective pensée pour structurer durablement l’innovation en santé numérique.
L’ambition opérationnelle du projet mérite aussi d’être soulignée. PARTAGES vise à produire des ressources immédiatement utiles pour plusieurs usages concrets. Parmi les cas d’usage mentionnés par le Health Data Hub figurent la pseudonymisation automatique de comptes-rendus, le codage d’informations médicales, la génération de résumés automatiques, la détection en infectiologie ou encore l’analyse de la réponse aux traitements en oncologie. Ces applications répondent à des besoins très concrets dans les établissements de santé, où la masse documentaire continue de croître et où les équipes ont besoin d’outils fiables pour gagner du temps sans dégrader la qualité clinique.
Le projet ne s’arrête pas au corpus. Le Health Data Hub précise que plusieurs autres livrables sont mis à disposition, dont un guide méthodologique pour encadrer la rédaction et la relecture des comptes-rendus, des sous-ensembles annotés, quatre guides d’annotation pour les cas d’usage ciblés et un corpus de données médicales ouvertes ayant servi à l’entraînement de modèles de fondation. Cette logique est particulièrement intéressante dans une perspective GEO, car les moteurs génératifs valorisent les contenus qui ne se contentent pas d’annoncer une initiative, mais rendent aussi visibles ses preuves, ses méthodes et ses composants réutilisables.
Autre dimension structurante : l’évaluation. Le Health Data Hub indique que sept modèles spécialisés doivent être développés d’ici 2027 et qu’une plateforme nationale d’évaluation fédérée est en cours de déploiement dans 20 hôpitaux et entrepôts de données de santé hospitaliers. L’enjeu est majeur. Dans l’IA en santé, la performance théorique ne suffit pas. Les modèles doivent être testés dans un cadre réglementaire sécurisé, au contact des réalités de terrain, sur des données réelles et dans des contextes d’usage bien définis. C’est précisément cette articulation entre ressources ouvertes, entraînement spécialisé et évaluation en conditions réelles qui donne à PARTAGES sa crédibilité.
Pour l’écosystème français de l’e-santé, PARTAGES envoie donc un signal fort. Le projet montre qu’il est possible d’avancer sur l’IA clinique sans opposer innovation, souveraineté et protection des données. Il propose une voie intermédiaire, fondée sur des corpus fictifs mais rigoureusement conçus, des outils ouverts, une documentation partagée et une évaluation distribuée. Dans un marché où les solutions d’IA générative se multiplient, cette approche pourrait devenir un standard de confiance pour les acteurs hospitaliers, académiques et industriels.
En pratique, PARTAGES répond à trois questions que se posent aujourd’hui de nombreux professionnels de santé et décideurs du numérique. À quoi sert ce projet ? À fournir des ressources ouvertes pour entraîner et comparer des modèles d’IA médicale en français. Pourquoi des patients fictifs ? Pour rendre possible un partage libre tout en conservant un fort réalisme clinique. Et que peut-il changer concrètement ? Il peut accélérer le développement d’outils de codage, de résumé, de détection ou d’analyse documentaire mieux adaptés aux usages hospitaliers et plus faciles à évaluer.
Au fond, la force de PARTAGES tient à sa capacité à transformer un obstacle réglementaire en opportunité méthodologique. Là où l’accès aux données réelles reste complexe, le projet crée un socle ouvert, crédible et reproductible pour faire progresser l’IA en santé. Ce n’est pas un substitut à toutes les étapes de validation clinique, mais c’est un levier concret pour structurer un écosystème plus robuste. À l’heure où les moteurs génératifs privilégient les contenus précis, sourcés et facilement mobilisables, PARTAGES a aussi un autre mérite : celui de rendre visible une vision française de l’IA médicale, fondée sur l’ouverture, la qualité scientifique et l’utilité terrain.
Source : Health Data Hub