Par Marine Carrère (Docteure en épistémologie et histoire des sciences, post-doctorante Programme DataSanté, Nantes)

L’usage de données génétiques issues de fragments de molécules d’ADN en santé est un phénomène récent. Les premières sont produites dès les années soixante, par une biologie moléculaire alors sans aucune portée médicale : de petites séquences de bases de l’ADN de quelques Ko à Mo, fruits d’un travail laborieux. Depuis, l’évolution des techniques de séquençage n’a cessé d’accroître la capacité à produire des données génétiques : plus rapides, moins chères, sur des fragments de plus en plus grands. Aujourd’hui le Plan France Médecine Génomique 2025 entend les mettre au service d’une certaine approche de la santé, par l’exploitation routinière des données de séquence génétique complète, ou « génomiques », de dizaines de Go, pour le diagnostic et le suivi des patients. Pour cela, il a fallu toute une série d’inversions conceptuelles.

Sur le plan des techniques d’abord, on passe d’un séquençage linéaire et situé, à un séquençage « aveugle », expression qualifiant à l’origine une technique développée dans les années quatre-vingt-dix au sein du Projet Génome Humain : le génome est fragmenté de façon aléatoire, les fragments séquencés et la séquence reconstituée à l’aide d’outils informatiques. S’en est suivi un effort d’optimisation et de rentabilisation du séquençage, mais jusqu’à la fin des années 2000 et tous domaines confondus, la production des données génétiques s’est surtout faite par puces à ADN et amplification génique ciblée avant le séquençage. C’est une méthode plus économique, de détection du semblable (des séquences à rechercher), sensible à la contamination de l’ADN. Les premières puces livrent des résultats variables pour un même échantillon, tandis que débute une chasse aux facteurs de contamination et aux biais d’analyse qui aboutit au développement de protocoles d’extraction de l’ADN très rigoureux et de techniques de séquençage total. Le séquençage « aveugle » revient, suivi d’un ciblage a posteriori des zones à étudier par analyse bio-informatique. Dit de nouvelle génération, de génome entier ou à très haut débit, il peut être unique et mobilisable à l’envi in silico. La production des données génétiques explose en taille et nombre de séquences.

Ensuite, l’évolution et la critique des techniques montrent bien que la donnée génétique est moins un donné que le produit d’un travail, qui change avec les perceptions et les usages. La médecine a mis à mal la perception de la donnée génétique comme donné limpide dans les années quatre-vingt-dix. Elle est peu efficace dans la comparaison inter-individuelle ou patients-témoins qui sous-tend une partie du raisonnement médical : hors quelques exceptions, les variations génétiques sont trop rares et diverses pour fournir des associations significatives. Un autre renversement conceptuel émerge avec la découverte de cette diversité génétique : plutôt que des groupes de patients ou témoins supposés génétiquement homogènes entre eux mais hétérogènes à l’autre groupe, il s’agirait de caractériser la diversité génétique des populations pour y comparer les cas individuels. Or, historiquement la notion de population en médecine sert un registre de preuve détaché du cas individuel, et la limitation des ressources invite à se concentrer sur le patient. Pourtant le concept d’une population génétiquement diversifiée, résultant d’une histoire génétique et géographique, permet de sortir de l’impasse de la rareté des variations : il s’agit de déterminer si elles appartiennent à un ensemble de variations normales résultant de l’histoire de la population qui sert de référence. Au cas contraire, s’y cache peut-être une variation pathogène à explorer. Pour être efficace, la référence se doit d’être riche et précisément définie, invitant à cumuler toujours plus de données. Depuis 2012 des projets de construction d’une telle base sur une population dite française à des fins médicales se succèdent, et la pertinence de son usage diffuse peu à peu parmi les médecins.

Enfin, ce mode de recherche haut débit et populationnel, sur le point de se déployer au service de la santé, se heurte à l’état des réglementations sur les données génétiques hérité des limitations et approches des années 2000. En particulier, ses exigences de protection de la vie privée des personnes en recherche biomédicale imposent des analyses gène par gène et restreignent fortement le partage des données. Un génome entier, ou un ensemble de gènes issus du même génome, n’est donc pas communicable alors qu’il est en passe de devenir le standard de la production de données génétiques. Ce hiatus appelle à une révision du cadre réglementaire et des solutions pratiques afin de concilier les exigences de la recherche et celles de la protection des personnes.

Texte issu de la Table ronde « Les données et la santé : passé, présent… futur ? » du 23 avril 2021, en vidéoconférence, organisée par le programme DataSanté.
Congrès de la Société française d’histoire des sciences et des techniques Montpellier, 21 – 23 avril 2021 (voir plus d’informations).