E-Biothon, le big data au service de la biologie

Utiliser le big data en biologie n'est pas une mince affaire pour les chercheurs... Grâce à la « reconversion » d'un super ordinateur du CNRS, trois expériences-pilotes sont actuellement en cours dans le cadre du projet E-Biothon.

le 13/03/2014

Évolution des performances : n°1 du Top 500 et calculateurs de l’Idris (1993-2013)

Des boîtes noires immenses, lisses, parfaitement alignées et pesant 770 kilos chacune : ce sont les « cabinets » de l’IBM Blue Gene dit « de génération P ». Propriété de l’Idris, le centre de calcul du CNRS, cette grosse machine est hébergée sur le campus de la faculté des sciences d’Orsay de l’université Paris-Sud, dans l’Essonne.

Babel – son petit nom – a connu son heure de gloire en 2008, avec un classement en dixième position des machines mondiales les plus puissantes. Utilisée par des centaines de chercheurs entre 2008 et 2012, elle est aujourd'hui dépassée. En 2013, elle a donc été remplacée  par une machine de la génération suivante (« génération Q ») surnommée Turing, promise à d’importants travaux en mécanique des fluides, astrophysique, modélisation climatologique et sciences de l’environnement.

Préparation d'un séquençage à haut débit

Que faire de Babel, devenue obsolète pour l'Idris, certes, mais qui reste une des 500 plus puissantes machines de la planète ? La reconvertir, tout simplement. C'est ainsi qu'a germé l'idée du projet E-Biothon, aujourd'hui mis en œuvre grâce à un accord entre le CNRS, le constructeur IBM, l'Inria et l'Institut français de bioinformatique, avec l’appui de la société SysFera (pour la conception de l'interface).

Depuis une dizaine d’années, en effet, les avancées technologiques, à l’instar du séquençage haut débit, fournissent aux sciences de la vie des quantités colossales de données brutes sur les propriétés biologiques des virus, bactéries, plantes, êtres humains etc. Avec une promesse à la clé : l’analyse génétique et protéomique – c’est-à-dire l’étude des protéines présentes dans une cellule ou un tissu, afin d’identifier celles qui sont propres à une pathologie – doit jouer un rôle croissant dans la découverte de nouveaux traitements.

Certes, ces données restent moins nombreuses que celles produites en astrophysique ou en physique des particules. Ainsi, la capacité de stockage nécessaire aux expériences de physique de l’accélérateur de particules du Cern, le LHC, à Genève, s’élève à 200 pétaoctets (mille fois plus que la plateforme E-Biothon). Mais elles ont entraîné le développement d’une nouvelle discipline, la bio-informatique, pour gérer et analyser ces masses de données. Et avec elle, la nécessité de machines plus puissantes.

L’héritage du Décrypthon

E-Biothon est l’héritier de l’opération Décrypthon, lancée durant le Téléthon de 2001 et mise en œuvre grâce à un partenariat entre l’Association française contre les myopathies (AFM), IBM et le CNRS. L’objectif initial – cartographier le protéome, c'est-à-dire l'ensemble des protéines codées par le génome – a ensuite été étendu à l’identification de nouvelles pistes pour guérir les maladies neuromusculaires et les maladies rares.

20 % de production, 80 % d'analyse

Écran de suivi du séquençage

Le projet E-Biothon met à la disposition de la communauté scientifique « une puissance de calcul qui ne lui était jusqu’à présent pas accessible », souligne Denis Girou, le directeur de l’Idris : 28 téraflops, c'est-à-dire l'équivalent de 1012 opérations de calcul par seconde. Deux cabinets de Babel sont en effet affectés à la plateforme de recherche ; quant aux huit autres cabinets, ils constituent un « magasin de pièces détachées » dans lequel puiser en cas de panne matérielle de la plateforme.

Ce ne sera pas de trop. À titre d'illustration, pour mesurer la taille d’un génome, on utilise le nombre de nucléotides ou paires de bases : elle est de 3 milliards environ pour l’être humain. Or, explique Jean-François Gibrat, directeur de l’Institut français de bioinformatique (IFB) et associé au projet E-Biothon, « une expérience sur un séquenceur haut débit tel que HiSeq2500 peut permettre le séquençage de 300 milliards de nucléotides. Le fichier de données correspondant pèse plus de 1 téraoctet. Quant au traitement informatique de ces données, il génère des fichiers intermédiaires qui multiplient par 4 ou 5 la taille de stockage nécessaire ! D’où l’estimation, couramment admise, que le travail des biologistes se compose désormais à 20 % de la production de données et à 80 % de leur analyse ».

Délégué scientifique CNRS, Michel Daydé rappelle que l'exploitation des données « est fondamentale pour les sciences de la vie » et que les moyens informatiques font souvent défaut.

De spectaculaires infrastructures

À l'Idris, les machines tournent en permanence, 365 jours sur 365. Sans refroidissement des circuits, la température grimperait à 45°C en quelques minutes, endommageant irréversiblement les circuits. D’où la nécessité de disposer d’un système performant de production d’eau dite « glacée » qui circule, à une température de 6 à 12°C, dans des tuyaux serpentant autour des racks ou dans les portes des machines, assurant ainsi 90 % de leur refroidissement. Les dispositifs de production d’eau glacée sont situés à l’extérieur du bâtiment. En cas de défaillance, de grands réservoirs de 10.000 litres, installés dans la salle des infrastructures, juste en-dessous de la salle des machines, prennent le relais. Au total, la consommation électrique de l’Idris équivaut à peu près à celle d'un village de 1.000 habitants.

Trois applications-pilotes

Trois applications ont d’ores et déjà été déployées sur la plateforme. Elles ont été sélectionnées pour des raisons simples, explique Jean-François Gibrat, de l’IFB : « Elles sont disponibles, elles nécessitent un important traitement quantitatif de données et elles sont emblématiques des recherches en sciences de la vie ».

Baptisée Read’syst, la première d’entre elles vise à établir un « code-barres » de la diversité du vivant afin de les classer en familles, espèces et genres.

Directeur de l’Institut français de bioinformatique (IFB), Jean-François Gibrat explique comment établir « un code-barres pour identifier les espèces », qu'elles soient microbiennes ou végétales. Un outil précieux pour dresser un inventaire de la biodiversité.

Phylogénie : PhyML sur E-Biothon

Arbre phylogénétique des primates

La seconde application sera au service d’une tâche classique en biologie : la phylogénie. Tous les organismes vivants, des microbes aux animaux et donc aux êtres humains, en passant par les plantes, les virus ou les champignons, sont apparentés. Les relations évolutives entre ces organismes sont décrites par l’arbre du vivant, qui, comme un arbre généalogique, montre les ancêtres et les descendants.

« Pour étudier les relations évolutives entre ces organismes, c’est-à-dire pour reconstituer l’arbre ou, le plus souvent, une partie de cet arbre, on emploie les techniques de phylogénie, explique Jean-François Gibrat, qui utilisent les séquences d’ADN ou de protéines des différents organismes pour inférer l’arbre correspondant. Quand le fragment de l’arbre à étudier comprend de nombreux organismes, ces techniques sont très consommatrices de temps-calcul, d’où l’idée d’utiliser la plate-forme E-Biothon ».

Concrètement, c’est un logiciel couramment utilisé par les chercheurs, appelé PhyML et mis à disposition par un laboratoire du CNRS de Montpellier, le LIRMM, qui sera utilisé sur E-Biothon.

Génétique : comparer les microbes

La troisième application-pilote sur E-Biothon, appelée Insyght, concerne la génomique microbienne.

Le directeur de l'IFB, Jean-François Gibrat, en décrit l'objectif : « comparer l'ensemble des génomes microbiens ». Des données utiles pour ceux qui analysent de nouveaux génomes.

Read’syst, PhyML et Insyght : ces trois expériences sont actuellement en phase de validation. La production intensive débute en mars et le traitement des données devrait se poursuivre durant toute l'année 2014. À l'issue de cette première phase, la plateforme sera ouverte à de nouveaux projets dans les domaines de la biologie et la santé. Pour Michel Daydé, délégué scientifique CNRS, l'appropriation de ce type d'outils par la communauté scientifique française est essentielle pour la compétitivité industrielle. Expérience à suivre, donc... 

Barbara Vignaux

le 13/03/2014