Génome
Dimanche le 13 septembre 2020
N.B. L'information que nous présentons dans ce dossiers date de 2000. On a eu depuis bien des surprises. On s'attendait à trouver 100, 000 gènes. On en a trouvé 30 000 mille environ, lesquels ne représent que 1,5 % de l'ADN. On ignore encore tout de la fonction du 98,5% restant. Le dogme central de la biologie moléculaire, gène=protéine a été ébranlé. On a compris qu'on avait sous-estimé le rôle des protéines dans la reproduction. Voir à ce sujet notre dossier gène.
"Le génome des organismes vivants est l'ensemble de leur matériel génétique. Il assure le fonctionnement des cellules et la transmission des caractères héréditaires au cours des générations. Il est constitué de molécules d'acides nucléiques (ADN), enchaînements d'unités élémentaires, les nucléotides. Les nucléotides sont constitués d'un sucre, d'un phosphate, et d'un élément variable, la base, qui peut être l'adénine, la guanine, la cytosine ou la thymine. Les gènes, c'est-à-dire les parties d'ADN porteuses d'une information génétique, ne constituent qu'une partie du génome.
Les génomes des organismes vivants ont des tailles considérables allant d'une centaine de millions à des milliards de nucléotides. Le génome humain, par exemple, est composé d'environ 3 milliards de bases. L'étude d'un génome passe donc par des opérations de cartographie puis de séquençage ainsi que par l'interprétation des séquences.
La cartographie physique
C'est le positionnement de repères sur le génome.
On commence par couper l'ADN en grands fragments. Les grands fragments clonés de cette collection sont ensuite ordonnés (cartographiés) les uns par rapport aux autres, au moyen de points de repère (courtes séquences d'ADN) qui servent de balises identifiant les grands fragments. Lorsque plusieurs fragments ont une balise en commun, on en conclut qu'ils ont une partie d'ADN en commun. On dit que les fragments sont partiellement recouvrants ou chevauchants.
En analysant l'ensemble des fragments d'ADN en fonction de leur contenu en balises, on peut reconstituer l'enchaînement des balises et des fragments d'ADN, tels qu'ils existent dans la molécule d'ADN de départ.
La reconstitution de la molécule d'ADN de départ sous la forme d'un ensemble de fragments chevauchants constitue la carte physique. C'est à partir de cette carte que sera choisi l'ensemble minimal de fragments assurant la couverture complète du génome à séquencer.
Le séquençage
Pour connaître les "instructions" que renferme un fragment d'ADN, on lit la succession des bases puriques et pyrimidiques (A, T, G, C) (1) de l'enchaînement. Cette lecture est appelée séquençage.
Un fragment d'ADN à séquencer est constitué de l'enchaînement de centaines d'exemplaires de nucléotides dans un ordre défini. Séquencer une telle molécule, c'est déterminer cet ordre.
Le principe utilisé consiste à réaliser, à partir d'un point fixe, des copies partielles de la molécule, interrompues au hasard. On synthétise toutes les copies intermédiaires possibles à partir du point fixe.
Puis on les sépare selon leur taille par une migration électrophorétique dans un gel poreux. Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide. Si l'on peut identifier le nucléotide du point d'interruption sur chacune de ces copies partielles, de la plus petite à la plus grande, il devient possible de reconstituer la succession des nucléotides tout au long de la copie.
Dans la pratique, pour identifier les nucléotides terminaux, l'ADN à séquencer est recopié à l'aide d'un composé chimique qui provoquera l'interruption au hasard, mais systématiquement à la suite d'un seul des 4 nucléotides A, T, G ou C. On fera donc, en parallèle, 4 séries de copies. Dans chaque série, toutes les copies seront interrompues derrière un seul type de nucléotide ; par exemple, toutes les copies intermédiaires d'une série seront terminées par un A. En outre, le composé provoquant l'interruption est fluorescent pour pouvoir être détecté automatiquement à l'aide d'un système optique qui balaye le bas du gel d'électrophorèse dans les séquenceurs automatiques. Le signal obtenu est interprété par un programme informatique qui reconstituera la séquence originale du fragment d'ADN analysé (2).
La rapidité du séquençage
Les centres publics ou privés de séquençage utilisent des outils de plus en plus perfectionnés, des séquenceurs à haut débit. Les deux séquenceurs les plus rapides sont actuellement :
- MegaBace 1000, de la société américaine Molecular Dynamics-Amersham Pharmacia-Biotech qui permet de séquencer 96 échantillons par réaction et 1 100 par 24 heures (les premiers appareils ont été installés en Europe en août 1997).
- Abi Prism 3700, de la société américaine Perkin Elmer Applied Biosystems, qui permet de séquencer 96 ou 384 échantillons par réaction, et 760 à 1240 par 24 heures (les premiers appareils ont été installés en Europe en janvier 1999).
Il peut être également intéressant, pour des raisons de rentabilité et de flexibilité de coupler plusieurs séquenceurs. La firme canadienne Visible Genetics a mis au point le Virtual DNA Sequencer. Ce système organise une connexion en réseau de plusieurs séquenceurs automatisés rapides. La centralisation dans l'ordinateur des données d'analyse issues de chacun de ces appareils permet de faire fonctionner l'ensemble comme un seul séquenceur très rapide.
L'interprétation des séquences
La séquence d'un fragment d'ADN contient une série d'informations qu'il faut identifier et interpréter. Les éléments de séquences les mieux connus correspondent aux gènes, délimités par des signaux de début et de fin. Ces gènes ne s'expriment pas tous en permanence dans une cellule. Leur expression est régulée par des éléments de contrôle, situés dans leur voisinage, qui augmentent ou diminuent leur niveau d'expression en fonction du besoin. Grâce à des programmes informatiques, l'interprétation des séquences permet le repérage des gènes, des éléments de contrôle et de leurs relations.
La cartographie génétique
Elle constitue une autre façon d'étudier les génomes. Compte tenu de la complexité des procédés déjà exposés (cartographie physique, séquençage, interprétation des séquences), il est évident que des approches différentes peuvent se révéler intéressantes pour la connaissance des génomes. On peut, sans disposer d'un séquençage complet ou de cartes physiques très précises, étudier un caractère physiologie ou pathologie particulier. On fait alors appel aux méthodes de cartographie génétique pour identifier les gènes qui contrôlent ces caractères. Ces méthodes consistent à détecter directement au niveau de l'ADN les polymorphismes, c'est-à-dire les variations génétiques différenciant un individu d'un autre."
Notes
(1) Adénine, Thymine, Guanine, Cytosine.
(2) Le Séquençage. Document fourni par le Centre national de séquençage.
Office parlementaire d'évaluation des choix scientifiques et technologiques, Génomique et informatique : l'impact sur les thérapies et sur l'industrie pharmaceutique. Rapport de M. Franck Sérusclat, sénateur (15 octobre 1999) [sur le site du Sénat de la République française]. Assemblée nationale: n° 1871 (11ème législature) - Sénat: n° 20 (1999-2000).
"Le génome des organismes vivants est l'ensemble de leur matériel génétique. Il assure le fonctionnement des cellules et la transmission des caractères héréditaires au cours des générations. Il est constitué de molécules d'acides nucléiques (ADN), enchaînements d'unités élémentaires, les nucléotides. Les nucléotides sont constitués d'un sucre, d'un phosphate, et d'un élément variable, la base, qui peut être l'adénine, la guanine, la cytosine ou la thymine. Les gènes, c'est-à-dire les parties d'ADN porteuses d'une information génétique, ne constituent qu'une partie du génome.
Les génomes des organismes vivants ont des tailles considérables allant d'une centaine de millions à des milliards de nucléotides. Le génome humain, par exemple, est composé d'environ 3 milliards de bases. L'étude d'un génome passe donc par des opérations de cartographie puis de séquençage ainsi que par l'interprétation des séquences.
La cartographie physique
C'est le positionnement de repères sur le génome.
On commence par couper l'ADN en grands fragments. Les grands fragments clonés de cette collection sont ensuite ordonnés (cartographiés) les uns par rapport aux autres, au moyen de points de repère (courtes séquences d'ADN) qui servent de balises identifiant les grands fragments. Lorsque plusieurs fragments ont une balise en commun, on en conclut qu'ils ont une partie d'ADN en commun. On dit que les fragments sont partiellement recouvrants ou chevauchants.
En analysant l'ensemble des fragments d'ADN en fonction de leur contenu en balises, on peut reconstituer l'enchaînement des balises et des fragments d'ADN, tels qu'ils existent dans la molécule d'ADN de départ.
La reconstitution de la molécule d'ADN de départ sous la forme d'un ensemble de fragments chevauchants constitue la carte physique. C'est à partir de cette carte que sera choisi l'ensemble minimal de fragments assurant la couverture complète du génome à séquencer.
Le séquençage
Pour connaître les "instructions" que renferme un fragment d'ADN, on lit la succession des bases puriques et pyrimidiques (A, T, G, C) (1) de l'enchaînement. Cette lecture est appelée séquençage.
Un fragment d'ADN à séquencer est constitué de l'enchaînement de centaines d'exemplaires de nucléotides dans un ordre défini. Séquencer une telle molécule, c'est déterminer cet ordre.
Le principe utilisé consiste à réaliser, à partir d'un point fixe, des copies partielles de la molécule, interrompues au hasard. On synthétise toutes les copies intermédiaires possibles à partir du point fixe.
Puis on les sépare selon leur taille par une migration électrophorétique dans un gel poreux. Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide. Si l'on peut identifier le nucléotide du point d'interruption sur chacune de ces copies partielles, de la plus petite à la plus grande, il devient possible de reconstituer la succession des nucléotides tout au long de la copie.
Dans la pratique, pour identifier les nucléotides terminaux, l'ADN à séquencer est recopié à l'aide d'un composé chimique qui provoquera l'interruption au hasard, mais systématiquement à la suite d'un seul des 4 nucléotides A, T, G ou C. On fera donc, en parallèle, 4 séries de copies. Dans chaque série, toutes les copies seront interrompues derrière un seul type de nucléotide ; par exemple, toutes les copies intermédiaires d'une série seront terminées par un A. En outre, le composé provoquant l'interruption est fluorescent pour pouvoir être détecté automatiquement à l'aide d'un système optique qui balaye le bas du gel d'électrophorèse dans les séquenceurs automatiques. Le signal obtenu est interprété par un programme informatique qui reconstituera la séquence originale du fragment d'ADN analysé (2).
La rapidité du séquençage
Les centres publics ou privés de séquençage utilisent des outils de plus en plus perfectionnés, des séquenceurs à haut débit. Les deux séquenceurs les plus rapides sont actuellement :
- MegaBace 1000, de la société américaine Molecular Dynamics-Amersham Pharmacia-Biotech qui permet de séquencer 96 échantillons par réaction et 1 100 par 24 heures (les premiers appareils ont été installés en Europe en août 1997).
- Abi Prism 3700, de la société américaine Perkin Elmer Applied Biosystems, qui permet de séquencer 96 ou 384 échantillons par réaction, et 760 à 1240 par 24 heures (les premiers appareils ont été installés en Europe en janvier 1999).
Il peut être également intéressant, pour des raisons de rentabilité et de flexibilité de coupler plusieurs séquenceurs. La firme canadienne Visible Genetics a mis au point le Virtual DNA Sequencer. Ce système organise une connexion en réseau de plusieurs séquenceurs automatisés rapides. La centralisation dans l'ordinateur des données d'analyse issues de chacun de ces appareils permet de faire fonctionner l'ensemble comme un seul séquenceur très rapide.
L'interprétation des séquences
La séquence d'un fragment d'ADN contient une série d'informations qu'il faut identifier et interpréter. Les éléments de séquences les mieux connus correspondent aux gènes, délimités par des signaux de début et de fin. Ces gènes ne s'expriment pas tous en permanence dans une cellule. Leur expression est régulée par des éléments de contrôle, situés dans leur voisinage, qui augmentent ou diminuent leur niveau d'expression en fonction du besoin. Grâce à des programmes informatiques, l'interprétation des séquences permet le repérage des gènes, des éléments de contrôle et de leurs relations.
La cartographie génétique
Elle constitue une autre façon d'étudier les génomes. Compte tenu de la complexité des procédés déjà exposés (cartographie physique, séquençage, interprétation des séquences), il est évident que des approches différentes peuvent se révéler intéressantes pour la connaissance des génomes. On peut, sans disposer d'un séquençage complet ou de cartes physiques très précises, étudier un caractère physiologie ou pathologie particulier. On fait alors appel aux méthodes de cartographie génétique pour identifier les gènes qui contrôlent ces caractères. Ces méthodes consistent à détecter directement au niveau de l'ADN les polymorphismes, c'est-à-dire les variations génétiques différenciant un individu d'un autre."
Notes
(1) Adénine, Thymine, Guanine, Cytosine.
(2) Le Séquençage. Document fourni par le Centre national de séquençage.
Office parlementaire d'évaluation des choix scientifiques et technologiques, Génomique et informatique : l'impact sur les thérapies et sur l'industrie pharmaceutique. Rapport de M. Franck Sérusclat, sénateur (15 octobre 1999) [sur le site du Sénat de la République française]. Assemblée nationale: n° 1871 (11ème législature) - Sénat: n° 20 (1999-2000).