UNIVERSITE
CONSTANTINE 1
Cours de phylogénie
moléculaire
Distances et constructions phylogénétiques
Support pédagogique de phylogénie moléculaire destiné aux étudiants du
système LMD de Master ‘M1 et M2) et doctorants de Biotechnologie
végétale, Biochimie et Microbiologie.
Faculté des Sciences de
la Nature et de la Vie
Pr DJEKOUN A.
Pr HAMIDECHI M. A.
1
Partie 2 : LES MÉTHODES DE CONSTRUCTIONS D’ARBRES
Plan du cours
Partie 1 : LES DONNÉES DE LA PHYLOGÉNIE
1. Les données phénotypiques
2. Les données moléculaires
3. La structure d’un arbre phylogénétique
4. Notion de distances
PHYLOGÉNÉTIQUES
1- Les méthodes phénétiques
2- Les méthodes cladistiques
3- Les méthodes du maximum de parcimonie
4- Le bootstrap
5- Les méthodes phylogénétiques par l’exemple
Partie 3 : LES OUTILS DE LA PHYLOGÉNIE
Partie 4 : Exercices d’application
2
P
réambule : La phylogénie moléculaire est une discipline qui connaît un essor
grandissant étant donné l’avancement spectaculaire des techniques de la biologie
moléculaire et du génie génétique que l’on peut appeler maintenant biotechnologies
moléculaires. Ces techniques ont permis un nombre incalculables de données
les séquences des différents gènes et protéines.
biomoléculaires
Actuellement on peut recenser quelques 80 millions de séquences1 sur le portail NCBI par
exemple !
telles que
La phylogénie permet d’étudier les espèces végétales, animales et microbiennes, sur les
deux plans phénotypique et génotypique, afin de les classer en fonction de leurs
ressemblances et en fonction de leurs structures géniques (liens de parenté). La phylogénie
étudie, en fait, les relations de parenté entre les individus et représente sous forme d’arbre le
résultat de ces relations.
Donc face à ce tas de données, il y aura besoin d’outils adéquats pour pouvoir traiter
toutes ces informations et tirer un meilleur profit. La manipulation correcte des données
initiales va permettre d’aboutir à des interprétations et des concluions pertinentes : Grâce
aux résultats de la phylogénie, le chercheur peut tirer des hypothèses sur les liens
génétiques des espèces, les états ancestraux des caractères étudiés, la divergence ou la
convergence des caractères.
Ce cours est destiné aux étudiants de Master et Doctorants de Biotechnologie végétale,
Biochimie et Microbiologie. Ils trouveront non seulement des rappels des cours relatifs aux
alignements multiples et aux notions de motifs, mais également des notions simplifiées sur la
phylogénie et des méthodes qui permettent d’initier nos étudiants et doctorants (chacun à
son niveau) aux différentes méthodes de constructions phylogénétiques et à leurs principes
de base. C’est un support pédagogique qui va guider les étudiants dans leurs travaux grâce
aux exercices corrigés et aux différents exemples cités dans tous les paragraphes.
Objectifs :
1- Connaître la nature des différentes données pour la phylogénie
2- Comprendre la structure des arbres phylogénétiques (ou les dendrogrammes)
3- Apprendre quelques méthodes de constructions phylogénétiques
Pré-requis :
MEGA
biologiques
1- Savoir réaliser un alignement multiple avec un programme informatique tel que
2- Savoir définir un motif moléculaire commun à un ensemble de séquences
1 ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt
3
Partie 1 : LES DONNÉES DE LA PHYLOGENIE
Les progrès des biotechnologies moléculaires ont conduit à une vaste accumulation de
nouvelles données biologiques principalement sous forme de séquences nucléiques (gènes
ou ORFs, marqueurs moléculaires, …) et protéiques (enzymes du métabolisme énergétique,
protéines de structures, etc…).
En parallèle, beaucoup de sites ont vu le jour sur le la grande toile du web pour permettre
le stockage et la manipulation de toutes ces informations. L’acquisition de ces données et
leur traitement nécessitent des méthodes et des outils adéquats.
La phylogénie se base sur le principe de la comparaison de caractères spécifiques pour
un ensemble d’individus. Ces caractères sont en général homologues et appartiennent à des
organismes contemporains. Sauf que leur comparaison, par le biais des méthodes
phylogénétiques, va permettre de postuler des hypothèses quant à l’éventuelle histoire
commune ou non entre ces individus du point de vue moléculaire et phénotypique.
On peut diviser les données qui vont nous servir pour la construction d’arbres
phylogénétiques en deux groupes distincts :
En
Les données liées aux caractères phénotypiques.
Les données moléculaires telles que les séquences d’ADN ou de protéines.
fait ces données concernent
les caractères morphologiques, physiologiques,
génétiques et génomiques.
Le traitement de l’une ou de l’autre catégorie de données va aboutir à un dendrogramme
donné et nécessite des approches et des traitements différents.
Les données phénotypiques : comprennent les caractères observables (aux différents
états : morphologiques, biochimiques et physiologiques) et les patterns binaires (de type
présence d’un caractère donné / absence de ce même caractère). Dans le cas des bactéries,
par exemple, les caractères peuvent être :
Biochimiques et enzymatiques,
Antigéniques
Sensibilité vis-à-vis des antibiotiques
Sensibilités aux phages,
Profils électophorétiques de systèmes enzymatiques, …
4
Par exemple, nous pouvons avoir ce type de données qui servira à construire une
phylogénie :
Souche1
Souche2
Souche3
Souche4
Caractère1 Caractère2 Caractère3 Caractère4 Caractère5
0
1
1
1
1
0
1
1
1
1
0
0
0
0
1
0
1
1
1
0
On constate que chaque caractère existe sous deux états différents :
L’état 1 qui signifie la présence de ce caractère.
L’état 0 qui signifie l’absence de ce caractère.
Un état de caractère est donc un attribut observable et mesurable sur un individu et qui peut
être d’une quelconque nature (moléculaire, physiologique, …) :
Caractères
physiologique
Etats du caractère
Croissance à 5°C Croissance à pH acide
Couleur de la colonie Blanche Crème
1
0
1
Jaune
0
Orange
Motif ATATA
Ag O
Nageoires
Séquence gène
Séquence protéine
1
1
Oui
0
0
Non
T
20 Acides aminés ou Gap
G
C
A
Gap
Les données moléculaires : Dans ce cas, ce sont des séquences biologiques de type
acides nucléiques telles que les séquences de gènes particuliers, d’ARNm, RFLPs,
Microsatellites, SNPs, IGS (ARNr et mitochondries), ITS(ARNr et mitochondries), séquences
des cytochromes C, séquences des facteurs d’élongation alpha, ou encore des séquences
de protéines enzymatiques ou de structure.
Les données les plus employées pour les constructions phylogénétiques sont les marqueurs
suivants :
ADNr 16S : Bactéries
ADNr 18S, actine, EF1, RPB1 : Eucaryotes
ADNr 18S, RBCL : Végétaux
Animaux :
o Niveau phylum, classe, ordre : ADNr 18S, génome mt
o Niveau famille : RAG2, 12S, 16S mt
o Niveau genre : ITS, protéines mt
o Niveau intra spécifique : D-LOOP, Introns
5
Les séquences retenues pour la phylogénie doivent être alignées en utilisant un programme
informatique adéquat. Pour cela, un large choix est disponible sur la grande toile :
1. http://bioweb.pasteur.fr/seqanal/interfaces/clustalw.html
2. http://www.ebi.ac.uk/Tools/clustalw2/
3. http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py
ATTENTION : Il convient de bien analyser le résultat de l’alignement multiple avant de
passer à la construction de l’arbre phylogénétique et de bien régler les paramètres du
logiciel.
A titre de rappel, nous allons procéder à l’alignement multiple du jeu de séquences en
utilisant l’outil ClustalW2 . Ces séquences appartiennent à la famille des facteurs de
transcription du type “Basic Leucine Zipper”. Ce sont des gènes qui codent pour des
protéines qui régulent la transcription des ARNm (voir fin du document).
Le résultat de l’alignement multiple de cette série de séquences est le suivant :
Solanum.tuberosum1466pb GGAATTTTGATTTTCAAGATTCCATTCAATTTTTCTTCTATGGGT—-G 46
Triticum.monococcum1062pb —————————————ATGG——- 4
Rattus.norvegicus1785pb ——————————-GTACATATGTGA——- 12
Zea.mays1236pb ——————TGCGCACGCCACCGCGCTTCATTGG——- 25
Oryza.sativa1272pb ———-ATGGCCATCATCCATGACACCTCTGATCAACAAG—–G 35
Xenopus.laevis1188pb ——————-ATGAACGGCCTTGTTCCTTGCCCAAC—-C 27
Arabidopsis.thaliana1489pb ——————GCGGCTCCACGTAAGACAAAAACAAA—— 26
Triticum.aestivum1585pb —————–CGTTCCGCGCTGTCCGTCACACACAGGATGGCG 33
Solanum.tuberosum1466pb TTTA-GAAGGATTTAGGCTTTTAGAG—–TTTTGAAGTGGGGAAAAAA 90
Triticum.monococcum1062pb –CA-GAGG—CCAGCCCT———————AGAACAGAA 27
Rattus.norvegicus1785pb —A-GGAAGAGTCAGCATG—AGG—–ACTAGACACCCAGAGAGAG 50
Zea.mays1236pb -CCACGCCGTTGCCATCACG——————–CCGATTAAAC 54
Oryza.sativa1272pb TACACCATAATTCTATTTCTTCCAAGCCAACTTTACATGCATGATCATAC 85
Xenopus.laevis1188pb CCTGTGGATCCACCTGCTCCTCCTCA—–GGTACCTCCCACATTAGAG 72
Arabidopsis.thaliana1489pb TTAAGGAAAGAGCGAGAGAGAGAGAGAGAGAGAAAAAAGAAGAAGAAGAA 76
Triticum.aestivum1585pb TCCGCCATGGAGCTCTCCCTCCTCAGCC—CCGCAATGCACCACCACGG 80
*
Solanum.tuberosum1466pb —-AGGTTTC———TTGAAGACTT-TGCTGTT—-GTTGGCTT 122
Triticum.monococcum1062pb —-ACGTCAA———CAGATGA—-TACTGAT—-GAAAATCT 56
Rattus.norvegicus1785pb —-CTGTCTC———TGAAGGG—-TACAAATCAGAGCAGGTCA 83
Zea.mays1236pb —-TAGCCGA———TCGATCG—-CCCAGCTC—GCCTGCC- 83
Oryza.sativa1272pb —-ATGCACC———AAAAACA-TG-TACAATTC—ATTTAGTT 117
Xenopus.laevis1188pb GCTTATGCTCCACCTCCACATGAAGAGATT-TCCCCATCA–ACATCTCT 119
Arabidopsis.thaliana1489pb TTTGAGGCGAT———TGGGTAAGCGATGCACATC—GTCTTCTC 114
Triticum.aestivum1585pb –CATCGCGGC———CAAGACGGCCTCCCACCTC—-CCTGTTC 115
* * *
Vers la fin de l’alignement :
Solanum.tuberosum1466pb —AAACCC—–TTCTACAGATGTCC——TGCA—-TAC—-T 1143
Triticum.monococcum1062pb —AGACTC—–TTCAGCAGATGCAA——AGGA—-TCC—-T 902
Rattus.norvegicus1785pb -CCACCGCC—–CCCACCAGATATACGACCTTTGGAGAGGTAC—-T 1391
Zea.mays1236pb -CCAAGCAC—–ACACACACACACACG—TAAGCACGAATACG-AGT 1012
Oryza.sativa1272pb —GGCCTC—–TCCTGGTACGGCGC—-CGAGGG———–T 1074
Xenopus.laevis1188pb -TGAAACCC—–TTCTACAGATG——–GAGC————T 1017
Arabidopsis.thaliana1489pb ATGAAACCC—–TACCCCATTGGAATCA–CAAGCA———–T 1255
2 http://www.ebi.ac.uk/Tools/msa/clustalw2/
6
Triticum.aestivum1585pb TCTGGCTCCGTTGATTTTGCCGAGTTTGAGCCCAAGCTTGTCTACTGAAT 1274
* * *
Solanum.tuberosum1466pb -GGCTGCAC—–ACCAAT-CAGCT——–CAGGGTC——TCC 1172
Triticum.monococcum1062pb TGACCACAG—–GC-AGT-CTGCC——–CGTGCAC——TTC 931
Rattus.norvegicus1785pb GGGCAGCCC—–ACCAG–CAGCTG——-CAGGAAGCTGATATCC 1427
Zea.mays1236pb TGGTAGCGG—–TC–AT-CAGCCC——-CGAGCGCACGGTGTAC 1047
Oryza.sativa1272pb TGGTAG-AA—–GCTAG—AGCTT——-AGCTAGC——— 1099
Xenopus.laevis1188pb CGACAGCAACGACTGCTAA—AGTTGC——CGAAAGC——— 1049
Arabidopsis.thaliana1489pb TAACCAGAA——–AAA-GAGTCAT——TGGTTTT——— 1281
Triticum.aestivum1585pb TTGTAGAAGAAGGATCCATCTCTGCCTTTCTTCTCAGACATAGTCATGCA 1324
*
Solanum.tuberosum1466pb TT————GCCTTAGG——AGAGT—-ACTTTAAACGTC- 1199
Triticum.monococcum1062pb TT————GTGATAAG——TGATT—-ACTCATCCCGGC- 958
Rattus.norvegicus1785pb TTAAACTGAGTCAGGCATCAAGA—-CTAAGC—-ACTCAGCAAGTG- 1468
Zea.mays1236pb ATA———–GCTTTCAG—–TAGATCG–AATTCCAGGCATG- 1078
Oryza.sativa1272pb —————TAGCGAG——AGAGTG–AGCTCAGCTAAGC- 1125
Xenopus.laevis1188pb ————–GCAGCAGA——-GATCCCTAATACTATAAAAG- 1077
Arabidopsis.thaliana1489pb —————–GTGATT—-TTGATTG—AGGTAACTATTG- 1306
Triticum.aestivum1585pb TCATGCT——–CCTCGAGAGTCTCTGAATGAGCACATGATCCATGG 1366
*
Solanum.tuberosum1466pb TTCG—–TGCTCTTA—–GCTCACTTTGGGC——–TGGTCGT 1231
Triticum.monococcum1062pb TTCG—–TGCCCTAA—–GTTCTCTTTGG-C——–T–TTGC 987
Rattus.norvegicus1785pb CTGGA—CTGGTTTGACTCTCGATTGCCCAAGCCAGCAGAAGTGGTAGT 1515
Zea.mays1236pb TCCA———TCAACAAGCAGTTTCTTC————TCGTCAT 1107
Oryza.sativa1272pb TTAATTAGCTGGCTTGAT—TGCTTGCTTTG———–TGGCTGG 1161
Xenopus.laevis1188pb TAGG———–GAT—–GTCCTTTTGATA———CGTCAC 1102
Arabidopsis.thaliana1489pb TCTG—–TATTTTTAT——TTACTGTATGACTCAGCGACGGTAAA 1345
Triticum.aestivum1585pb TTAATTAACAGGATCTAC—–ATCCTCCTG———–TGCTCAT 1400
* *
Cet alignement présente beaucoup de gap qui faussent l’interprétation. Ceci est dû au fait
que nos séquences appartiennent à des individus dont la taxonomie est totalement
différente. Nous avons aligné des séquences de grenouille, de blé, …
Nous allons reprendre cet alignement mais cette fois-ci avec les séquences du règne végétal
uniquement :
L’ordre des individus qui apparaissent dans le résultat de l’alignement multiple est le suivant :
1. Triticum aestivum
2. Oryza sativa
3. Zea mays
4. Arabidopsis thaliana
5. Solanum tuberosum
6. Triticum monococcum
gi|62736387|gb|AY914051.1| GCTTCTACACCACGGACTTCGACGAGATGGAGCAGCTGTTCAACGCCGAGATTAAC—A
gi|33943625|gb|AY346329.1| GCGGCGGCGCGGCGGCGTACGAGGAGGAGGAGGAGGAGGTTGAGGACGACGACGGCGGCG
gi|308044466|ref|NM_001196644.1| GCGTGGCCATGGAGGGCGACGACGACGGCCCGGAGTGGATGATG—GAGGTGGGCGGCG
gi|334185982|ref|NM_001203162.1| —————CCACAGGCTTATCAA-TGAGTTGTCTGGTTCCGATTCGAGCCCTA
gi|575417|emb|X82544.1| GATTCTTGAAGTCGAGAATTGCCTAGAGAA-CGAGATGCCTATTATGGAGAAAAGACTAG
gi|461682445|gb|JX424318.1| -ATGGCAGAGGCCAGCCCTAGAACAGAAAC-GTCAACAGATGATACTGATGAAAATCTTA
* : .. . . ** .. .
gi|62736387|gb|AY914051.1| AGCAGCTCAACCAGGACG————-AGTTCGACGCGCTGCTGCAGGAGTTCAAG
gi|33943625|gb|AY346329.1| GCGGCGGCGGCGGCGGCG————-GCGGCGGTGGGGGGCTCGGGGAGAAGAAG
gi|308044466|ref|NM_001196644.1| CGGGCGCCACAGGGAAGG————-GAAAAGGCGGCGCGCTGGACAAGAACAAG
gi|334185982|ref|NM_001203162.1| CGACTAACACAATCGAGAGATCACCTCCACCGGTTCAGTCTCTTTCGAGATTAGAAGAAA
gi|575417|emb|X82544.1| AGAATGAGATAGAGGAAC—CATCACAAGTGACTGTTGGAATGTCTAACAGATATGAAC
gi|461682445|gb|JX424318.1| TGCTTGAACCAGGGAATG—CTGCTCTTGCTGTTGTTTCTGACT—CTAGTGACAGAT
. .. : : .*
gi|62736387|gb|AY914051.1| ACGGACTACAACCAGACCCACTTCATCCGCAACCCCGAGTTCAAGGAAGCTGCCGACAAG
gi|33943625|gb|AY346329.1| CGGCGGCTGGCGGCGGAGC—AGGTGCGGGCGCTGGAGCGGAGCTTCGAGGCGGACAAC
gi|308044466|ref|NM_001196644.1| AAGCGCTTCAGCGAGGAGC—AGATCAAGTCTCTCGAGTCCATGTTCGCCACGCAGACC
7
gi|334185982|ref|NM_001203162.1| CCGTTGACGAAACCGAAGATGTTGTTGAGATTCAGAAACCGC———AGAATCATC
gi|575417|emb|X82544.1| CTGAAACAA—CTAAACGTATTGATAAGGTGCGTAGACGCC———TTGCACAAA
gi|461682445|gb|JX424318.1| CCAGAGACA—AAAACGGAGATCAAAAGACAATGCGTCGGC———TTGCTCAAA
. . … : : .. .: : *
gi|62736387|gb|AY914051.1| ATGCAGGGCCCGCTCCGCCAGATCTTCGTCGAGTTCCTCGAGCGCTCCTGCACCGCC—
gi|33943625|gb|AY346329.1| AAGCTGGACCCGGAGCGGAAGGCCCGGATCGCCCGCGACCTTCGCCTCCACCCTCGC—
gi|308044466|ref|NM_001196644.1| AAGCTGGAGCCGCGCCAGAAGCTGCAGCTGGCGCGGGAGCTCGGCCTGCAGCCGCGC—
gi|334185982|ref|NM_001203162.1| GAC———————————————————
gi|575417|emb|X82544.1| ACCGCGAGGCTGCTCGTAAAAGTCGTTTACGGAAGAAGGCCTATGTCCAGCAGTTGGAAA
gi|461682445|gb|JX424318.1| ATCGTGAGGCTGCTAGGAAAAGTCGTTTGAGGAAAAAGGCATATGTTCAACAATTGGAGA
.
gi|62736387|gb|AY914051.1| —GAGTTCTCCGGGTTCCTCCTCTACAAGGAGCTCGGCCGCAGGCT——CAAGAAA
gi|33943625|gb|AY346329.1| —CAGG———TCGCCGTCTGGTTCCAGAACCGCCGCGCGAG——GTGGAAG
gi|308044466|ref|NM_001196644.1| —CAGG———TCGCCATCTGGTTCCAGAACAAGCGCGCGCG——CTGGAAG
gi|334185982|ref|NM_001203162.1| ————GGCTCCCTGTTGATGATCAAGGGAAGAATCGGAATCGTGCTCCGTCGT
gi|575417|emb|X82544.1| ATAGTAAACTGAAGCTGCTTCAGTTGGAACAAGAACTAGAACGTAATAGACAACAGGGTC
gi|461682445|gb|JX424318.1| ACAGCAGGCTAAAGCTTACCCAGCTAGAGCAGGAGTTGCAACGAGCTCGTCAACAAGGCA
. : : .* . . *. .. .
gi|62736387|gb|AY914051.1| ACCAACCCGGTGGTGGCTGAGATCTTCTCGCTCATGTCCAGGGACGAGGCCCGGCACGCT
gi|33943625|gb|AY346329.1| ACCAAGCAGATCGAGCGCGACTTCGCCGCCCTCCGCTCCCGCCACGACGCCCTCCGCCTC
gi|308044466|ref|NM_001196644.1| TCCAAGCAGCTGGAGCGCGACTACTCCGCGCTCCGCGACGACTACGACGCGCTCCTCTGC
gi|334185982|ref|NM_001203162.1| CTGATCCGGTTGATTCTTCAGCTCCTGTTGTTGTTGATCCTAATCAGTATCATGCGATTC
gi|575417|emb|X82544.1| TGTATGTAGGTGATGGTTT—————AGATGCTAGTCAGATAGGTTGCTCTG
gi|461682445|gb|JX424318.1| TTTTTATATCTAGTTCAGC—————AGACCA–GTCCCATTCC——–
:: * .: :*
gi|62736387|gb|AY914051.1| GGGTTCTTGAACAAGGGGCTGTCCGACTTCAACCTGGCTCTGGACCTCGGCTTCTTGACC
gi|33943625|gb|AY346329.1| GAGTGCGAC—————————————————
gi|308044466|ref|NM_001196644.1| AGCTACGAG—————————————————
gi|334185982|ref|NM_001203162.1| TTAAGA—–GCAAGCTCGAGCTTGCTTGCGCTGCTGTTGCTCGTCGTGTGGGAACTGT
gi|575417|emb|X82544.1| GAACCGCAAATTCAGGAATAGCTTCTTTTGAAATGGAGTACGGCCATTGGGTGGAAGAGC
gi|461682445|gb|JX424318.1| –ATGAGTGGAAATGGGGCGTTGGCTTTTGACACAGAGTACGCACGGTGGTTGGAAGAAC
gi|62736387|gb|AY914051.1| AAGGCTAGGAAGTACACCTTCTTCAAGCCAGAGTTCATCTTCTACGCCACATACCTGTCC
gi|33943625|gb|AY346329.1| ——————GCCCTCCGCC——————————GC
gi|308044466|ref|NM_001196644.1| ——————TCCCTCAAGA——————————AG
gi|334185982|ref|NM_001203162.1| GAA——ACC——-GGAAGATTCGAGTGCTTCAGCTAGCAATCAAAAACAAGCT-
gi|575417|emb|X82544.1| AAG——ATAGACAAACAGATGATTTAAGGAATGCTCTGAACTCCCAAATGGGTGAAA
gi|461682445|gb|JX424318.1| ACA——ATCGACAAGTTAATGAGCTGAGAGCTGCAGTTAATGCTCATGCAGGCGATA
: .
gi|62736387|gb|AY914051.1| GAGAAGATCGGCTACTGGAGGTACATCACCATCTTCAGGCACCTAAAGG—CCAACCCG
gi|33943625|gb|AY346329.1| GA——————CAAGGACGCCCTCGCCGCCGAGATCGCCG—ACCTCCGG
gi|308044466|ref|NM_001196644.1| GA——————GAAGCACACGCTCCTCAAGCAGCTGGAGA—AGCTAGCC
gi|334185982|ref|NM_001203162.1| –CAAGGCTCCATTGTGGCACAAACCTCACCTGGTGCTTCATCTGTTAGATTTTCTCCCA
gi|575417|emb|X82544.1| TAGAATTGCGCATTCTTGTCGAGAGTT–GCTTGAATCAC-TATTTTGATCTCTTTCGCT
gi|461682445|gb|JX424318.1| CTGAGCTGCGTAGTGTTGTTGAGAAGA–TCATGTCACAC-TATGATGAGATTTTTAAGC
:. .: .* . :.
gi|62736387|gb|AY914051.1| GAGTACCAGGTGTACCCCATCTTCAAGTACTTCGAGAACTGGTGTCAGGACGAGAACCGG
gi|33943625|gb|AY346329.1| GACAGGGTGGACGGCCAGATGTCC———GTCAAGCTGGAGGCCGTGGCCG—CG
gi|308044466|ref|NM_001196644.1| GAGATGCTGCACGAGCCGCGGGGCAAGTACAGCGGCAATGCGGACGCCGCCGGCG—CC
gi|334185982|ref|NM_001203162.1| CAACAAGCACGCAAAAGAAACCTGATGTTC—CAGCCAGACAAACTAGTATTTC—AT
gi|575417|emb|X82544.1| TGAAAGCTACAGCCGCAAATGCTGATGTTC—TCTACCTTATGTCTGGCACATG—–
gi|461682445|gb|JX424318.1| AAAAAGGAAATGCAGCCAAAGCAGATGTCT—TTCATGTGTTATCAGGCATGTG—–
. . . . . . *
gi|62736387|gb|AY914051.1| CATGGCGATTTCTTCTCCGCGCTGCTCAAGGCGCAGCCGCAGTTCCTCAATGACTGGAAG
gi|33943625|gb|AY346329.1| GACGAACACCAGCCGCCTCCGCCGCCGCCGCCGCCGCCACTGGCGTATAACAGCAAGGTG
gi|308044466|ref|NM_001196644.1| GGGGACGACGT————–GCGCTCGGGCGTCGGCGGCATGAA-GGACGAGTTT
gi|334185982|ref|NM_001203162.1| CACGAGATGATTCTGATGACGATGATCTTGATGGAGACGCAGATAAT————-
gi|575417|emb|X82544.1| —GAAGACATCAGCTGAGCGTTTCTTCTTGTGGATTGGGGGATTT————–
gi|461682445|gb|JX424318.1| —GAAGACACCAGCTGAGAGGTGTTTCCTATGGCTTGGAGGTTTC————–
*. : * . . *
gi|62736387|gb|AY914051.1| GCCAAGCTCTGGTCACGCTTCTTCTGCCTCTCGGTGTATATAAC———CATGTAC
gi|33943625|gb|AY346329.1| GTGGACGGCTCGACGGACAGCGACTCGAGCGCGGTGTTCAACGAGGAGGCGTCGCCGTAC
gi|308044466|ref|NM_001196644.1| GCAGACGCCGGGGCCGCGCCCTACTCGTCCGAGGGCGGTGGCGGTGGCAAGTTCGCGCAC
gi|334185982|ref|NM_001203162.1| ————-GGAGATCCTACTGATGTGAAGCGTGCTAGGA———–GGATG
gi|575417|emb|X82544.1| ————-CGCCCCTCCGAACTTCTAAAGGTTCTCACGC———–CACAT
gi|461682445|gb|JX424318.1| ————-CGACCTTCTGAGCTTTTAAAGCTTCTTTCGA———–CCCAA
* . ..* . :
8