Bei den distanzbasierten Methoden wird für alle Sequenzpaare eine evolutionäre Distanz berechnet. Im einfachsten Fall ist dies die Hammingdistanz (Cormen et al., 1990), bei der die Anzahl der sich unterscheidenden Basen zweier Sequenzen aufsummiert wird. Die errechnete Distanzmatrix dient als Grundlage zur Konstruktion des Stammbaumes. Hierfür werden zumeist Clustering-Verfahren verwendet (Kap. 1.4.1). An dieser Methode wird kritisiert, daß die vorhandenen Sequenzdaten zur Berechnung des Baumes auf die Distanzen reduziert werden. (Fitch and Margoliash, 1967; Saitou and Nei, 1987)
Wichtige Vertreter der merkmalsbasierten Methoden sind
die Maximum-Parsimony-Methode
und der Maximum-Likelihood-Ansatz.
Das Maximum-Parsimony-Verfahren
konstruiert für alle internen Knoten eines vorgegebenen Stammbaumes
Sequenzen, die die von diesen Knoten repräsentierten Organismen
gehabt haben könnten. Diese Sequenzen werden so konstruiert,
daß die Sequenzen entlang des Baumes, während der vom Stammbaum
vorgegebenen evolutionären Entwicklung, möglichst wenigen
Mutationen unterworfen sind. Die Gesamtsumme aller im Baum nötigen
Mutationen ist dann das Maß für die Qualität des Baumes.
Von der Maximum-Parsimony-Methode wird versucht,
aus allen möglichen Stammbäumen denjenigen zu finden, für den
die geringste Anzahl an Mutationen nötig ist.
Diese Methode wurde ursprünglich für morphologische Daten entworfen
und hat sich bewährt, wenn sich die beobachteten Merkmale nur selten
ändern. Das gilt im allgemeinen für morphologische Daten.
Diese Methode scheitert jedoch, wenn die beobachteten Merkmale hochvariabel
sind oder sehr lange Kanten im gesuchten Baum vorkommen.
(Swofford and Olsen, 1990; Waterman, 1995)
Der anerkannteste Ansatz basiert auf der von Fisher (1912) eingeführten
Maximum-Likelihood-Methode (Kreyszig, 1975).
Die Maximum-Likelihood-Methode wird benutzt, um unbekannte
Parameter zu schätzen, von denen eine bekannte Wahrscheinlichkeitsfunktion
für einen stochastischen Prozeß abhängt.
Mit dieser Methode werden dann anhand einer festen
Stichprobe, in unserem Fall der Sequenzdaten, die unbekannten Parameter so
geschätzt, daß der Wert der Wahrscheinlichkeitsfunktion,
bei fester Stichprobe als Likelihood-Funktion bezeichnet,
sein Maximum erreicht.
Die in der Stammbaumanalyse zu schätzenden unbekannten Parameter
sind die Kantenlängen in einem vorgegebenen Baum.
(Goldman, 1990; Kreyszig, 1975)
Diese Methode wird in dieser Arbeit verwendet und ist in Kap. 4.2 ausführlich beschrieben.
Der Vorteil dieser Methode liegt darin, daß unter Berücksichtigung eines expliziten Evolutionsmodells bei der Berechnung der Stammbäume die vollständigen Daten in die Analyse mit eingehen. Der Hauptnachteil der ML-Methode ist, daß enorme Rechenzeiten nötig sind, um die große Anzahl der möglichen Stammbäume zu überprüfen, die auch bei heuristischen Methoden meist exponentiell mit der Anzahl der benutzten Spezies wächst. (Felsenstein, 1981; Swofford and Olsen, 1990)
Die Ergebnisse der Stammbaumanalysen hängen sehr von der Qualität der benutzten Alignments ab. Daher ist es wichtig, Alignments zu benutzen, die möglichst fehlerfrei sind. Über dieses Problem wird noch später im Kapitel 1.8 über rRNA-Sequenzen gesprochen.