next up previous contents
Next: Maximum-Likelihood-Methode Up: Diskussion Previous: Bewertung von Bootstrap-Analysen

Gewichtung von Alignments

Mit der Gewichtung der Spalten der benutzten Alignments sollte versucht werden, stark variable Positionen im Alignment durch niedrigere Gewichtung für die Analyse ein geringeres Gewicht zu verleihen und konstante Regionen mit wenigen Mutationen höher zu gewichten. Hierdurch sollten eventuelle Artefakte, die durch hochvariable Basen hervorgerufen werden können, möglichst umgangen werden. Ein krasser Fall solcher Artefakte ist in dem Aktinstammbaum mit allen Codon-Positionen (Abb. 6.2) zu beobachten, in dem z.B. alle tierischen Organismen, im Gegensatz zur Analyse mit nur den ersten beiden Positionen (Abb. 6.1) über den ganzen Stammbaum verteilt wurden.

Außerdem sollte untersucht werden, ob sich die Gewichtung positiv auf die Auflösung der internen Verzweigungspunkte im Baum auswirkt, wenn die Verzweigungspunkte durch kurze Kanten miteinander verbunden sind.

Bei der Gewichtung des Aktinalignments (Abb. 6.4) ließ sich in keiner Weise eine Verbesserung der Auflösung der internen Verzweigungspunkte feststellen. Nur monophyletische Gruppen, die schon bei der ungewichteten Analyse der ersten zwei Codon-Positionen durch lange Kanten von den anderen getrennt waren, blieben nach der Berechnung mit den gewichteten, vollständigen Sequenzdaten monophyletisch.

Hieraus läßt sich schließen, daß die 1/S-Gewichtungsmethode nicht geeignet ist, um aus der dritten Codon-Position der Aktinsequenzen noch verwertbare Information herauszufiltern. Dies liegt wahrscheinlich an den, schon im Ergebnisteil angeführten, großen Schwankungen des G+C-Gehalts an der dritten Codon-Position der verschiedenen Organismen.

Bäume, die mit dem Plastiden-Datensatz plast1 und unterschiedlichen Gewichtungen berechnet wurden (Abb. 6.5, 6.9, 6.10 und 6.11), zeigten ebenfalls keine erkennbaren Verbesserungen. In erster Linie werden die Teilbäume der Rhodophyten und der Cyanobakterien, je nach Wahl der Anzahl der Gewichte, umgruppiert oder aufgelöst. Die interessanteste Änderung ist der Tausch der Abzweigungspunkte von Cyanellen und Chloroplasten bei 10 Gewichtsklassen.

Dieser Fall tritt beim Datensatz plast2 nicht auf. Hier sind die beiden Ergebnisbäume nahezu identisch (Abb. 6.12 und 6.14).

Zieht man nun die Ergebnisse der Bootstrap-Analysen hinzu, so zeigt sich, daß sich die gefundenen Bootstrap-Werte monophyletischer Gruppen in mittels der gewichteten Daten berechneten Bäumen verringern. D.h. daß diese Gruppen nicht so häufig monophyletisch gruppiert werden. Dies läßt den Schluß zu, daß auch hier die Gewichtung mit der 1/S-Gewichtung eher zu einer Verschlechterung der Ergebnisse führt.

Weitere Probleme dieser Methode lassen sich diskutieren. Betrachtet man die Verteilung der Anzahl der Basen auf die verschiedenen Gewichte bei 10 Gewichtsklassen, so fällt auf, daß die Gewichte 2 bis 4 nicht belegt sind. Dies ist normal, da die höchste Gewichtsklasse für genau eine Mutation (S=1) im MP-Baum steht, und durch den Verlauf der Gewichtungsfunktion 1/S werden Spalten mit S=2 Mutationen auf die Gewichtsklasse 5 verteilt. So kommt es eventuell zu einer Überbewertung der Spalten im Alignment, die nur einem Mutationsschritt im MP-Baum unterworfen waren. Eventuell müßte eine mehr lineare Gewichtungsfunktion ausprobiert werden; eine solche war allerdings in den zur Verfügung stehenden Programmen nicht angeboten.

Ein anderes Problem ist die starke Abhängigkeit der Gewichtung von einem vorgegebenen Baum, der in den hier durchgeführten Analysen immer aus einer vorher durchgeführten Maximum-Likelihood-Berechnung stammte. Hier wurde also ein mit der ML-Methode berechneter Baum benutzt, um, basierend auf diesem, durch Gewichtung die Aussagekraft der Daten zu verstärken, um einen neuen besseren ML-Baum zu berechnen. Diese Strategie ist fragwürdig, selbst wenn sie häufig angewendet wird, da nicht gesagt ist, daß sich das erhaltenene Ergebnis verbessert.


   
Abbildung:   Zwei verschiedene phylogenetische Bäume mit einer Sequenzposition des Alignments an den Blättern. (a) wenig variabel; (b) hoch variabel
\begin{figure}
\centering
\hfill
\subfigure[]{
\beginpicture \scriptsize
 \setco...
 ...60 20 /
 \plot 20 20 40 5 /
 \plot 60 20 40 5 /
\endpicture}
\hfill~\end{figure}

Der Vorteil der Benutzung eines Baumes gegenüber der Benutzung der reinen Sequenzdaten für die Gewichtung ist einfach zu erklären. Betrachtet man die Bäume in Abb. 6.17, so läßt sich leicht erkennen, daß die im Baum dargestellte Sequenzposition in Abb. 6.17a weit weniger variabel ist, als die Sequenzposition in Abb. 6.17b. In Abb. 6.17a könnte es z.B. sein, daß die Base A hochspezifisch für die eine monophyletische Gruppe ist und C für die andere, während in Abb. 6.17b die Base möglicherweise keine Rolle für die Funktion spielt. Auf Sequenz- bzw. Alignmentebene unterscheiden sich die beiden Fälle allerdings nicht, d.h. die Spalte enthält viermal A und viermal C. In solchen Fällen müssen Methoden scheitern, die die Variabilität und damit die Gewichtung anhand der Sequenzen berechnen. Auf der anderen Seite stellt sich das Problem, woher man für eine solche Gewichtung einen Baum bekommen soll, der möglichst die wahre Information über den Verlauf der Evolution enthält, den wir aber nicht kennen, sondern nach der Gewichtung hoffen besser schätzen zu können. Dieses Dilemma ist mit den gegebenen Mitteln nicht lösbar.

Es kann der Schluß gezogen werden, daß zwar die Notwendigkeit für eine Art der Gewichtung gegeben ist, um die Artefakte möglichst klein zu halten, die aus der unterschiedlichen Variabilität der Sequenzteile entstehen können. Andererseits bietet die hier untersuchte Methode, eine Gewichtung zu erhalten, keine sehr gute Aussicht auf eine verbesserte Ausnutzung der zugrundeliegenden Daten, da sie selbst mit Fehlern behaftet ist.


next up previous contents
Next: Maximum-Likelihood-Methode Up: Diskussion Previous: Bewertung von Bootstrap-Analysen
Heiko Schmidt
7/17/1997