next up previous contents
Next: Das Pulley-Prinzip Up: Die Maximum-Likelihood-Methode zur Rekonstruktion Previous: Die Maximum-Likelihood-Methode zur Rekonstruktion

Berechnung des Likelihood-Wertes eines Baumes

Für die Berechnung des Likelihood-Wertes benötigen wir ein Evolutionsmodell und eine hieraus resultierende Wahrscheinlichkeitsfunktion Pij(t). Hier wird das in Kap. 1.4.2 beschriebene generalisierte 2-Parameter-Modell von Kishino and Hasegawa (1989) verwendet. Als Stichprobe zur Berechnung dient ein vorgegebener Datensatz in Form eines Alignments der DNA-Sequenz. Die einzelnen Stichproben sind hier die Spalten des Alignments. Zusätzlich wird ein gegebener Stammbaum als Hypothese (Goldman, 1990) in der Analyse verwendet.

Wie schon oben erwähnt, gibt die Funktion Pij(t) die Wahrscheinlichkeit an, mit der eine Base aus dem Zustand i in einer Zeitspanne t in einen Zustand j übergeht. Die Zustände i und j entsprechen dabei einer der vier organischen Basen Adenin (A), Cytosin (C), Guanin (G) oder Thymin (T) bzw. Uracil (U) bei RNA-Sequenzen.


 
Abbildung:   Beispielbaum für die Berechnung von Likelihood-Werten phylogenetischer Stammbäume
\begin{figure}
\begin{displaymath}
\beginpicture \scriptsize
\setcoordinatesyste...
 ...ut {8} at 41 19
\put {$v_8$} at 33 13 

\endpicture\end{displaymath}\end{figure}

Die Berechnung des Likelihood-Wertes für eine Phylogenie soll hier anhand eines Beispielstammbaumes (Abb. 4.1) gezeigt werden.

Zuerst wird der Likelihood-Wert eines Baumes für eine Spalte x im Sequenzalignment berechnet. Dieses geschieht rekursiv; daher definieren wir für die Berechnung des Likelihood-Wertes eines Teilbaumes, der mit dem Knoten k innerhalb der Phylogenie mit dem Sequenzstatus sk und den Nachfolgern i und j mit deren möglichen Sequenzstatus si und sj beginnt, wie folgt:  
 \begin{displaymath}
L_{s_k}^{(k)}(x) = \left(\sum_{s_i} P_{s_ks_i} (v_i) L_{s_i}...
 ...ft(\sum_{s_j} P_{s_ks_j} (v_j) L_{s_j}^{(j)}\right)
 \mbox{.}
 \end{displaymath} (4)
Handelt es sich bei dem Knoten k um ein Blatt im Stammbaum, so ist der Likelihood-Wert, d.h. die Wahrscheinlichkeit, daß k an dieser Stelle der Sequenz die Base sk besitzt, wie folgt definiert:  
 \begin{displaymath}
L_{s_k}^{(k)}(x) = \left\{\begin{array}
{l}
 1\mbox{, falls ...
 ...gnment vorgegeben} \  0\mbox{ sonst} \  \end{array} \right.
 \end{displaymath} (5)
Mit den Gleichungen 4.6 und 4.7 wird die Wahrscheinlichkeit berechnet, daß sich an dieser Sequenzposition des Organismus k die Base sk befindet bzw. befunden hat.

Hieraus ergibt sich für die Berechnung des Likelihood-Wertes des gesamten Stammbaumes an dieser Sequenzposition:
\begin{displaymath}
L^{(0)}(x) = \sum_{s_0} L_{s_0}^{(0)}\mbox{.}
 \end{displaymath} (6)

Zur Berechnung des Likelihood-Wertes des Baumes über die gesamte Stichprobe, bestehend aus den einzelnen Proben $x_1, x_2, \ldots, x_n$, werden die Likelihood-Werte für alle n Spalten im Alignment miteinander multipliziert:  
 \begin{displaymath}
L = \prod_{x_n}L^{(0)}(x_n)\mbox{.}
 \end{displaymath} (7)
Wir verwenden anstelle des Likelihood-Wertes L dessen natürlichen Logarithmus, den sogenannten Log-Likelihood:  
 \begin{displaymath}
\ln L = \sum_{x_n} \ln L^{(0)}(x_n)\mbox{.}
 \end{displaymath} (8)
Dadurch wird das Differenzieren von Produkten aufgrund der Rechenregeln für Logarithmen

(mit $g, h \in \mathset{R}_+^\ast$ und $r \in \mathset{N}$) durch das im allgemeinen einfachere Differenzieren von Summen ersetzt.

Durch die Gleichungen 4.9 bzw. 4.10 wird die Wahrscheinlichkeit berechnet, mit der die verwendeten Sequenzdaten den vorliegenden Baum mit seinen Kantenlängen unterstützen.

Die oben beschriebene Berechnung hängt von uns unbekannten Parametern, den Kantenlängen, ab. Sinn der Maximum-Likelihood-Methode ist, solche unbekannten Parameter anhand einer Stichprobe zu schätzen. Betrachten wir nun die Stichprobe als fest, dann hängt die Likelihood-Funktion nur noch von den Kantenlängen ab. Diese sollen so approximiert werden, daß der Likelihood-Wert des vorgegebenen Baumes sein Maximum erreicht. Wie diese Parameter geschätzt werden, wird nachfolgend beschrieben.


next up previous contents
Next: Das Pulley-Prinzip Up: Die Maximum-Likelihood-Methode zur Rekonstruktion Previous: Die Maximum-Likelihood-Methode zur Rekonstruktion
Heiko Schmidt
7/17/1997