next up previous contents
Next: Ausgabedateien Up: pfastDNAml (Bedienungsanleitung und Beschreibung) Previous: Programmaufruf

Format der Eingabedaten

Zur Übergabe der Sequenzdaten und Parameter wird eine Eingabedatei verwendet. Die Eingabedatei entspricht dem normalerweise bei PHILIP-Programmen verwendeten Format (Felsenstein, 1993). In der einfachsten Form enthält sie nur alignierte Sequenzen verschiedener Organismen sowie deren Anzahl und die Zahl der Spalten des Alignments. Diese können in einem ,,interleaved``[*] oder sequentiellen Format vorliegen. Am Beginn der ersten Zeile findet man immer zwei Zahlen, die die Anzahl der benutzten Spezies und an zweiter Stelle die Anzahl der Spalten im Alignment angeben. Danach folgen die Sequenzen. Die ersten zehn Buchstaben enthalten den Namen der Spezies oder Sequenz, alle darauffolgenden Zeilen enthalten die Sequenz, bei der nur Buchstaben, Punkte, Fragezeichen und Striche verwendet werden. Ziffern und alle Arten von Leerzeichen (wie z.B. Tabstops) werden ignoriert. Im ,,interleaved`` Format, dem Standardformat, das der Ausgabe vieler Alignmentprogramme gleicht, wird jeweils eine Zeile für jede Spezies in Blöcken nacheinander abgelegt.

    5    42
  Sacc.cerev   -UAUCUGGUU GAUCCUGCCA GUAGUCAUAU GCUUGUCUCA AA
  Gall.gallu   -NNCCNGGUU GAUCCUGCCA GUAG-CANNN GCUNGUCUCA AA
  Homo_sapie   -UACCUGGUU GAUCCUGCCA GUAG-CAUAU GCUUGUCUCA AA
  Caen.elega   -UACCUGAUU GAUUCUGUCA GC-GCGAUAU GCUCAAGUAA AA
  Dros.melan   -AUUCUGGUU GAUCCUGCCA GUAGUUAUAU GCUUGUCUCA AA

  GUAGUCAUAU GCUUGUCUCA AA
  GUAG-CANNN GCUNGUCUCA AA
  GUAG-CAUAU GCUUGUCUCA AA
  GC-GCGAUAU GCUCAAGUAA AA
  GUAGUUAUAU GCUUGUCUCA AA

Zwischen den einzelnen Blöcken kann jeweils eine Leerzeile eingefügt werden.

Im sequentiellen Format folgt nach dem Namen erst die vollständige Sequenz dieser Spezies, bevor die nächste Spezies aufgelistet wird:

    5    42
  Sacc.cerev   -UAUCUGGUU GAUCCUGCCA 
  GUAGUCAUAU GCUUGUCUCA AA
  Gall.gallu   -NNCCNGGUU GAUCCUGCCA 
  GUAG-CANNN GCUNGUCUCA AA
  Homo_sapie   -UACCUGGUU GAUCCUGCCA 
  GUAG-CAUAU GCUUGUCUCA AA
  Caen.elega   -UACCUGAUU GAUUCUGUCA 
  GC-GCGAUAU GCUCAAGUAA AA
  Dros.melan   -AUUCUGGUU GAUCCUGCCA 
  GUAGUUAUAU GCUUGUCUCA AA

Die Sequenzen dürfen die in Tabelle A.1 angegebenen Buchstaben enthalten. Die Bedeutungen dieser Buchstaben sind ebenfalls in Tab. A.1 beschrieben. Bei den Buchstaben ist hier sowohl Groß- als auch Kleinschreibung erlaubt.


 
Tabelle:   Die in der Eingabedatei für pfastDNAml berücksichtigten Buchstaben zur Bescheibung von Sequenzdaten und deren Bedeutung
A Adenin  
G Guanin  
C Cytosin  
T Thymin  
U Uracil  
Y Pyrin (C, T)
R Pyrimidin (A, G)
W schwache Bindung (,,weak``) (A, T)
S starke Bindung (,,strong``) (G, C)
K Keto (T, G)
M Amino (C, A)
B nicht A (C, G, T)
D nicht C (A, G, T)
H nicht G (A, C, T)
V nicht T (A, C, G)
X,N,? unbekannt (A, C, G, T)
O,- Deletion, Lücke  

Neben den Sequenzdaten können noch weitere Parameter und Optionen nach den Zahlenangaben und vor den Sequenzdaten angegeben werden. Die Optionen folgen nach den Sequenzdaten auch in der ersten Zeile. Zu den Optionen gehörige Parameter folgen in den anschließenden Zeilen.

Folgende Optionen und Parameter sind möglich:

Bei den optionalen Parameterzeilen ist zu beachten, daß sie nicht als letzte vor den Sequenzdaten stehen dürfen, da sie dann vom Programm eventuell nicht erkannt werden. Es kann mit der T-Option und der dann obligatorischen Parameterzeile ,,T 2.0`` oder einer anderen Rate, falls bekannt, vor den Sequenzdaten Abhilfe geschaffen werden.


next up previous contents
Next: Ausgabedateien Up: pfastDNAml (Bedienungsanleitung und Beschreibung) Previous: Programmaufruf
Heiko Schmidt
7/17/1997