Applied Bioinformatics

Exercises

Lösungen

BLAST-Quiz: Welche der folgenden Aussagen stimmen? Begründe jeweils warum sie stimmen bzw. nicht stimmen
- Kleinere E-Values stehen für ähnlichere Sequenzen.
  Wahr. E bezeichnet den Erwartungswert fuer die Anzahl an Sequenzen mit gleichem oder höherem Score, die man in einer Datenbank voll zufälliger Sequenzen gleicher Größe finden würde, d.h. die Größe der jeweiligen Datenbank wird einbezogen. E-Values größer 1 gelten allgemein als statistisch unbedeutend. In der Praxis können aber auch E-Values wie 0.0001 (1e-4) biologisch irrelevante Treffer enthalten.
- 1e-12 ist kleiner als 2e-20
  Unwahr.
  Sehr kleine E-Values werden in exponentieller Notation angegeben. 2e-20 bedeutet 2 mal 10 hoch -20, oder 2*10^-20. (E-Values kleiner als e-100 werden ohne Faktor angegeben, und bei noch kleineren Werten um e-180 wird gerundet)
- Zwei lange Sequenzen mit 50% Ähnlichkeit erhalten einen kleineren E-Value als zwei kurze Sequenzen mit der gleichen Ähnlichkeit.
  Die Wahrscheinlichkeit, dass der längere Treffer mit gleichem Ähnlichkeitswert zufällig ist, ist geringer als bei der kürzeren. Daher ist der E-Value für die längere Sequenz kleiner.
- Kleinere Scores bedeuten ähnlichere Sequenzen
  Unwahr
  Das Scoring-System bewertet gleiche Charakter (Buchstaben) in den Spalten der alignierten Sequenz positiv und ungleiche Charakter negativ. Gaps tragen ebenfalls negativ zum Score bei.
- Der Score wird gebildet aus: Matches und Mismatches in alignierten Bereichen der Sequenzen, Werten aus der verwendeten Vergleichsmatrix (z.B. Blosum), minus einer Strafe für Gaps.
  Wahr.
  Das ist die exakte Beschreibung wie man den Score für ein finales Alignment berechnet. Das finale Alignment wird durch Maximierung des Scores gebildet.
  
  Beispiel
- Ein Gap steht für eine Deletion in der lückenhaften Sequenz
  Unwahr.
  Ein Gap kann auch für eine Insertion in der anderen Sequenz stehen.
- Low-complexity Bereiche in Sequenzen stehen für eine ungleiche Aminosäurezusammensetzung in einer Teilsequenz der gesuchten Sequenz
  Unwahr
  Eine Low-complexity Region ist ein Bereich, indem die Zusammensetzung der Sequenz stark »verzerrt« ist, d.h. häufige Wiederholgungen einzelner Aminosäuren oder kurzer Sequenzen (Repeats), was auch als Überrepräsentation bezeichnet wird. Solche Regionen können die BLAST-Suche beeinträchtigen, weswegen sie meist »maskiert« werden.
PSI-Blast
Motive als Logo-Plot darstellen
Im Plot sollte der Bereicht -20..+10 bezogen auf den Translationsstarts (Position 0) gezeigt werden. Da der Translationsstart an Position 30 des Alignments gegeben ist, muss bei Logo-Range also auf 11 – 41 eingestellt werden.
- ATG tritt am häufigsten als Startcodon auf.
- Neben dem Startcodon ist am deutlichsten die Ribosombindestelle (Shine-Dalgarno-Sequenz) in der Region -12..-8 zu erkennen.
- Unterschiede beider Logo-Plots:
  - Die RBS ist bei R. solanacearum deutlich schwächer
  - R. solanacearum zeigt eine Präferenz zu Cytosin an Position -1 und Guanin an -2
  - TTG tritt bei R. solanacearum häufiger als Startcodon auf als bei E. coli
  - E. coli zeigt eine deutlicher Präferenz zu Adenin an Position +1
- Dazu einen Haken bei Frequency Plot machen. Die Darstellung ist etwas unübersichtlicher, die Signale sind nicht so deutlich zu erkennen.
Folgende Nukleinsäure-Sequenzen seien experimentell als funktionales Motiv ermittelt worden:
```
GAATAC
GACAAC
GGTTAC
GTTAAC
CGATCG
CATACG
CAGTGG
CTTAGG
```
- Im Sequenz-Profil werden jeweils die (absoluten) positionsabhängigen Häufigkeiten der Nukleotide angegeben (fi,pos)
  
  1 2 3 4 5 6
  
  A 0 4 2 4 4 0
  
  C 4 0 1 0 2 4
  
  G 4 2 1 0 2 4
  
  T 0 2 4 4 0 0
  
  Die positionsabhängigen Wahrscheinlichkeiten pi,pos entsprechen den relativen Häufigkeiten:
  pi,pos=fi,pos/N
  mit N=8
  Der Informationsgehalt einer Position Hpos entspricht der Summe:
  Hpos = Σi -pi,pos × log2 pi,pos
  Berechnung für eine »Zelle« (beispielsweise A an Position 2):
  -4/8 × log2 4/8 = 0,5
  Hpos (Informationsgehalt der Positionen):
  
  0 + 0,5 + 0,5 + 0 = 1
  0,5 + 0 + 0,5 + 0,5 = 1,5
  0,5 + 0,375 + 0,375 + 0,5 = 1,75
  
  Positionen 1, 4 und 6 da hier die geringste Unsicherheit zu beobachten ist (geringster Informationsgehalt) ⇒ diese Positionen sind am stärksten konserviert
  Wörterbuchdarstellung von zwei Sequenzen:
  
  Tupel Sequenz 1 Sequenz 2
  
  AGA 4
  
  AGC 5
  
  ATA 3 2, 6
  
  CAT 2
  
  GAT 1, 5
  
  GCA 1, 6
  
  TAG 4 3
  - Die Wörterbücher geben direkt an, welche 3-Tupel (Teilsequenzen der Länge 3) in jeder Sequenz vorhanden sind; gemeinsame Teilsequenzen lassen sich daran identifizieren, dass ihnen in beiden Wörterbüchern mindestens eine Position zugeordnet ist.
    
    Die Teilsequenzen ATA, TAG kommen in beiden Sequenzen vor.
  - Eine Teilsequenz der Länge 4 besteht aus 2 an den Positionen n und n+1 direkt aufeinander folgenden 3-Tupeln; für alle solche Tupelpaare aus Sequenz 1 schauen, ob die beteiligten Tupel in Sequenz 2 ebenfalls direkt hintereinander (also an Positionen k und k+1) liegen.
    
    Tupelpaar ATA (3) / TAG (4) aus Sequenz 1 kommt in Sequenz 2 an Positionen 2 und 3 vor, ATAG ist also das (einzige) gemeinsame Motiv der Länge 4.
  - Sequenz 1: GCATAGCA — Sequenz 2: GATAGATA

	1	2	3	4	5	6
A	0	4	2	4	4	0
C	4	0	1	0	2	4
G	4	2	1	0	2	4
T	0	2	4	4	0	0

Tupel	Sequenz 1	Sequenz 2
`AGA`		4
`AGC`	5
`ATA`	3	2, 6
`CAT`	2
`GAT`		1, 5
`GCA`	1, 6
`TAG`	4	3

Please direct questions and comments to Fabian Schreiber.

Applied Bioinformatics [Homology search]

Lösungen