Applied Bioinformatics [Homology search]

Solutions

  1. BLAST-Quiz: Welche der folgenden Aussagen stimmen? Begründe jeweils warum sie stimmen bzw. nicht stimmen
    • Kleinere E-Values stehen für ähnlichere Sequenzen.
    • 1e-12 ist kleiner als 2e-20
    • Zwei 50% ähnliche, lange Sequenzen erhalten einen kleineren E-Value als zwei 50% ähnliche, kurze Sequenzen
    • Kleinere Scores bedeuten ähnlichere Sequenzen
    • Der Score wird gebildet aus: Matches und Mismatches in alignierten Bereichen der Sequenzen, Werten aus der verwendeten Vergleichsmatrix (z.B. Blosum), minus einer Strafe für Gaps.
    • Ein Gap steht für eine Deletion in der lückenhaften Sequenz
    • Low-complexity Bereiche in Sequenzen stehen für eine ungleiche Aminosäurenzusammensetzung in einer Teilsequenz der gesuchten Sequenz
  2. PSI-Blast

    Die Stärken von PSI-Blast sind bei der Suche nach verwandten Sequenzen mit niedriger Sequenzidentität. PSI-BLAST basiert auf einer sog. Positionsgewichtsmatrix, die im Laufe mehrerer Iterationen berechnet wird.

    Um ein Gefühl für die Arbeitsweise von PSI-BLAST zu bekommen, kannst du das folgende Aufgabe lösen: Lipocaline bilden eine Proteinfamilie mit sehr geringer Sequenzähnlichkeit, oftmals sogar unter 20%. Unten ist die Proteinsequenz des Major horse allergen-Proteins aus der Proteindatenbank (PDB) gegeben. Versuche durch Anwendung von PSI-BLAST beim NCBI andere Lipocaline in der PDB zu finden.

    Beachte auch, dass sämtliche Ergebnisse im gleichen Fenster angezeigt werden und somit Ergebnisse aus vorherigen Iterationsrunden nicht mehr zu sehen sind. Jeder Iterationsschritt sollte weniger als eine Minute dauern. Wenn keine Sequenzen mehr neu dazukommen oder verworfen werden, wird sich die Positionsmatrix nicht mehr ändern und damit ändern sich auch die Ergebnisse nicht mehr.

    • Wie wird die Ähnlichkeit der Retinol- und Bilin-bindenden Proteine nach der ersten Iteration eingestuft?
    • Wie ändert sich die berechnete Ähnlichkeit im Zuge mehrerer Iterationen?
    • Nach wieviele Iterationen ist das der Fall?
    >1ew3_A major horse allergen
    VAIRNFDISKISGEWYSIFLASDVKEKIEENGSMRVFVDVIRALDNSSLYAEYQTKVNGE
    CTEFPMVFDKTEEDGVYSLNYDGYNVFRISEFENDEHIILYLVNFDKDRPFQLFEFYARE
    PDVSPEIKEEFVKIVQKRGIVKENIIDLTKIDRCFQLRG
    
  3. Motive als Logo-Plot darstellen
    Erstellen Sie ein Logo-Plot für die TIS (translation initiation site)-Region der Organismen Escherichia coli und Ralstonia solanacearum. Dazu sind Ihnen zwei Dateien mit Sequenzalignments gegeben (s.u.). Die Translationsstarts befinden sich jeweils an Position 31. Im Plot soll der Bereicht -20..+10 bezogen auf den Translationsstarts (Position 0) gezeigt werden.
    • Welches Startcodon tritt am häufigsten auf?
    • Welches Motiv ist neben dem Startcodon am deutlichsten zu erkennen?
    • Wie unterscheiden sich die Logo-Plots beider Organismen?
    • Erstellen Sie für beide Sequenzen Logo-Plots basierend auf den Häufigkeiten und vergleichen Sie die Plots mit den vorigen.

    Eingabedateien
  4. Folgende Nukleinsäure-Sequenzen seien experimentell als funktionales Motiv ermittelt worden:

    GAATAC
    GACAAC
    GGTTAC
    GTTAAC
    CGATCG
    CATACG
    CAGTGG
    CTTAGG
    
    • Erstellen Sie aus den Sequenzen ein Sequenz-Profil.
    • Berechnen Sie den Informationsgewinn der ersten drei Profilposition.
      Hinweis:
      log2 X = ln X/ln 2, wobei ln den natürlichen Logarithmus bezeichnet
    • Welche Profil-Position(en) des gesamten Profils ist/sind Ihrer Meinung nach am aussagekräftigsten für die Identifizierung weiterer Instanzen des Motivs? Beründen Sie (kurz) Ihre Antwort!
  5. Wörterbuchdarstellung von zwei Sequenzen:
    Tupel Sequenz 1 Sequenz 2
    AGA 4
    AGC 5
    ATA 3 2, 6
    CAT 2
    GAT 1, 5
    GCA 1, 6
    TAG 43
    • Wie können Sie mit Hilfe des Wörterbuchs Teilsequenzen der Länge 3 identifizieren? Welche Teilsequenzen der Länge drei kommen in beiden Sequenzen vor?
    • Wie können Sie mit Hilfe des Wörterbuches gemeinsame Teilsequenzen der Länge vier ermitteln? Welche Teilsequenzen der Länge vier kommen in beiden Sequenzen vor?
    • Rekonstruieren Sie die zwei Sequenzen aus dem Wörterbuch.


Please direct questions and comments to Fabian Schreiber.