Sie sind hier
E-Book

Bioinformatik Interaktiv

AutorRainer Merkl, Stephan Waack
VerlagWiley-Blackwell
Erscheinungsjahr2013
Seitenanzahl596 Seiten
ISBN9783527682751
FormatPDF/ePUB
KopierschutzDRM
GerätePC/MAC/eReader/Tablet
Preis66,99 EUR
Die zweite Auflage dieses erfolgreichen Lehrbuchs ist vollständig überarbeitet und in großen Teilen erweitert. Insbesondere wurde die Behandlung der Genomdatenanalyse deutlich vertieft und es wurden Kapitel über maschinelles Lernen, bayessche Netzwerke sowie Protein- und Enzymdesigns und über die Auswertung von Microarrays eingeführt. Außerdem steht dem Leser jetzt eine attraktive Webseite mit Zusatzmaterial und Fragen zum Stoff zur Verfügung. Webseite mit Zusatzmaterial und Fragen: WWW.WILEY-VCH.DE/HOME/BIOINFORMATIK

Kaufen Sie hier:

Horizontale Tabs

Leseprobe

1


Biologische Grundlagen


In den folgenden Kapiteln beschäftigen wir uns hauptsächlich mit Algorithmen auf Makromolekülen. Für das Verständnis der Methoden und Modellierungsansätze benötigen wir biologische Grundkenntnisse, die wir in diesem Kapitel einführen. Zu den wichtigsten molekularbiologischen Objekten gehören DNA, RNA und Proteine. Dies sind Moleküle, die jeweils aus kleineren, spezifischen Bausteinen aufgebaut sind. Deren lineare Abfolge kann in Form einer Zeichenkette (Sequenz) angegeben werden. Mit Sequenzen beschäftigen wir uns im folgenden Kapitel 2 genauer.

Drei wichtige Makromoleküle: DNA, RNA, Proteine

Die DNA ist der wichtigste Datenträger der Molekularbiologie. Hochdurchsatzmethoden sind mittlerweile so verfeinert, dass die Zusammensetzung der DNA mit geringem Aufwand bestimmt werden kann. Proteine haben Funktionen sowohl als Umsetzung der Geninformation als auch bei der Weitergabe der Gene an die nachfolgenden Generationen. Die biologische Bedeutung der RNA hat sich durch Befunde der letzten Jahre stark verändert. Es ist klar geworden, dass RNA-Moleküle in erheblichem Ausmaß an Regulationsaufgaben beteiligt sind.

In vivo liegen DNA, RNA und Proteine als dreidimensionale Strukturen vor. Neben der Beschreibung dieser Strukturen gehen wir im Folgenden auf solche Eigenschaften oder Prozesse ein, die in bioinformatischen Algorithmen von Bedeutung sind. Einen breiteren Raum nimmt die Darstellung von Proteinarchitekturen ein. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.

1.1 DNA


Im bioinformatischen Kontext stehen Sequenzen in der Regel für die Abfolge einer kleinen, definierten Menge von Einzelbausteinen. DNA-Sequenzen sind Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die als fädige Struktur vorliegt. Jeder Strang ist eine Folge von vier Einzelbausteinen (Nucleotide), diese bestehen jeweils aus

Nucleotid

  • einem Zucker (in der DNA: Desoxyribose),
  • einer der Purin- oder Pyrimidinbasen Adenin, Guanin oder Cytosin, Thymin und
  • einem Phosphatrest.

In der Zelle kommt DNA üblicherweise in doppelsträngiger Form vor. Darin stehen sich Nucleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und Abb. 1.2).

Aufgrund des chemischen Aufbaus der Nucleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3′-OH- und einem 5′-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5′-OH Ende links und das 3′-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zur Bestimmung der Sequenz des Gegenstranges das reverse Komplement gebildet werden.

Reverses Komplement: Sequenz des Gegenstranges

Abb. 1.1 Raumstruktur der DNA. In der Abbildung ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nucleotide sind nach innen gerichtet und durch Wasserstoffbrücken verknüpft. Außen verlaufen die Zucker-Phosphat-Anteile der polymerisierten Nucleotide.

Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin sowie Guanin und Cytosin gegenüber. Zwischen A:T-Paaren können zwei, zwischen G:C-Paaren drei Wasserstoffbrücken ausgebildet werden. Je höher der Anteil von G:C-Paaren, desto mehr Energie muss für das Trennen der beiden Stränge einer DNA-Doppelhelix aufgewendet werden.

1.2 Genetischer Code und Genomkomposition


Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nucleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nucleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tabelle 1.1 dargestellt. Dieser Code ist quasi universell, abweichende Codonzuordnungen finden sich z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen (Übersicht in [1]).

Basentriplett

Codon

Die Struktur der DNA legt die Lage der einzelnen Gene inner-halb einer DNA-Sequenz nicht fest, daher ergeben sich – wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung – insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie zwischen ein im selben Leseraster liegendes Start- und Stoppcodon eingebettet ist. Eine derartige Sequenz wird zur Unterscheidung von Genen (für die eine Funktion nachgewiesen ist) offenes Leseraster (open reading frame, ORF genannt.

Leseraster

ORF

Tab. 1.1 Der genetische Code. Die Zahlen geben die Nucleotidposition im Codon an. In einigen speziellen Fällen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben.

Diese Situation wird im folgenden Beispiel klar. Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen:

Beispiel

 Leserichtung →
 |.....ORF.....|
Leserahmen 1..MetValGlyLeuSer***
2.TyrGlyArgProGluLeu.
3ValTrpSerAla***Val..
DNA,GTATGGTCGGCCTGAGTTAA
(Doppelstrang)CATACCAGCCGGACTCAATT
Leserahmen 4..HisAspAlaGlnThrLeu
5.IleThrProArgLeu***.
6TyrProArgGlySerAsn..
 ← Leserichtung

Im gezeigten Beispiel existiert genau ein ORF (hier im Leserahmen 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist. In allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodons auf oder es fehlt ein Startcodon. Gene haben allerdings in der Regel eine Länge von mehr als 80 Codonen.

Der Informationsgehalt I der drei Basenpositionen im Codon ist nicht gleich, es gilt I(Position 2) > I(Position 1) > I(Position 3) [2]. Hierfür ist der genetische Code verantwortlich: Eine Mutation der dritten Base im Codon verändert die Aminosäurenkomposition häufig nicht; eine Mutation in der ersten Basenposition führt häufig zum Einbau einer Aminosäure mit ähnlichen Eigenschaften; eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position 3 des Codons, gefolgt von Veränderungen der Basenkomposition an Position 1. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren.

Informationsgehalt der Basenpositionen ist unterschiedlich

Der GC-Gehalt ist eine charakteristische Größe eines Genoms. In bakteriellen Genomen schwankt der GC-Gehalt zwischen 25 % und 75 %. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [3] oder halophile [4] Organismen vorteilhaft wäre. Allerdings ist der GC-Gehalt phylogenetisch und nicht phänotypisch bedingt. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Der spezifische GC-Gehalt einer phylogenetischen Linie scheint durch evolutionären Druck eingestellt zu werden [5]. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem, und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichia coli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Mutationen im mutT Gen von Escherichia coli induzieren Transversionen von A:T- nach G:C-Basenpaaren [6] und Mutationen im mutY Gen Transversionen von G:C- nach...

Blick ins Buch

Weitere E-Books zum Thema: Grundlagen - Nachschlagewerke Medizin

Gesundheitspsychologie

E-Book Gesundheitspsychologie
Ein Lehrbuch Format: PDF

Das Buch liefert für das relativ junge Fachgebiet der Gesundheits-psychologie Grundlagenkenntnisse. Ein Teil des Bandes befaßt sich mit gesundheitsfördernden bzw. -mindernden…

Gesundheitspsychologie

E-Book Gesundheitspsychologie
Ein Lehrbuch Format: PDF

Das Buch liefert für das relativ junge Fachgebiet der Gesundheits-psychologie Grundlagenkenntnisse. Ein Teil des Bandes befaßt sich mit gesundheitsfördernden bzw. -mindernden…

Gesundheitspsychologie

E-Book Gesundheitspsychologie
Ein Lehrbuch Format: PDF

Das Buch liefert für das relativ junge Fachgebiet der Gesundheits-psychologie Grundlagenkenntnisse. Ein Teil des Bandes befaßt sich mit gesundheitsfördernden bzw. -mindernden…

Rehabilitation

E-Book Rehabilitation
Ein Lehrbuch zur Verhaltensmedizin Format: PDF

Das Lehrbuch bietet eine umfassende und aktuelle Übersicht über interdisziplinär orientierte Behandlungsansätze in der medizinischen Rehabilitation. Es erörtert Grundlagen und Anwendungsfelder der…

Rehabilitation

E-Book Rehabilitation
Ein Lehrbuch zur Verhaltensmedizin Format: PDF

Das Lehrbuch bietet eine umfassende und aktuelle Übersicht über interdisziplinär orientierte Behandlungsansätze in der medizinischen Rehabilitation. Es erörtert Grundlagen und Anwendungsfelder der…

Rehabilitation

E-Book Rehabilitation
Ein Lehrbuch zur Verhaltensmedizin Format: PDF

Das Lehrbuch bietet eine umfassende und aktuelle Übersicht über interdisziplinär orientierte Behandlungsansätze in der medizinischen Rehabilitation. Es erörtert Grundlagen und Anwendungsfelder der…

Rehabilitation

E-Book Rehabilitation
Ein Lehrbuch zur Verhaltensmedizin Format: PDF

Das Lehrbuch bietet eine umfassende und aktuelle Übersicht über interdisziplinär orientierte Behandlungsansätze in der medizinischen Rehabilitation. Es erörtert Grundlagen und Anwendungsfelder der…

Weitere Zeitschriften

aufstieg

aufstieg

Zeitschrift der NaturFreunde in Württemberg Die Natur ist unser Lebensraum: Ort für Erholung und Bewegung, zum Erleben und Forschen; sie ist ein schützenswertes Gut. Wir sind aktiv in der Natur ...

Berufsstart Bewerbung

Berufsstart Bewerbung

»Berufsstart Bewerbung« erscheint jährlich zum Wintersemester im November mit einer Auflage von 50.000 Exemplaren und ermöglicht Unternehmen sich bei Studenten und Absolventen mit einer ...

Card Forum International

Card Forum International

Card Forum International, Magazine for Card Technologies and Applications, is a leading source for information in the field of card-based payment systems, related technologies, and required reading ...

Das Grundeigentum

Das Grundeigentum

Das Grundeigentum - Zeitschrift für die gesamte Grundstücks-, Haus- und Wohnungswirtschaft. Für jeden, der sich gründlich und aktuell informieren will. Zu allen Fragen rund um die Immobilie. Mit ...

Das Hauseigentum

Das Hauseigentum

Das Hauseigentum. Organ des Landesverbandes Haus & Grund Brandenburg. Speziell für die neuen Bundesländer, mit regionalem Schwerpunkt Brandenburg. Systematische Grundlagenvermittlung, viele ...

EineWelt

EineWelt

Lebendige Reportagen, spannende Interviews, interessante Meldungen, informative Hintergrundberichte. Lesen Sie in der Zeitschrift „EineWelt“, was Menschen in Mission und Kirche bewegt Man kann ...