key: cord-0059218-g9g711wg authors: Dandekar, Thomas; Kunz, Meik title: Glossar date: 2020-10-27 journal: Bioinformatik DOI: 10.1007/978-3-662-62399-2_18 sha: 3c047ff9a9bd414212c045a0454f407bbe83d5a9 doc_id: 59218 cord_uid: g9g711wg Das Glossar erklärt und definiert wichtige Begriffe der Bioinformatik. Wir können hier nur die wichtigsten Begriffe erklären. Das Feld entwickelt sich rasch und ist ja zwischen zwei Disziplinen, der Biologie und der Informatik, angesiedelt. Es ist damit in der Menge der Grundbegriffe etwas anspruchsvoller, als wenn es nur um ein Fach gehen würde. Zuerst geben wir eine kurze Definition, erklären dann Details und geben bei komplexen Begriffen Beispiele an. Nukleotide. Neu ist auch eine steigende Menge von Bilddaten, sowohl aus der Mikroskopie wie aus der Fernerkundung, für die eigene leistungsfähige Algorithmen zur Bearbeitung zur Verfügung stehen (Bildverarbeitung). Gleiches gilt für funktionelle Assays (z. B. ChIPseq, CLIP; RNAi-Screens; Transposonscreens) und Hochdurchsatzscreening (HTS), etwa für Medikamente, für die der Computereinsatz zur Auswertung und für die in silico-Vortestung von oft noch viel mehr Kandidatenmolekülen essenziell ist. Die Bioinformatik ist so in der Lage, biologische und medizinische Grundfragen aufgrund von theoretischem Wissen und immer neuen Daten deutlich besser zu beantworten als früher möglich. Die Bioinformatik ist zur Speerspitze der modernen Biologie geworden, indem immer bessere Computervorhersagen (gerade über das Internet, mithilfe von modernem Deep Learning, neuronalen Netzwerken, Neurocomputing, aber auch mit immer besseren Suchmöglichkeiten durch PSSMs und HMMs) helfen, diese aktuellen Forschungsgebiete noch schneller voranzubringen. Dies ist z. B. die Forschung über Stammzellen, Ökosystem-Modellierung, Neurobiologie, Nanotechnologie, Nanobiotechnologie sowie moderne Molekularbiologie mit Protein-Design und synthetischer Biologie. Besonders die molekulare Medizin wird mithilfe der Bioinformatik durch Einsicht in die komplexe Regulation etwa des Immunsystems (Hilfe bei Allergien, Rheuma) der regenerativen Medizin (Hilfe bei chronischen Krankheiten) und des Humangenoms wesentlich stärker. Dies gilt aber nur, wenn die ethischen Aspekte verinnerlicht werden und in alle Problemlösungen miteinfließen: Würde des Menschen, Achten des Individuums, Lebensqualität; wirksame Kontrolle und schon bei der Planung sicheres, intelligentes Design der verwandten Technik, seien es Computer, Mikroorganismen, (menschliche) Zellen oder Nanotechnologie (vgl. digitales Manifest). Bit Ein Bit einer Information ist die kleinste Informationseinheit, eine "Ja"-oder "Nein"-Entscheidung. BLAST (Basic Local Alignment Search Tool) Algorithmus der Bioinformatik, der erlaubt Protein-und Nukleotid-Sequenzen im Hinblick auf ihre lokale Ähnlichkeit mit einer großen Datenbank zu vergleichen. Dabei wird eine Sequenz auf ihre Ähnlichkeit mit Referenzsequenzen in einer Datenbank, also mit bereits bekannten Sequenzen, verglichen und kann Informationen liefern, z. B. an welchem Virus ein Patient erkrankt ist. BLAST verwendet dabei eine heuristische Suche und hierbei die Two-Hit-Methode (2-Hit-Methode): Hierbei wird eine Kurzwortliste (lookup table) zunächst mit den Kurzwortlisten der Datenbank (indizierte Datenbank) verglichen. Findet sich in einem Eintrag wenigstens ein passendes Kurzwort, wird sofort geschaut, ob ein weiterer Kurzworttreffer in der Nähe (fester Abstand) ist. Erst dann wird das Alignment berechnet. In allen anderen Fällen saust der Algorithmus gleich zum nächsten Datenbankeintrag weiter (engl.: "to blast ahead"). CATH (classification by class, architecture, topology and homology) Klassifizierung der Proteinstruktur nach Klasse (Aufbau der Sekundärstruktur), Architektur (hohe Ähnlichkeit der Sekundärstruktur, aber keine Homologie), Topologie (ähnliche Eigenschaften der Sekundärstruktur) und Homologie (evolutionäre …), basierend auf experimentell bestimmten dreidimensionalen Proteinstrukturen aus der Proteindatenbank PDB. chaotische Systeme Beschreibung von Systemen (komplexen Systemen), deren Verhalten nur über kurze Zeiträume vorhersehbar (exakt beschreibbar) ist, deren langfristiges Verhalten aber in festen Grenzen ("Attraktor") gehalten wird. Clustering (Clusteranalyse) Statistische Verfahren, um Objekte in Gruppen (Cluster) mit ähnlichen Merkmalsstrukturen(-ausprägungen) einzuordnen (zu gruppieren). Man unterscheidet zwischen supervised (Gruppen bekannt) und unsupervised Clustering (Gruppen unbekannt). Code erster Gödel´scher Unvollständigkeitssatz Beweist, dass es in hinreichend starken widerspruchsfreien Systemen immer unbeweisbare Aussagen gibt (Computer bleibt also im Unentscheidbaren). E-Value Statistischer Parameter, der angibt, ob mein ausgegebenes Alignment mit einem ähnlichen oder besseren Score noch mal in der Datenbank gefunden wird (Erwartungswert oder expected value eines Zufallstreffers; sollte kleiner als 1 zu 1 Mio. sein). Er ist also von der Größe der Datenbank abhängig (im Gegensatz zum p-Value). Evolution (von lateinisch evolvere, "entwickeln") beschäftigt sich mit den allmählichen Veränderungen über die Zeit (typischerweise lange Zeiträume bis hin zu Jahrmillionen) von genetischem Material und äußerer Erscheinungsform bei Individuen, Populationen, Spezies bis hin zu ganzen Ökosystemen. Wenn das genetische Material für die nächste Generation bei der Zellteilung weitergegeben wird, dann gibt es neben identischen Kopien des Erbmaterials auch manchmal kleinere oder größere Änderungen im Erbmaterial. Das resultierende Erscheinungsbild des Körpers (Phänotyp) kann durch diese genetischen Änderungen besser, schlechter oder gleich an die gerade vorherrschende Umwelt angepasst sein. Zufällige Änderungen (Mutationen), natürliche Auslese (Selektion) und Vermehrung (Replikation) wirken dafür zusammen. Je nach Umwelt kann eine Mutation damit vorteilhaft oder nachteilig oder unbedeutend (neutral) sein. ExPASy-Server Das ist die bekannteste Webseite vom Schweizer Bioinformatik-Institut, ein Expertensystem für die Proteinsequenzanalyse (ExpertProteinAnalysis System). Sie ist ein Beispiel für ein Portal, also eine Webseite, wo man zahlreiche Datenbanken und Software angeboten bekommt. Beispielsweise kann ich hier mit verschiedenen Softwaremöglichkeiten überprüfen, ob meine Proteinsequenz wirklich das vermutete Enzym ist (wenn das z. B. das BLAST-Ergebnis wäre), indem die Datenbank und Software PROSITE schaut, ob alle wichtigen katalytischen Aminosäurereste da sind oder "Peptide properties" überprüft, ob die Aminosäurezusammensetzung zum Protein passt, z. B. ob das Protein überhaupt genug hydrophobe Aminosäuren hat, um in die Membran zu passen. Falsch positive Treffer Anteil der falsch gruppierten Treffer (z. B. potenziell vorhergesagte Interaktionspartner, die experimentell nicht validiert sind oder Person als krank gruppiert, die in Wirklichkeit aber gesund sind). FASTA Speicherformat (textbasiert) der Bioinformatik für Sequenzen, etwa Gensequenzen. Feedback-Loops positive/negative Feedback-Loops. Gen Abschnitt auf der DNA, der für bestimmte Informationen und Gene kodiert. Gendrift Zufallsbedingte Änderung der Sequenz, die die Funktion, z. B. katalytischer Domänen oder funktioneller Seiten, beeinflussen kann. Gene Ontology (GO) Gruppierung von Genen entsprechend ihrer Spezies-spezifisch bekannten Funktion in biologischen Prozessen, zellularer Bestandteile und molekularer Funktion. Zahlreiche Tools verwenden diese Gruppierung zur ersten funktionellen Analyse und Charakterisierung von Genen, etwa das Cytoscape-Plugin BiNGO (s. BiNGO). Aktivierungszustandes, also entweder aktiviert (on; maximal aktiviert = 1) oder inhibiert (off; maximal inhibiert = 0). Entsprechend dem Ausgangszustand (wie stark ist der Knoten an-/abgeschaltet) wird so der weitere zeitliche Verlauf, also wie ändert sich der Zustand des Knotens im Zeitverlauf, für jeden einzelnen Knoten des Netzwerkes berechnet. Dabei kann man das Verhalten bzw. die Netzwerkverschaltung genauer untersuchen, wobei so auch entsprechende Netzwerkeffekte, also die jeweilige Wirkung eines Knotens, deutlich werden. Die boole´sche Modellierung betrachtet immer den on/off-(1/0-)Zustand eines Systems, also ist der Knoten entweder aktiviert (on; 1) oder inhibiert (off; 0). Die quantitative Modellierung ist für kinetische Daten nützlich, z. B. für die Michaelis-Menten-Kinetik (Beispielsoftware: PottersWheel). Hier wird der Systemzustand eines Netzwerkes anhand genauer Konzentrationen und mathematischer Differenzialgleichungen betrachtet, was allerdings Informationen über die Kinetik erfordert. Die semiquantitative Modellierung kombiniert beide Methoden, wodurch man in der Lage ist, den Systemzustand im Intervall zwischen 0 und 1 zu betrachten, was allerdings auch ohne Kenntnis über die Kinetik erfolgen kann (Beispielsoftwares: SQUAD und Jimena). Maximum-Likelihood-Methode Phylogenetisches Verfahren, bei dem der wahrscheinlichste Pfad für alle Mutationen (jede einzelne Mutation wird berücksichtigt) berechnet wird (sehr rechenintensiv und zeitaufwendig, aber besonders exakt). Medizinische Informatik Dies ist im üblichen Sprachgebrauch die Computerunterstützung in der Klinik. Dies sind insbesondere Computer in der Intensivüberwachung und bei der Narkose, die elektronische Infrastruktur für die Patientendokumentation natürliches Rechnen (engl.: natural computing, oft auch "analog computing") Teilgebiet der synthetischen Biologie, die das Rechnen mit Molekülen oder gar mit ganzen Lebewesen bezeichnet. Neighbor-Joining (Nachbarschaft) Phylogenetisches Verfahren, bei dem der Stammbaum auf der Nachbarschaftsähnlichkeit beruht und für direkte Nachbarn die jeweiligen Vorfahren ausgerechnet werden. NetworkAnalyzer Cytoscape-Plugin, welches eine Analyse der Netzwerk-Topologie erlaubt, etwa hinsichtlich der Netzwerkverschaltung (durchschnittliche Anzahl an Interaktionsnachbarn) oder Robustheit (network centrality). neuronal Computing Anwendungsgebiet/Software der Bioinformatik, bei dem ein Programm bestimmte Muster und Eigenschaften der Informationsverarbeitung in bekannten Daten anhand künstlicher neuronaler Netze (Neuronen und deren Verschaltung) erkennt und lernt, diese dann für unbekannte Datensätze entsprechend vorhersagen zu können. neuronale Netzwerke s. neuronal Computing. NP-Probleme (nicht deterministisch polynomiale Komplexität) Mathematische Probleme, die sehr rechenaufwendig sind und deren Möglichkeiten kombinatorisch zu einem exponentiellen Wachstum der Möglichkeiten führen, z. B. das Problem des Handlungsreisenden, zahlreiche Städte auf einer möglichst optimalen Route anzufahren. Ähnliches gilt für die Vorhersage der Proteinstruktur (gleich, ob ab initio in drei Dimensionen oder als Homologiemodell), die Berechnung der stabilen Systemzustände für Pathways (etwa in der Krebszelle) und die metabolische Modellierung. Viele spannende biologische Probleme sind NP-Probleme. Typischerweise weiß ich bei einem NP-Problem nicht genau, wann ich die Lösung finde, egal welchen Computeralgorithmus ich benutze. Bekomme ich aber die Lösung gezeigt, kann ich in polynomialer Zeit (also eher schnell) diese bestätigen. Omics Teilgebiet der Biologie, das sich mit der Analyse großer Mengen von biologischen Daten beschäftigt. Beispiele sind Proteomics (deutsch: Proteomik), Metabolomics (deutsch: Metabolom), Genomics (deutsch: Genom), RNAomics, Interactomics (deutsch: Interaktom), die sich mit großen Daten über Proteine, Metabolite, Genome, RNA und Interaktionen beschäftigen. Pandemie Eine sich weltweit ausbreitende Epidemie (Epidemie = ansteckende Seuche, Infektionskrankheit). Zurzeit (2020) wird eine Pandemie durch das Virus Sars-CoV-2 (severe acute respiratory syndrome coronavirus 2) verursacht. Dies ist ein Coronavirus (verursachen Atemwegskrankheiten; sie haben einen Kranz, eine "Corona" von Fortsätzen um den kugeligen Körper). Stammbaumanalysen zeigen hohe Verwandtschaft zum SARS-Virus (Pandemie 2002 (Pandemie /2003 . Ein weiterer Verwandter ist das MERS-CoV (Middle East respiratory syndrome coronavirus). Eine Pandemie mit vielen Millionen Todesfällen war die "Spanische Grippe" nach dem 1. Weltkrieg. Wichtig für eine Pandemie sind Faktoren, die für eine stetige Ausbreitung der Seuche über viele Ländergrenzen und damit weltweit sorgen (der Faktor R0, die Ansteckungsrate je infizierter Person bleibt immer mindestens etwas über 1, sodass es immer mehr Erkrankte werden). Dies kann bioinformatisch gut modelliert werden, ebenso wie der Effekt von Kontrollmaßnahmen, Mutationsraten, Sterblichkeit, Änderungen der Ansteckungsrate. Parsimony (Sparsamkeit) Phylogenetisches Verfahren, bei dem die meist nicht direkt beobachtbaren Vorfahren so berechnet werden, dass man mit möglichst wenigen Mutationen dieser Vorläufersequenzen alle beobachteten heutigen Sequenzen erzeugen kann. Polymerase Enzym, das eine Nukleinsäure neu herstellt. Dies geschieht meist nach einer Vorlage ("template"). Es gibt RNA-herstellende RNA-Polymerasen und DNA-herstellende DNA-Polymerasen. Polymerase-Kettenreaktion (engl.: Polymerase Chain Reaction, PCR) Methode der Molekularbiologie, welche durch eine Kettenreaktion (ständiges Verdoppeln der DNA-Stränge) zum Verdoppeln der Erbinformation (DNA) dient. Um dies gezielt für eine bestimmte DNA-Sequenz zu erreichen, benötigt man den Start der gewünschten Sequenz und legt dazu eine komplementäre Anfangssequenz fest (Startprimer) und am Ende der Sequenz auf dem Gegenstrang einen erneut dazu komplementären Rückwärtsprimer. Mithilfe der beiden Primer spezifiziert man für die außerdem benötigte Polymerase, wo jeweils ein neuer Strang synthetisiert werden soll. Durch Erhitzen trennt man die frisch synthetisierten Moleküle nach etwa 1 min DNA-Synthese je 1000 Basenpaare wieder, lässt dann die beiden Primer sich wieder an die neuen Stränge anlegen und erhält so immer mehr gleiche DNA-Stränge, solange man genug Primermoleküle und Polymerase für die PCR hat. polynomiale Komplexität Probleme, die wenig rechenintensiv sind und deren mathematische Beschreibung mit einem Polynom erfolgt (Rechenzeit ist dabei in Abhängigkeit von der Länge) (s. auch P-Probleme). positive Transkriptionsfaktor-Bindestellen DNA-Motive im Promotor, an die ein Transkriptionsfaktor spezifisch bindet. Transkriptionsfaktoren Binden im Promotor an bestimmte DNA-Bindestellen (DNA-Motive, Transkriptionsfaktor-Bindestellen) und regulieren die Transkription eines Gens. Transkriptomik Analyse des Transkriptoms, der Gesamtheit aller Transkripte. Translation Teil der Genexpression, der zur Bildung von Proteinen anhand einer mRNA und des genetischen Codes im Ribosom führt. Turing-berechenbar Alle Rechnungen, die eine Turing-Maschine durchführen kann, werden deshalb auch Turing-berechenbar genannt. Der berühmte Mathematiker Alan Turing hatte dazu überlegt und bewiesen, wie man mit fünf Grundoperationen und einem sehr langen Rechenband alle überhaupt möglichen mathematischen Berechnungen insbesondere der Algebra darstellen kann. Natürlich werden dadurch die Grenzen für formale Systeme und der Berechenbarkeit, etwa für Computer, auch klar gefasst. Insbesondere ästhetische, ethische oder moralische Urteile, aber auch über sich selbst reflektieren und in der Mathematik alle Zahlen, Mengen und Begriffe, die nicht durch einen Algorithmus (Rechenvorschrift für Computer) beschreibbar sind, sind nicht Turing-berechenbar. Umkipp-Punkt (Tipping Point) Ein neuer Systemzustand (Attraktor) wird angestrebt, wenn der Umkipp-bzw. Kipp-Punkt überschritten wird. Weil der alte Systemzustand weit genug verlassen wurde, wird das System dann in einen neuen Zustand gelangen, weil der neue Attraktor sich dann wieder selbst stabilisiert und verstärkt, wenn das System genug gestört oder verändert wird. wissensbasiert (knowledge based) Bioinformatische Arbeit, etwa Erstellen eines Netzwerks, aufgrund von Literatur und Expertenwissen. XML (Extensible Markup Language) Maschinenlesbare Sprache für Internetseiten, in der Bioinformatik genutzt zur Darstellung von Daten als Textdateien. zufällige Systeme Beschreibung von Systemen, bei denen das Verhalten kurzzeitig nicht vorhersagbar ist, etwa Würfelwurf (man kann den nächsten Wurf nicht voraussehen, aber der Ergebnisraum lässt sich vorausberechnen, kann nur eins bis sechs sein). zweiter Gödel'scher Unvollständigkeitssatz Zeigt, dass hinreichend starke widerspruchsfreie Systeme ihre eigene Widerspruchsfreiheit nicht beweisen können (ein Computer bleibt also im Unentscheidbaren). Mit den Mitteln der Mathematik bewiesen zu haben, wo damit feste Grenzen für formale Systeme bestehen, ist das Verdienst des hervorragenden Mathematikers Kurt Gödel (1906 Gödel ( -1978 . Treffer von der Gesamtheit der korrekten Treffer, z. B. potenziell vorhergesagte Interaktionspartner, die experimentell validiert sind oder Personen als krank gruppiert Regression (Regressionsanalyse) Statistisches Verfahren, um Zusammenhänge und Beziehungen zwischen einer abhängigen (erklärte Variable, Regressand) und einer/mehreren unabhängigen (erklärende Variable, Regressor) Variablen zu finden. Am weitesten verbreitet sind die lineare Regression, logistische Regression oder Cox-Regression (Überlebenszeitanalyse) regulatorische RNA-Elemente Motive der RNA die wichtige regulatorische Funktionen übernehmen und die Transkription und Translation regulieren, z. B. Iron-responsive elements (IRE, regulieren den Eisenstoffwechsel in Mensch und Tieren abhängig vom Eisengehalt der Zelle) und Riboswitches Produkt der Transkription und dient als Informationsüberträger (mRNA) zur Synthese von Proteinen. RNA kann gleichzeitig Information speichern, aber auch Sekundärstrukturen bilden und bei passender Faltung Reaktionen wie ein Enzym beschleunigen, ein RNA-Enzym bilden, kurz Ribozym genannt. Deshalb gab es noch vor dem genetischen Code, wenige Hundert Millionen Jahre nach der Entstehung des Lebens die RNA-Welt, in der RNA-Organismen mit Ribozymen und RNA-Genomen wichtige Lebensformen waren. RNA-Welt s. RNA. Sars-Virus s die diese maschinenlesbar (als XML) macht, etwa für CellDesigner und SQUAD. SCOP(Structural Classification Of Proteins) Klassifizierung der Proteinstruktur, basierend auf der Struktur und Sequenz und unter Einschluss direkter Expertenanalysen von Proteinstrukturexperten (insbesondere Alexey Murzin)