Drei Milliarden Basenpaare sind auf der DNA-Doppelhelix angeordnet. Bioinformatiker entwickeln Algorithmen, mit deren Hilfe sich derart große Datensätze computergestützt analysieren lassen. (Foto: Colourbox)

Bioinformatik: Offene Datenbanken helfen Forschern weltweit

Ohne öffentlich zugängliche Datenbanken wäre ein großer Teil der Bioinformatik-Forschung nicht oder nur schwer möglich. Auch an der Uni Halle nutzen die Forscher die öffentlichen Datensätze intensiv und geben im Gegenzug ihre Erkenntnisse wieder in die Gemeinschaft zurück.

23 Chromosomen-Paare, etwa 23.000 Gene und mehr als drei Milliarden Basenpaare. So umfangreich ist das menschliche Erbgut. Darin liegen nicht nur Informationen darüber, ob ein Mensch grüne Augen und braune Haare hat. Auch Hinweise auf ein mögliches Krebsrisiko lassen sich im menschlichen Genom finden – wenn man denn weiß, an welcher Stelle man zu suchen hat und auch, wonach man sucht. Damit Mediziner, Genetiker und Biologen nicht über Jahre hinweg in riesigen Tabellen suchen müssen, entwickeln sie gemeinsam mit Bioinformatikern Algorithmen, mit denen sich diese riesengroßen Datensätze computergestützt und schneller durchsuchen lassen.

Dr. Jan Grau (Foto: Jan Grau)

Dr. Jan Grau (Foto: Jan Grau)

Einer von ihnen ist Dr. Jan Grau, der in der Arbeitsgruppe Mustererkennung und Bioinformatik bei Prof. Dr. Stefan Posch an der Uni Halle forscht. „Unsere Methoden lassen sich aber nicht nur auf die menschliche DNA anwenden, sondern auch im Bereich der Pflanzengenetik oder auf Genome von Bakterien“, sagt Grau. Der Ansatz, große Daten mit Hilfe informatischer Methoden zu analysieren und daraus neue Erkenntnisse zu gewinnen, hat mittlerweile in vielen Bereichen der Natur- und auch in Teilen der Geistes- und Sozialwissenschaften Einzug gehalten.

Häufig forschen weltweit einige Forschergruppen zu ähnlichen Themen und Fragen. Es wäre mühsam, wenn die Wissenschaftler immer wieder von neuem Genome entschlüsseln oder die Struktur von Proteinen analysieren müssten. „Deshalb speisen Forscher ihre gewonnen Datensätze in große, öffentlich zugängliche Datenbanken – so genannte Repositorien“, berichtet Grau. So können hallesche Wissenschaftler auf Daten zurückgreifen, die in anderen Forschergruppen weltweit gewonnen wurden. „Wir profitieren von den offenen Daten in den großen Datenbanken. Dafür stellen wir Daten, die wir gemeinsam mit experimentellen Partnern gewinnen, ebenso in öffentlichen Datenbanken zur Verfügung. Außerdem geben wir neu entwickelte Methoden, die häufig auch auf Basis offener Daten entwickelt und getestet wurden, in die Community zurück.“ Mit Methoden meint er zum Beispiel Algorithmen, die schneller und besser nach Gemeinsamkeiten oder Mustern in den großen Datensätzen suchen können – das Erbgut eines Menschen etwa umfasst rund drei Gigabyte.

Derzeit arbeitet Grau in einem Forschungsprojekt mit dem ehemaligen halleschen Pflanzengenetiker Prof. Dr. Jens Boch, der inzwischen an die Universität Hannover berufen wurde. In ihrem Projekt untersuchen sie das Erbgut bakterieller Krankheitserreger, die unter anderem Reis-Pflanzen befallen.

Weltweit gibt es viele Repositorien, in denen Wissenschaftler ihre Rohdaten für andere Forscher öffentlich zur Verfügung stellen. Zwei der größten Plattformen sind das Portal „Genbank“, das vom National Center for Biotechnology Information in den USA betrieben wird, und die Datenbanken des European Bioinformatics Institute. Daneben gibt es aber noch viele kleine Datenbanken für spezielle Bereiche.

Viele internationale Fachzeitschriften fordern mittlerweile, dass die Rohdaten, auf denen ein Forschungsartikel basiert, öffentlich zugänglich sind. So können andere Wissenschaftler nicht nur die Angaben in einem Paper überprüfen, sondern sie können die Daten auch für ihre eigene Forschung weiterverwenden. Außerdem lassen sich Daten aus unterschiedlichen Quellen kombinieren und so Fragen beantworten, die mit einzelnen Datensätzen nicht zu ergründen wären, etwa über die Evolution im Pflanzen- und im Tierreich.

Damit die Forscher, die die Daten erhoben haben, nicht von anderen Kollegen bei der Publikation überholt werden, lässt sich der Zugang auf die Daten auch teilweise beschränken: Bis zur Veröffentlichung des eigenen Artikels etwa können die Daten nur für die Gutachter einsehbar sein. Die Forscher können auch entscheiden ihre Daten zwar vorab zu veröffentlichen, deren Verwendung bis zur Veröffentlichung des eigenen Artikels für weitere Publikationen jedoch einzuschränken. Tom Leonhardt

 

Feller und ArtmannWissenschaft auf einen Klick

Wie die Open Access-Bewegung die Wissenschaft verändert und welche Chancen und Herausforderungen diese Entwicklung bietet, darüber sprechen Stephan Feller und Stefan Artmann im Interview. Zum Interview


MoellerDaten erzählen Geschichte

Wie digitalisieren Historiker alte Daten richtig? Und welche Chancen bietet Open Access? Dazu berät Dr. Katrin Moeller vom Historischen Datenzentrum Sachsen-Anhalt Master-Studierende am Institut für Geschichte. Zum Artikel


TouchscreenFreie Bildungsressourcen für jeden?

Nicht nur Forschungsdaten und wissenschaftliche Publikationen sind online oftmals frei zugänglich: Viele Lehr- und Lernmaterialien sind heute unter dem Begriff der „Open Educational Resources“ im Internet zu finden. Zum Artikel

Kommentar schreiben

Ihr Kommentar wird schnellstmöglich durch unser Team freigeschaltet.

Kommentar