Die Humangenom-Datenbank soll mit bisher unerforschten Sequenzen erweitert werden. © Nobi_Prizue / iStock / Getty Images Plus

Erbgut | Gene

Unsere Gene: Forschende wollen Humangenom-Datenbank erweitern

Etwa 7200 kaum erforschte Gensegmente aus dem menschlichen Erbgut fasst ein internationales Konsortium zusammen und schlägt vor, wie man sie in die Humangenom-Datenbanken integrieren kann. Sie könnten zeigen, was den Menschen von anderen Tieren unterscheidet.

16.07.2022

Als Forschende im Jahr 2001 mit dem Humangenomprojekt das Erbgut des Menschen vollständig entschlüsselt hatten, gab es eine große Überraschung: Sie hatten nur 20 000 Gene gefunden, die Proteine produzieren. Sollte der Mensch also nur etwa doppelt so viele Gene besitzen wie eine Fliege? Wissenschaftler*innen hatten mit erheblich mehr gerechnet.

Nun haben Forschende aus 20 Institutionen weltweit mehr als 7200 weitgehend unerforschte Genabschnitte zusammengefasst, die möglicherweise für neue Proteine kodieren. Sie haben dabei eine neue Technologie eingesetzt, die die proteinproduzierende Maschinerie in den Zellen im Detail untersucht, um mögliche Proteine beim Menschen zu finden.

Das Humangenomprojekt mit all seinen Bemühungen, die menschlichen Gene zu beschreiben, war erst der Anfang, legt die neue Studie nahe. Das Forschungskonsortium möchte die wissenschaftliche Gemeinschaft dazu ermutigen, ihre Daten in die großen Humangenom-Datenbanken zu integrieren.

Unerforschte Gen-Segmente fehlen in Datenbanken

Vier gleichberechtigte Forscher haben die Studie geleitet: Dr. Jorge Ruiz Orera vom Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft (MDC) in Deutschland, Dr. Sebastiaan van Heesch vom Prinses Máxima Centrum in den Niederlanden, Dr. Jonathan Mudge vom Bioinformatik-Institut am European Molecular Biology Laboratory (EMBL-EBI) in Großbritannien und Dr. John Prensner vom Broad Institute des MIT und Harvard in den USA.

In den letzten Jahren wurden Tausende, häufig sehr kleine „Open Reading Frames“ im menschlichen Genom entdeckt. Das sind Abschnitte im Erbgut, die Bauanleitungen für Proteine enthalten könnten. Mehrere Autor*innen der aktuellen Studie haben in der Vergangenheit bereits ORFs gefunden: Van Heesch hat gemeinsam mit den Professoren Norbert Hübner und Uwe Ohler am MDC neue Mini-Proteine im menschlichen Herzen beschrieben und berichtete darüber 2019 in „Cell“; auch Prensner veröffentlichte 2021 zu ORFs in „Nature Biotechnology“.

Keine dieser bislang nahezu unerforschten Segmente tauchten jedoch daraufhin in Referenzdatenbanken auf. Viele andere neu entdeckte Sequenzen, die Forschende weltweit z.B. in „Science“ oder „Nature Biochemical Biology“ beschrieben, blieben ebenfalls für den größten Teil der wissenschaftlichen Gemeinschaft unsichtbar – obwohl belegt ist, dass sie RNA-Moleküle produzieren, die daraufhin an die Proteinfabriken der Zelle, die Ribosome, binden.

„Ribosom-Profiling“ im Einsatz

Traditionell haben Wissenschaftler*innen proteinkodierende Abschnitte in Genen identifiziert, indem sie DNA-Sequenzen von mehreren Spezies miteinander verglichen. Denn die wichtigsten kodierenden DNA-Sequenzen blieben im Laufe der Evolution von Tieren erhalten. Mit dieser Methode fielen jedoch kodierende Sequenzen durchs Raster, die relativ jung sind, die also erst während der Entwicklung von Primaten entstanden sind. Sie fehlen in den Datenbanken.

Nun galt es also, die wenig beachteten ORFs in die größten Referenzdatenbanken zu integrieren, denn bislang musste man in der Literatur gezielt nach ihnen suchen, wenn man sie erforschen wollte. In einem ersten Schritt sammelte das internationale Forschungsteam Informationen zu Sequenzen, die mit dem „Ribosom-Profiling“ neu entdeckt wurden – diese Methode ermittelt, mit welchem Teil der Boten-RNA (mRNA) das Ribosom interagiert.

Danach fügten sie die Daten zu einem standardisierten Satz zusammen. Keine leichte Aufgabe. Denn Daten aus unterschiedlichen Laboren, die auf verschiedenste Weisen gewonnen wurden, können nicht einfach so miteinander kombiniert werden.

Sobald dies geschafft war, beschäftigte sich das internationale Konsortium mit zentralen Fragen, die unsere Vorstellung vom menschlichen Genom prägen: Was ist ein Gen? Was ist ein Protein? Brauchen wir flexible Vorstellungen davon, ob Ribosomen immer ein Protein produzieren oder vielleicht auch ein ganz anderes zelluläres Signal?

Forschende wollen Datenbanken überarbeiten

Die Gruppe will nun die Humangenom-Datenbanken überarbeiten, die Forschende weltweit nutzen. Ensembl-GENCODE richtet den ORF-Katalog als Bestandteil ihrer Referenz-Annotation-Datenbank ein, viele weitere wie UniProt, HGNC, PeptideAtlas and HUPO wollen folgen.

„Unsere Forschung bringt das Verständnis des genetischen Aufbaus und der vollständigen Anzahl der Proteine im Menschen einen großen Schritt voran“, sagt van Heesch.

„Es ist ungeheuer spannend, die Forschungsgemeinschaft mit unserem Katalog zu unterstützen. Wir können zwar jetzt noch nicht sagen, dass es sich bei allen neuen Sequenzen wirklich menschliche Proteine repräsentieren. Fest steht jedoch, dass ein großer Teil des menschlichen Genoms noch unerforscht ist und die Welt dies zur Kenntnis nehmen sollte.“

Weltweite Forschung

„Viel zu lange wurde die wissenschaftliche Gemeinschaft über diese ORFs im Unklaren gelassen“, sagt Mudge. „Wir sind sehr stolz darauf, dass Forschende auf der ganzen Welt sie nun untersuchen können. Ab jetzt sind sie für alle Wissenschaftler*innen aus der Genomik und Medizin verfügbar – davon versprechen wir uns weitreichende Impulse.“

„Die meisten der 7200 ORFs aus unserem Katalog gibt es nur bei Primaten und stellen möglicherweise evolutionäre Neuerungen dar, die einzigartig sind für unsere Spezies,“ sagt Orera, Evolutionsbiologe und Wissenschaftler in Hübners Arbeitsgruppe. „Vielleicht verraten sie mehr darüber, was den Menschen wirklich ausmacht.“

Was kommt als nächstes? Prensner meint, dass „diese ORFs mit ziemlicher Sicherheit zu vielen menschlichen Merkmalen und Krankheiten beitragen, auch zu häufigen Krankheiten wie Krebs.“ Die Herausforderung bestehe nun darin, herauszufinden, welche ORFs bei welchen Krankheiten welche Rolle spielen.

Quelle: Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft (MDC)

Publikation: Jorge Ruiz-Orera et al.; A community-driven roadmap to advance research on translated open reading frames; Nature Biotechnology, 2022; DOI: 10.1038/s41587-022-01369-0