Statistisches Modell berechnet Wahrscheinlichkeit für Krankheitsausbruch

Eine Vielzahl genetischer Faktoren kann das Auftreten von Krankheiten wie Bluthochdruck, Herzerkrankungen und Typ-2-Diabetes beeinflussen. © ipopha / iStock / Getty Images Plus

DNA | Forschung | Gesundheit | Krankheiten | Modellprojekt

Präventive Vorhersage: Statistisches Modell berechnet Wahrscheinlichkeit für Krankheitsausbruch

Das Feld der personalisierten Medizin versucht, individuelle Risiken für Krankheiten anhand großer DNA-Datensätze abzuschätzen. Doch viele Krankheiten sind enorm multifaktoriell, das heißt, die genetischen Risikofaktoren sind über die gesamte DNA verteilt. Das Ziel von Matthew Robinson vom Institute of Science and Technology (IST) Austria und seinem internationalen Team ist es, diese schwer fassbaren Zusammenhänge zu finden und ein zuverlässiges und nachvollziehbares statistisches Modell daraus zu konstruieren.

21.04.2021

Eine Vielzahl genetischer Faktoren kann das Auftreten von Krankheiten wie Bluthochdruck, Herzerkrankungen und Typ-2-Diabetes beeinflussen. Wenn man wüsste, wie die DNA das Risiko für solche Krankheiten beeinflusst, könnte man im Gesundheitssystem weniger reaktiv mehr präventiv agieren und so nicht nur die Lebensqualität der Patient_innen verbessern, sondern auch Kosten sparen. Das Aufspüren der Zusammenhänge zwischen der DNA und dem Ausbruch von Krankheiten erfordert jedoch statistische Modelle, die zuverlässig mit sehr großen Mengen an Daten von mehreren hunderttausend Patienten arbeiten können.

Matthew Robinson, Assistant Professor am Institute of Science and Technology (IST) Austria, hat nun gemeinsam mit einem internationalen Forschungsteam ein neues mathematisches Modell entwickelt, das die Qualität der Vorhersagen basierend auf großen Mengen genomischer Daten verbessert. Diese Methode könnte helfen, personalisierte Vorhersagen über Gesundheitsrisiken zu entwickeln, ähnlich wie es eine Ärztin tut, wenn sie die Krankheitsgeschichte einer Familie untersucht.

Flüchtige Verbindungen

Die menschliche DNA besteht aus mehreren Milliarden Basenpaaren, die unsere biologische Struktur und Funktionen kodieren. Für ihre Studie wählten die Wissenschafter_innen mehrere hunderttausend genetische Marker, kurze Abschnitte der DNA-Sequenz, als Grundlage für ihr Modell aus. Damit brachten sie dann die Zusammensetzung dieser Marker mit dem Auftreten von Bluthochdruck, Herzerkrankungen oder Typ-2-Diabetes bei den Patient_innen in Verbindung. Dabei interessierten sich die Forscher_innen besonders für das Alter der Patient_innen bei Ausbruch der Krankheit. Mit dieser Information können sie dann die Wahrscheinlichkeiten für das Auftreten dieser Krankheiten ab einem gewissen Alter berechnen.

Dieses statistische Modell kann jedoch keine direkten Beziehungen zwischen bestimmten Genen und dem Ausbruch einer Krankheit etablieren, sondern liefert nur eine verbesserte Vorhersage der Wahrscheinlichkeiten für den Ausbruch der Krankheit. Das heißt, dass es auf Basis der Gene einer Person nicht mit Sicherheit den Ausbruch einer Krankheit voraussagen kann. Des Weiteren gibt es auch einen wichtigen Unterschied zwischen den oftmals verwendeten Black-Box-Modellen für Big-Data-Studien und dieser Methode von Robinson und seinen Kolleg_innen.

Black-Box-Modelle liefern zwar Vorhersagen, aber ihr innerer Aufbau ist aufgrund der vielen enthaltenen Ebenen von Abstraktion für Menschen nicht leicht zu verstehen. Im Gegensatz dazu liefert das Modell von Robinson und seinen Kolleg_innen nachvollziehbare statistische Berechnungen. Die Fähigkeit, den genauen Aufbau eines mathematischen Modells zur Erstellung von Vorhersagen über die menschliche Gesundheit zu verstehen, ist ein wichtiger Teil eines ethischen Ansatzes zur Verwendung großer Mengen von Patientendaten.

Sensible Daten

Um das volle Potenzial solcher präventiven Methoden auszuschöpfen, bedarf es sowohl effektiver Modelle als auch der Sammlung großer genomischer Datensätze. Diese bringen wichtige Fragen zu Datensicherheit und Datenschutz mit sich, die sowohl von den Forscher_innen als auch dem Gesundheitssystem berücksichtigt werden müssen. Bei der Verwendung von Patientendaten müssen strenge Maßnahmen zur Datensicherheit beachtet werden. Erst mit der Erlaubnis der jeweiligen Ethikkommissionen konnten die Wissenschafter_innen auf anonymisierte Patientendaten aus staatlichen Biobanken, große Sammlungen genetischer Patientendaten, sowohl in Großbritannien als auch in Estland zugreifen.

Sie verwendeten die Daten aus Großbritannien, um ihr Modell zu erstellen, und die Daten aus Estland, um dessen Vorhersagekraft zu testen. Letztere ergaben sogar erste personalisierte Risikoeinschätzungen für den Ausbruch von Krankheiten. Diese werden zukünftig über das estnische Gesundheitssystem an die Patient_innen weitergegeben, um ihnen den Anreiz zu geben, vorbeugende Maßnahmen zu ergreifen.

Das neue statistische Modell von Robinson und Kollegen ist ein erster Schritt, um das volle Potenzial großer genomischer Datensätze für die präventive Gesundheitsvorsorge zu nutzen. Sowohl die Modelle als auch die Dateninfrastruktur von Biobanken, zusammen mit einem robusten und sicheren System für Datenschutz, werden benötigt, um die Versprechen der personalisierten Medizin zu erfüllen.

Quelle: Institute of Science and Technology Austria

Originalpublikation: Sven E. Ojavee et al.; Genomic architecture and prediction of censored time-to-event phenotypes with a Bayesian genome-wide analysis; Nature communications 12, 2021, DOI: 10.1038/s41467-021-22538-w