Künstliche Intelligenz (KI) bietet immense Chancen für die Lebenswissenschaften, insbesondere bei der Analyse grosser Datenmengen und der Entdeckung neuer Zusammenhänge. Doch wir beobachten in der Praxis immer wieder, dass KI-Modelle häufig an ihre Grenzen stossen. Aus unserer Sicht ist es dringend erforderlich, die vielen Herausforderungen jetzt anzugehen, um das Potenzial dieser Technologie voll ausschöpfen zu können und mögliche Probleme rechtzeitig abzuwenden. Interdisziplinäre Zusammenarbeit zwischen den Lebenswissenschaften und der Informatik ist dabei aus unserer Sicht der Schlüssel.
Ein zentrales Problem, das wir identifiziert haben, ist die mangelnde Reproduzierbarkeit von KI-Modellen. Wir stellen fest, dass es oft eine Diskrepanz zwischen den Ergebnissen aus Studien und deren Anwendung in der Praxis gibt. Häufig liegt dies an sogenannten versteckten Abhängigkeiten in den Daten, die ohne fundierte Expertise in beiden Bereichen – Lebenswissenschaften und maschinelles Lernen – schwer erkennbar sind. Ein Beispiel hierfür ist die geografische Verzerrung: Modelle, die auf Daten eines bestimmten Standorts trainiert wurden, lassen sich mitunter nicht auf andere Regionen übertragen, weil die dortige Bevölkerung über andere gesundheitliche Merkmale verfügt – zum Beispiel über ein ortsspezifisches Mikrobiom.
Ein weiteres grosses Problem ist das sogenannte «data leakage», der unerwünschte Datentransfer zwischen Trainings- und Testdaten. Dadurch scheinen Modelle zunächst zuverlässige Ergebnisse zu liefern, scheitern jedoch in der Praxis. Ein Beispiel: Wenn ein Modell anhand klinischer Daten Bluthochdruck vorhersagen soll, kann es als Kriterium erkennen, dass betroffene Patientinnen und Patienten Blutdrucksenker einnehmen. Diese Information ist jedoch für die Anwendung bei undiagnostizierten Personen nutzlos, da diese logischerweise noch keine Medikamente gegen Bluthochdruck einnehmen.
Wir plädieren dafür, dass KI-Modelle so gestaltet werden, dass sie robust und praxistauglich sind. Dies erfordert nicht nur hochwertige und vielseitige Daten, sondern auch ein tiefes Verständnis der Fragestellungen, die ein Modell beantworten soll. Verzerrungen entstehen beispielweise auch, wenn bestimmte Krankheitsbilder in Datenbanken überrepräsentiert sind. Dies kann dazu führen, dass Modelle falsche Vorhersagen liefern, weil weniger bekannte oder seltene Krankheitsbilder in den Daten nicht ausreichend berücksichtigt wurden.
Unserer Einschätzung nach kann es langfristig gravierende Folgen für die Arbeit mit KI-Modellen haben, wenn diese und weitere Tücken nicht bald genug Beachtung finden. In der Forschung über Jahrzehnte gesammelte Daten setzen sich in weiteren Studien fort. Wird hier nicht mit der nötigen Sorgfalt gearbeitet, kann dies letztlich auch die Sicherheit von Patientinnen und Patienten gefährden. Je komplexer die eingesetzten KI-Modelle sind, desto kritischer wird es. Während bei einfachen Modellen die Entscheidungsprozesse noch nachvollziehbar sind, wird dies bei hochkomplexen neuronalen Netzwerken zunehmend schwieriger.
Deshalb setzen wir uns dafür ein, dass die Black Box der KI aufgebrochen wird. Es ist entscheidend, die Entscheidungsprozesse von Modellen transparenter zu machen und die Arbeit mit ihnen in die richtige Richtung zu lenken. Unsere Leitlinien sollen dazu beitragen, versteckte Abhängigkeiten frühzeitig zu erkennen, data leakage zu vermeiden und sicherzustellen, dass KIModelle für die Praxis geeignet sind. Richtig eingesetzt, können diese Modelle den Suchraum für Antworten verkleinern und uns auf Lösungen hinweisen. Dafür braucht es jedoch einen klaren Fokus, die passende Datenbasis und die enge Zusammenarbeit aller beteiligten Disziplinen.
Prof. Dr. Markus List, Professur für Data Science in Systems Biology, Technische Universität München
Prof. Dr. Dominik Grimm, Professur für Bioinformatik, Hochschule Weihenstephan-Triesdorf (HSWT) & Technische Universität München (TUM)
