Arbeitsgruppe „Data Analysis“

Im klinischen Alltag werden eine Menge Daten generiert. Abgesehen von den in radiologischen Kliniken erzeugten Bilddaten liegt ein Großteil dieser Informationen als Fließtext vor. Das medizinische Personal verfügt insbesondere nicht über die Zeit, in aller Regel aber auch nicht über das technisches Know-how in Datenwisschenschaften, um diese Fülle an Texten für die Forschung systematisch aufbereiten zu können. Entsprechend können viele Forschungsansätze nicht verfolgt werden, obwohl die Kompetenzen sowie Daten vorhanden wären.

Um die notwendigen Daten für eine Forschungshypothese aus den Fließtexten zu erhalten, müssen die folgenden Schritte durchgeführt werden:

  • Die Daten aus der Schriftform in ein strukturiertes Format überführen: Das betrifft direkte Nennungen von medizinischen Faktoren (Named Entity Recognition), aber auch indirekte Klassifikation aus dem Kontext heraus, auf der Basis von Neuronalen Netzen und vektorisierten Dokumentdarstellungen. Durch ein Zusammenspiel von regelbasierten Systemen und diesen Klassifikatioinen, sollen im Text vorkommende Daten systematisch statistische Methoden durchlaufen, so dass Querverbindungen und Trends zu erkennen sind („Data-Mining“). Durch die Anreicherung der vorhandenen Daten mit Hilfe von Meta-Daten (Semantic Web, RDF) soll den Daten semantische Bedeutung zuteilwerden, sodass sie von Maschinen interpretierbar werden.
  • Die dann strukturierten Daten müssen aufbereitet werden, damit forschendes Personal ohne umfangreichen Lernaufwand an genau die Daten gelangen kann, die für die jeweilige Forschungshypothese gebraucht werden. Das Stichwort ist hier die „Usability“.
  • Die fortlaufende Ergänzung der Daten muss gewährleistet sein, d. h. neue Daten müssen automatisiert in der aufbereiteten Struktur ergänzt werden. Auch dies ist wieder für Nutzern ohne technischen Hintergrund in Datenwissenschaften zu gewährleisten.
  • Bei allen Punkten ist immer auch der Datenschutz zu beachten: Wenn Patienten freundlicher Weise Ihre Daten für die Forschung zur Verfügung stellen, soll selbstverständlich auch Verantwortungsbewusst damit umgegangen werden. Es ist zu gewährleisten, dass die strukturierten Daten ausschließlich anonymisiert vorliegen, so dass für forschendes Personal keine Rückschlüsse auf reale Patienten möglich ist.

Diese Herangehensweise wird in allen Schritten vom „Natural Language Processing“ des Unstrukturiertem Texts, und „Machine-learning“ basierter Klassifikation bis zur aufbereiteten Anwendungsform eingesetzt werden. Dies soll es ermöglichen, dass die einzelnen Teilaspekte nach den Bedürfnissen eines Nutzers, ohne datenwissenschaftlichen Hintergrund, anpassbar und automatisch ausgeführt werden können.

Bei Fragen bezüglich der Forschungsprojekte, Masterarbeiten für Informatiker, Ingenieure und Naturwissenschaftler oder Doktorarbeiten für Mediziner können Sie uns jederzeit gerne kontaktieren:

Dr.-Ing. Andreas Ritter
aritterukaachende

M.Sc. Max Orth
forthukaachende