Das deutschsprachige NLP-Textkorpus des Leitlinienprogramms Onkologie
JULIE Lab der Friedrich-Schiller-Universität Jena
Das Jena University Language & Information Engineering Lab (JULIE Lab) konzentriert sich auf die automatische Textanalyse und ihre Anwendungen. Der Lehrstuhl arbeitet in verschiedenen Bereichen, Sprachen und Genres, einschließlich biomedizinischer, klinischer, ökologischer und wirtschaftlicher Texte sowie der Digital Humanities (Digitale Gesellschaftswissenschaften). Neben dem Schwerpunkt, reale natürliche Sprachsysteme aufzubauen, liegt der Fokus auch auf einer methodisch soliden Basis in Bezug auf sprachtechnologische Werkzeuge und Ressourcen. Die Mitarbeiter arbeiten intensiv an der Entwicklung syntaktischer, semantischer und Diskursprozessoren sowie domänenspezifischer Wissensressourcen (Ontologien).
Im Laufe der Jahre hat das JULIE Lab einen beachtlichen internationalen Ruf sowie eine starke externe Sichtbarkeit erlangt und ist an verschiedenen nationalen und internationalen Forschungsprojekten und Kooperationen beteiligt.
Hasso-Plattner-Institut für Digital Engineering gGmbH
Das Hasso-Plattner-Institut (HPI) ist Teil der Digital-Engineering-Fakultät der Universität Potsdam und gilt als Deutschlands Exzellenzzentrum für die Ausbildung von Software-Ingenieuren. Die Arbeitsgruppe von Herrn Dr. Schapranow bringt langjährige Erfahrung in Digital Health und bei der Verwendung der innovativen In-Memory-Daten- banktechnologie, sowie bei der erfolgreichen Durchführung nationaler und internationaler Projekte mit ein, z. B. die BMBF geförderte Medizininformatik-Initiative im Konsortium „HiGHmed”.
Gemeinsam mit dem Hasso-Plattner-Institut für Digital Engineering gGmbH in Potsdam und der Friedrich-Schiller-Universität in Jena stellt das Leitlinienprogramm Onkologie mit GGPONC das erste deutschsprachige medizinische Textkorpus basierend auf klinischen Leitlinien bereit.
Bislang stehen vor allem englischsprachige Texte und damit auch nur Werkzeuge für englischsprachige Texte zur Verfügung. Das deutschsprachige Textkorpus leistet hier einen wertvollen Beitrag zur Forschung im Bereich der Medizininformatik und Computerlinguistik. Es ermöglicht, Methoden zur Analyse medizinischer Texte anhand realer deutschsprachiger Fachtexte zu erforschen. Nur so können Forschende erfolgreich ihre Konzepte und Methoden für die Verarbeitung von deutschsprachigen Texten erproben und verbessern. Im Gegensatz zu anderen medizinischen Korpora enthält das GGPONC-Korpus keine personenbezogenen Daten und ist daher für Forschende ohne Datenschutzauflagen frei verwendbar.
GGPONC basiert auf den semi-strukturierten Daten, die auch die Grundlage der Leitlinien-App sind. Hierdurch stehen Fachtexte in einer sehr hohen Datenqualität zur Verfügung. Neben den reinen Textdaten stellen wir zusätzlich auch umfangreiche Metadaten, z.B. zu Evidenzleveln und Literaturverweisen, zur Verfügung.
Für alle Texte wurden Annotationen verschiedener Entitätsklassen aus dem Unified Medical Language System (UMLS) automatisch erzeugt. Ausgewählte Annotationen wurden durch menschliche Experten überprüft und stehen als sogenannter Goldstandard zur Validierung von Werkzeugen zur Verfügung.
V. 1.0 vom 15.07.2020:
Um Zugang zum GGPONC-Textkorpus zu erhalten, senden sie bitte eine Anfrage per E-Mail mit einer kurzen Beschreibung ihres Forschungsvorhabens an:
leitlinienprogramm[at]krebsgesellschaft.de