JULIE Lab der Friedrich-Schiller-Universität Jena
Das Jena University Language & Information Engineering Lab (JULIE Lab) konzentriert sich auf die automatische Textanalyse und ihre Anwendungen. Der Lehrstuhl arbeitet in verschiedenen Bereichen, Sprachen und Genres, einschließlich biomedizinischer, klinischer, ökologischer und wirtschaftlicher Texte sowie der Digital Humanities (Digitale Gesellschaftswissenschaften). Neben dem Schwerpunkt, reale natürliche Sprachsysteme aufzubauen, liegt der Fokus auch auf einer methodisch soliden Basis in Bezug auf sprachtechnologische Werkzeuge und Ressourcen. Die Mitarbeiter arbeiten intensiv an der Entwicklung syntaktischer, semantischer und Diskursprozessoren sowie domänenspezifischer Wissensressourcen (Ontologien).
Im Laufe der Jahre hat das JULIE Lab einen beachtlichen internationalen Ruf sowie eine starke externe Sichtbarkeit erlangt und ist an verschiedenen nationalen und internationalen Forschungsprojekten und Kooperationen beteiligt.
Hasso-Plattner-Institut für Digital Engineering gGmbH
Das Hasso-Plattner-Institut (HPI) ist Teil der Digital-Engineering-Fakultät der Universität Potsdam und gilt als Deutschlands Exzellenzzentrum für die Ausbildung von Software-Ingenieuren. Die Arbeitsgruppe von Herrn Dr. Schapranow bringt langjährige Erfahrung in Digital Health und bei der Verwendung der innovativen In-Memory-Daten- banktechnologie, sowie bei der erfolgreichen Durchführung nationaler und internationaler Projekte mit ein, z. B. die BMBF geförderte Medizininformatik-Initiative im Konsortium „HiGHmed”.
Gemeinsam mit dem Hasso-Plattner-Institut für Digital Engineering gGmbH in Potsdam und der Friedrich-Schiller-Universität in Jena stellt das Leitlinienprogramm Onkologie mit GGPONC das erste deutschsprachige medizinische Textkorpus basierend auf klinischen Leitlinien bereit.
Bislang stehen vor allem englischsprachige Texte und damit auch nur Werkzeuge für englischsprachige Texte zur Verfügung. Das deutschsprachige Textkorpus leistet hier einen wertvollen Beitrag zur Forschung im Bereich der Medizininformatik und Computerlinguistik. Es ermöglicht, Methoden zur Analyse medizinischer Texte anhand realer deutschsprachiger Fachtexte zu erforschen. Nur so können Forschende erfolgreich ihre Konzepte und Methoden für die Verarbeitung von deutschsprachigen Texten erproben und verbessern. Im Gegensatz zu anderen medizinischen Korpora enthält das GGPONC-Korpus keine personenbezogenen Daten und ist daher für Forschende ohne Datenschutzauflagen frei verwendbar.
GGPONC basiert auf den semi-strukturierten Daten, die auch die Grundlage der Leitlinien-App sind. Hierdurch stehen Fachtexte in einer sehr hohen Datenqualität zur Verfügung. Neben den reinen Textdaten stellen wir zusätzlich auch umfangreiche Metadaten, z.B. zu Evidenzleveln und Literaturverweisen, zur Verfügung.
Alle Texte wurden manuell von medizinischen Experten mit den Entitätsklassen Befund, Substanz und Prozedur (angelehnt an das SNOMED-CT-Konzeptmodell) annotiert. Hierdurch stehen über 200.000 komplexe Entitätsannotationen zur Verfügung, die zum Training von ML-Modellen verwendet werden können. Basismodelle werden von uns zusammen mit den Daten zur Verfügung gestellt.
V. 2.0 vom 01.06.2022:
V. 1.0 vom 15.07.2020
Um Zugang zum GGPONC-Textkorpus zu erhalten, senden sie bitte eine Anfrage per E-Mail mit einer kurzen Beschreibung ihres Forschungsvorhabens an:
leitlinienprogramm[at]krebsgesellschaft.de
Florian Borchert, Christina Lohr, Luise Modersohn, Jonas Witt, Thomas Langer, Markus Follmann, Matthias Gietzelt, Bert Arnrich, Udo Hahn and Matthieu-P. Schapranow. GGPONC 2.0 - The German Clinical Guideline Corpus for Oncology: Curation Workflow, Annotation Policy, Baseline NER Taggers. LREC 2022 — Proceedings of the 13th International Conference on Language Resources and Evaluation. Marseille, France, 2022 (Download Poster)
Florian Borchert, Laura Meister, Thomas Langer, Markus Follmann, Bert Arnrich, and Matthieu-P. Schapranow. Controversial Trials First: Identifying Disagreement Between Clinical Guidelines and New Evidence, Proceedings of the AMIA Annual Symposium, pp. 237-246, San Diego, USA, 2021 (Distinguished Paper Award)