German Guideline Program in Oncology NLP Corpus (GGPONC)
Das deutschsprachige NLP-Textkorpus des Leitlinienprogramms Onkologie
Projektpartner
JULIE Lab der Friedrich-Schiller-Universität Jena
Das Jena University Language & Information Engineering Lab (JULIE Lab) konzentriert sich auf die automatische Textanalyse und ihre Anwendungen. Der Lehrstuhl arbeitet in verschiedenen Bereichen, Sprachen und Genres, einschließlich biomedizinischer, klinischer, ökologischer und wirtschaftlicher Texte sowie der Digital Humanities (Digitale Gesellschaftswissenschaften). Neben dem Schwerpunkt, reale natürliche Sprachsysteme aufzubauen, liegt der Fokus auch auf einer methodisch soliden Basis in Bezug auf sprachtechnologische Werkzeuge und Ressourcen. Die Mitarbeiter arbeiten intensiv an der Entwicklung syntaktischer, semantischer und Diskursprozessoren sowie domänenspezifischer Wissensressourcen (Ontologien).
Im Laufe der Jahre hat das JULIE Lab einen beachtlichen internationalen Ruf sowie eine starke externe Sichtbarkeit erlangt und ist an verschiedenen nationalen und internationalen Forschungsprojekten und Kooperationen beteiligt.
Hasso-Plattner-Institut für Digital Engineering gGmbH
Das Hasso-Plattner-Institut (HPI) ist Teil der Digital-Engineering-Fakultät der Universität Potsdam und gilt als Deutschlands Exzellenzzentrum für die Ausbildung von Software-Ingenieuren. Die Arbeitsgruppe von Herrn Dr. Schapranow bringt langjährige Erfahrung in Digital Health und bei der Verwendung der innovativen In-Memory-Daten- banktechnologie, sowie bei der erfolgreichen Durchführung nationaler und internationaler Projekte mit ein, z. B. die BMBF geförderte Medizininformatik-Initiative im Konsortium „HiGHmed”.
Motivation
Gemeinsam mit dem Hasso-Plattner-Institut für Digital Engineering gGmbH in Potsdam und der Friedrich-Schiller-Universität in Jena stellt das Leitlinienprogramm Onkologie mit GGPONC das erste deutschsprachige medizinische Textkorpus basierend auf klinischen Leitlinien bereit.
Bislang stehen vor allem englischsprachige Texte und damit auch nur Werkzeuge für englischsprachige Texte zur Verfügung. Das deutschsprachige Textkorpus leistet hier einen wertvollen Beitrag zur Forschung im Bereich der Medizininformatik und Computerlinguistik. Es ermöglicht, Methoden zur Analyse medizinischer Texte anhand realer deutschsprachiger Fachtexte zu erforschen. Nur so können Forschende erfolgreich ihre Konzepte und Methoden für die Verarbeitung von deutschsprachigen Texten erproben und verbessern. Im Gegensatz zu anderen medizinischen Korpora enthält das GGPONC-Korpus keine personenbezogenen Daten und ist daher für Forschende ohne Datenschutzauflagen frei verwendbar.
Beschreibung
GGPONC basiert auf den semi-strukturierten Daten, die auch die Grundlage der Leitlinien-App sind. Hierdurch stehen Fachtexte in einer sehr hohen Datenqualität zur Verfügung. Neben den reinen Textdaten stellen wir zusätzlich auch umfangreiche Metadaten, z.B. zu Evidenzleveln und Literaturverweisen, zur Verfügung.
Alle Texte wurden manuell von medizinischen Experten mit den Entitätsklassen Befund, Substanz und Prozedur (angelehnt an das SNOMED-CT-Konzeptmodell) annotiert. Hierdurch stehen über 200.000 komplexe Entitätsannotationen zur Verfügung, die zum Training von ML-Modellen verwendet werden können. Basismodelle werden von uns zusammen mit den Daten zur Verfügung gestellt.
Versionen
V. 2.0 vom 01.06.2022:
- > 10.000 Textabschnitte
- > 1,8 Mio. Tokens
- > 200 Tausend annotierte Entitäten
- etwa 46.000 Literaturreferenzen
- 30 Leitlinien:
- Magenkarzinom
- Aktinische Keratose und Plattenepithelkarzinom der Haut
- Prävention Zervixkarzinom
- Ösophaguskarzinom
- Harnblasenkarzinom
- Hautkrebsprävention
- Malignes Melanom
- Mundhöhlenkarzinom
- Psychoonkologie
- Mammakarzinom
- Pankreaskarzinom
- Hodgkin Lymphom
- Prostatakarzinom
- Chronisch lymphatische Leukämie (CLL)
- Kolorektales Karzinom
- Endometriumkarzinom
- HCC und biliäre Karzinome
- Nierenzellkarzinom
- Supportive Therapie
- Zervixkarzinom
- Maligne Ovarialtumoren
- Lungenkarzinom
- Hodentumoren
- Larynxkarzinom
- Palliativmedizin
- Neu gegenüber Version 1.0:
- Komplementärmedizin
- Peniskarzinom
- Analkarzinom
- Follikuläres Lymphom
- Adulte Weichgewebesarkome
V. 1.0 vom 15.07.2020
- > 8.000 Textabschnitte
- > 1,3 Mio. Tokens
- etwa 40.000 Literaturreferenzen
- 25 Leitlinien
Zugang & Downloadmöglichkeiten
Um Zugang zum GGPONC-Textkorpus zu erhalten, senden Sie bitte eine Anfrage mit kurzer Beschreibung Ihres Forschungsvorhabens über Zenodo:
https://zenodo.org/communities/german-cancer-society/records?f=subject%3Aggponc
Nutzungsbedingungen
- GGPONC darf ausschließlich für nichtkommerzielle Forschungsaktivitäten verwendet werden.
- GGPONC darf ohne Zustimmung des Leitlinienprogramms Onkologie nicht weiterverbreitet werden. Alle Nutzer müssen unabhängig Zugang beantragen.
- GGPONC ist in allen seinen Teilen urheberrechtlich geschützt. Jede Verwertung außerhalb der Bestimmung des Urhebergesetzes ist ohne schriftliche Zustimmung der OL-Redaktion unzulässig und strafbar. Kein Teil des Werkes darf in irgendeiner Form ohne schriftliche Genehmigung der OL-Redaktion reproduziert werden.
- GGPONC wird kostenlos bereitgestellt.
- GGPONC wird ohne Garantien, insbesondere zur Korrektheit der enthaltenen Informationen, bereitgestellt. Die aktuellen Leitlinien des Leitlinienprogramms Onkologie finden sich auf der offiziellen Website: https://www.leitlinienprogramm-onkologie.de/
- Auf GGPONC basierende Arbeiten müssen folgende Publikation zitieren:
- Florian Borchert, Christina Lohr, Luise Modersohn, Jonas Witt, Thomas Langer, Markus Follmann, Matthias Gietzelt, Bert Arnrich, Udo Hahn, and Matthieu-P. Schapranow. 2022. GGPONC 2.0 - The German Clinical Guideline Corpus for Oncology: Curation Workflow, Annotation Policy, Baseline NER Taggers. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 3650–3660, Marseille, France. European Language Resources Association.“
Weitere Publikationen zu GGPONC
Florian Borchert, Laura Meister, Thomas Langer, Markus Follmann, Bert Arnrich, and Matthieu-P. Schapranow. Controversial Trials First: Identifying Disagreement Between Clinical Guidelines and New Evidence, Proceedings of the AMIA Annual Symposium, pp. 237-246, San Diego, USA, 2021 (Distinguished Paper Award)
Eine Initiative innerhalb von:
Mehr erfahren: