German Guideline Program in Oncology NLP Corpus (GGPONC)

Das deutschsprachige NLP-Textkorpus des Leitlinienprogramms Onkologie

Projektpartner

JULIE Lab der Friedrich-Schiller-Universität Jena

Das Jena University Language & Information Engineering Lab (JULIE Lab) konzentriert sich auf die automatische Textanalyse und ihre Anwendungen. Der Lehrstuhl arbeitet in verschiedenen Bereichen, Sprachen und Genres, einschließlich biomedizinischer, klinischer, ökologischer und wirtschaftlicher Texte sowie der Digital Humanities (Digitale Gesellschaftswissenschaften). Neben dem Schwerpunkt, reale natürliche Sprachsysteme aufzubauen, liegt der Fokus auch auf einer methodisch soliden Basis in Bezug auf sprachtechnologische Werkzeuge und Ressourcen. Die Mitarbeiter arbeiten intensiv an der Entwicklung syntaktischer, semantischer und Diskursprozessoren sowie domänenspezifischer Wissensressourcen (Ontologien).

Im Laufe der Jahre hat das JULIE Lab einen beachtlichen internationalen Ruf sowie eine starke externe Sichtbarkeit erlangt und ist an verschiedenen nationalen und internationalen Forschungsprojekten und Kooperationen beteiligt.

Hasso-Plattner-Institut für Digital Engineering gGmbH

Das Hasso-Plattner-Institut (HPI) ist Teil der Digital-Engineering-Fakultät der Universität Potsdam und gilt als Deutschlands Exzellenzzentrum für die Ausbildung von Software-Ingenieuren. Die Arbeitsgruppe von Herrn Dr. Schapranow bringt langjährige Erfahrung in Digital Health und bei der Verwendung der innovativen In-Memory-Daten- banktechnologie, sowie bei der erfolgreichen Durchführung nationaler und internationaler Projekte mit ein, z. B. die BMBF geförderte Medizininformatik-Initiative im Konsortium „HiGHmed”.

Motivation

Gemeinsam mit dem Hasso-Plattner-Institut für Digital Engineering gGmbH in Potsdam und der Friedrich-Schiller-Universität in Jena stellt das Leitlinienprogramm Onkologie mit GGPONC das erste deutschsprachige medizinische Textkorpus basierend auf klinischen Leitlinien bereit.

Bislang stehen vor allem englischsprachige Texte und damit auch nur Werkzeuge für englischsprachige Texte zur Verfügung. Das deutschsprachige Textkorpus leistet hier einen wertvollen Beitrag zur Forschung im Bereich der Medizininformatik und Computerlinguistik. Es ermöglicht, Methoden zur Analyse medizinischer Texte anhand realer deutschsprachiger Fachtexte zu erforschen. Nur so können Forschende erfolgreich ihre Konzepte und Methoden für die Verarbeitung von deutschsprachigen Texten erproben und verbessern. Im Gegensatz zu anderen medizinischen Korpora enthält das GGPONC-Korpus keine personenbezogenen Daten und ist daher für Forschende ohne Datenschutzauflagen frei verwendbar.

Beschreibung

GGPONC basiert auf den semi-strukturierten Daten, die auch die Grundlage der Leitlinien-App sind. Hierdurch stehen Fachtexte in einer sehr hohen Datenqualität zur Verfügung. Neben den reinen Textdaten stellen wir zusätzlich auch umfangreiche Metadaten, z.B. zu Evidenzleveln und Literaturverweisen, zur Verfügung.

Alle Texte wurden manuell von medizinischen Experten mit den Entitätsklassen Befund, Substanz und Prozedur (angelehnt an das SNOMED-CT-Konzeptmodell) annotiert. Hierdurch stehen über 200.000 komplexe Entitätsannotationen zur Verfügung, die zum Training von ML-Modellen verwendet werden können. Basismodelle werden von uns zusammen mit den Daten zur Verfügung gestellt.

Versionen

V. 2.0 vom 01.06.2022:

  • > 10.000 Textabschnitte
  • > 1,8 Mio. Tokens
  • > 200 Tausend annotierte Entitäten
  • etwa 46.000 Literaturreferenzen
  • 30 Leitlinien:
    • Magenkarzinom
    • Aktinische Keratose und Plattenepithelkarzinom der Haut
    • Prävention Zervixkarzinom
    • Ösophaguskarzinom
    • Harnblasenkarzinom
    • Hautkrebsprävention
    • Malignes Melanom
    • Mundhöhlenkarzinom
    • Psychoonkologie
    • Mammakarzinom
    • Pankreaskarzinom
    • Hodgkin Lymphom
    • Prostatakarzinom
    • Chronisch lymphatische Leukämie (CLL)
    • Kolorektales Karzinom
    • Endometriumkarzinom
    • HCC und biliäre Karzinome
    • Nierenzellkarzinom
    • Supportive Therapie
    • Zervixkarzinom
    • Maligne Ovarialtumoren
    • Lungenkarzinom
    • Hodentumoren
    • Larynxkarzinom
    • Palliativmedizin
    • Neu gegenüber Version 1.0:
      • Komplementärmedizin
      • Peniskarzinom
      • Analkarzinom
      • Follikuläres Lymphom
      • Adulte Weichgewebesarkome

V. 1.0 vom 15.07.2020

  • > 8.000 Textabschnitte
  • > 1,3 Mio. Tokens
  • etwa 40.000 Literaturreferenzen
  • 25 Leitlinien

Zugang & Downloadmöglichkeiten

Um Zugang zum GGPONC-Textkorpus zu erhalten, senden sie bitte eine Anfrage per E-Mail mit einer kurzen Beschreibung ihres Forschungsvorhabens an:

leitlinienprogramm[at]krebsgesellschaft.de

Nutzungsbedingungen

  • GGPONC darf ausschließlich für nichtkommerzielle Forschungsaktivitäten verwendet werden.
  • GGPONC darf ohne Zustimmung des Leitlinienprogramms Onkologie nicht weiterverbreitet werden. Alle Nutzer müssen unabhängig Zugang beantragen.
  • GGPONC ist in allen seinen Teilen urheberrechtlich geschützt. Jede Verwertung außerhalb der Bestimmung des Urhebergesetzes ist ohne schriftliche Zustimmung der OL-Redaktion unzulässig und strafbar. Kein Teil des Werkes darf in irgendeiner Form ohne schriftliche Genehmigung der OL-Redaktion reproduziert werden.
  • GGPONC wird kostenlos bereitgestellt.
  • GGPONC wird ohne Garantien, insbesondere zur Korrektheit der enthaltenen Informationen, bereitgestellt. Die aktuellen Leitlinien des Leitlinienprogramms Onkologie finden sich auf der offiziellen Website: https://www.leitlinienprogramm-onkologie.de/
  • Auf GGPONC basierende Arbeiten müssen folgende Publikation zitieren:

Weitere Publikationen zu GGPONC

Florian Borchert, Laura Meister, Thomas Langer, Markus Follmann, Bert Arnrich, and Matthieu-P. Schapranow. Controversial Trials First: Identifying Disagreement Between Clinical Guidelines and New Evidence, Proceedings of the AMIA Annual Symposium, pp. 237-246, San Diego, USA, 2021 (Distinguished Paper Award)

siehe auch Publikationen, die GGPONC 1.0 und 2.0 zitieren

Eine Initiative innerhalb von: