Download
Pokora-et-al_2019_Validation of semantic analyses of unstructured medical data for research purposes.pdf 287,04KB
WeightNameValue
1000 Titel
  • Validation of Semantic Analyses of Unstructured Medical Data for Research Purposes
1000 Titelzusatz
  • Validierung von semantischen Analysen von unstrukturierten medizinischen Daten für Forschungszwecke
1000 Autor/in
  1. Pokora, Roman Michael |
  2. Le Cornet, Lucian |
  3. Daumke, Philip |
  4. Mildenberger, Peter |
  5. Zeeb, Hajo |
  6. Blettner, Maria |
1000 Erscheinungsjahr 2019
1000 LeibnizOpen
1000 Publikationstyp
  1. Artikel |
1000 Online veröffentlicht
  • 2019-10-09
1000 Erschienen in
1000 Quellenangabe
  • 82(S02):S158-S164
1000 FRL-Sammlung
1000 Copyrightjahr
  • 2019
1000 Lizenz
1000 Verlagsversion
  • https://doi.org/10.1055/a-1007-8540 |
1000 Publikationsstatus
1000 Begutachtungsstatus
1000 Sprache der Publikation
1000 Abstract/Summary
  • BACKGROUND: In secondary data there are often unstructured free texts. The aim of this study was to validate a text mining system to extract unstructured medical data for research purposes. METHODS: From a radiological department, 1,000 out of 7,102 CT findings were randomly selected. These were manually divided into defined groups by 2 physicians. For automated tagging and reporting, the text analysis software Averbis Extraction Platform (AEP) was used. Special features of the system are a morphological analysis for the decomposition of compound words as well as the recognition of noun phrases, abbreviations and negated statements. Based on the extracted standardized keywords, findings reports were assigned to the given findings groups using machine learning methods. To assess the reliability and validity of the automated process, the automated and two independent manual mappings were compared for matches in multiple runs. RESULTS: Manual classification was too time-consuming. In the case of automated keywording, the classification according to ICD-10 turned out to be unsuitable for our data. It also showed that the keyword search does not deliver reliable results. Computer-aided text mining and machine learning resulted in reliable results. The inter-rater reliability of the two manual classifications, as well as the machine and manual classification was very high. Both manual classifications were consistent in 93% of all findings. The kappa coefficient is 0.89 [95% confidence interval (CI) 0.87–0.92]. The automatic classification agreed with the independent, second manual classification in 86% of all findings (Kappa coefficient 0.79 [95% CI 0.75–0.81]). DISCUSSION: The classification of the software AEP was very good. In our study, however, it followed a systematic pattern. Most misclassifications were found in findings that indicate an increased risk of cancer. The free-text structure of the findings raises concerns about the feasibility of a purely automated analysis. The combination of human intellect and intelligent, adaptive software appears most suitable for mining unstructured but important textual information for research.
  • HINTERGRUND: In Sekundärdaten existieren oftmals unstrukturierte Freitexte. In dieser Arbeit wird ein Text-Mining-System validiert, um unstrukturierte medizinische Daten für Forschungszwecke zu extrahieren. METHODEN: Aus einer radiologischen Klinik wurden aus 7102 CT-Befunden 1000 zufällig ausgewählt. Diese wurden von 2 Medizinern manuell in definierte Befundgruppen eingeteilt. Zur automatisierten Verschlagwortung und Klassifizierung wurde die Textanalyse-Software Averbis Extraction Platform (AEP) eingesetzt. Besonderheiten des Systems sind u. a. eine morphologische Analyse zur Zerlegung zusammengesetzter Wörter sowie die Erkennung von Nominalphrasen, Abkürzungen und negierten Aussagen. Anhand der extrahierten standardisierten Schlüsselwörter werden Befundberichte mithilfe maschineller Lernverfahren den vorgegebenen Befundgruppen zugeordnet. Zur Bewertung von Reliabilität und Validität des automatisierten Verfahrens werden die automatisierten und 2 unabhängige manuelle Klassifizierungen in mehreren Durchläufen auf Übereinstimmungen hin verglichen. ERGEBNISSE: Die manuelle Klassifizierung war zu zeitaufwendig. Bei der automatisierten Verschlagwortung stellte sich in unseren Daten die Klassifizierung nach ICD-10 als ungeeignet heraus. Ebenfalls zeigte sich, dass die Stichwortsuche keine verlässlichen Ergebnisse liefert. Computerunterstütztes Textmining in Kombination mit maschinellem Lernen führte zu verlässlichen Klassifizierungen. Die Inter-Rater-Reliabilität der beiden manuellen Klassifizierungen, sowie der maschinellen und der manuellen Klassifizierung war sehr hoch. Beide manuelle Klassifizierungen stimmten in 93% aller Befunde überein. Der Kappa-Koeffizient beträgt 0,89 [95% Konfidenzintervall (KI) 0,87–0,92]. Die automatische Klassifizierung stimmte in 86% aller Befunde mit der unabhängigen, zweiten manuellen Klassifizierung überein (Kappa-Koeffizient 0,79 [95% KI 0,75–0,81]). DISKUSSION: Die Klassifizierung der Software AEP war sehr gut. In unserer Studie folgte sie allerdings einem systematischen Muster. Die meisten falschen Zuordnungen finden sich in Befunden, die auf ein erhöhtes Krebsrisiko hinweisen. Die Freitextstruktur der Befunde lässt Bedenken hinsichtlich der Machbarkeit einer rein automatisierten Analyse aufkommen. Die Kombination aus menschlichem Intellekt und einer intelligenten, lernfähigen Software erscheint als zukunftsweisend, um unstrukturierte aber wichtige Textinformationen der Forschung zugänglich machen zu können.
1000 Sacherschließung
lokal Secondary data
lokal Text-mining
lokal Validation
lokal Unstrukturierte Freitext
lokal Unstructured free text
lokal Validierung
lokal Sekundärdaten
1000 Fächerklassifikation (DDC)
1000 Liste der Beteiligten
  1. https://frl.publisso.de/adhoc/uri/UG9rb3JhLCBSb21hbiBNaWNoYWVs|https://frl.publisso.de/adhoc/uri/TGUgQ29ybmV0LCBMdWNpYW4=|https://frl.publisso.de/adhoc/uri/RGF1bWtlLCBQaGlsaXA=|https://frl.publisso.de/adhoc/uri/TWlsZGVuYmVyZ2VyLCBQZXRlcg==|https://orcid.org/0000-0001-7509-242X|https://frl.publisso.de/adhoc/uri/QmxldHRuZXIsIE1hcmlh
1000 Label
1000 Fördernummer
  1. -
1000 Förderprogramm
  1. -
1000 Dateien
  1. Validation of semantic analyses of unstructured medical data for research purposes
1000 Objektart article
1000 Beschrieben durch
1000 @id frl:6421345.rdf
1000 Erstellt am 2020-06-15T14:59:31.422+0200
1000 Erstellt von 266
1000 beschreibt frl:6421345
1000 Bearbeitet von 218
1000 Zuletzt bearbeitet 2021-09-20T15:54:53.721+0200
1000 Objekt bearb. Mon Sep 20 15:54:53 CEST 2021
1000 Vgl. frl:6421345
1000 Oai Id
  1. oai:frl.publisso.de:frl:6421345 |
1000 Sichtbarkeit Metadaten public
1000 Sichtbarkeit Daten public
1000 Gegenstand von

View source