Text-MiningArtikel druckenzurueck

Text-Mining dient u.a. dazu, grundlegene Konzepte in Texten semi-automatisch identifizieren bzw. Zusammenhänge zwischen Dokumenten automatisch erkennen zu können.

Zwei grundlegend verschiedene Verfahren

Es können zwei grundlegend verschiedene Text-Mining-Verfahren unterschieden werden, die jeweils ihre Vor- und Nachteile aufweisen:

Unter CIE (Correlation Information Extraction) versteht man statistisch-korrelative Extraktion:

  • Gewichtung der Beziehungen zwischen Begriffen passiert auf Basis statistischer Vefahren bzw. neuronaler Netzwerke
  • Vorteile: Sprachunabhängig und ohne Trainingsaufwand einsetzbar, mit semantischen Netzen koppelbar
  • Nachteil: Beziehungen zwischen Wörtern bleiben unqualifiziert, Regeln für Flexionsformen nur in Kombination mit Fuzzy-Ansätzen

Unter SIE (Semantic Information Extraction) versteht man semantische Informationsextraktion:

  • basiert auf linguistische Verfahren
  • das semantische Verständnis der Wörter wird durch umfangreiche Regelwerke abgebildet
  • Vorteil: Zusammenhänge sind exakt formulierbar, Worte werden zerlegt und „verstanden“
  • Nachteil: sprachabhängiger, aufwendiger Aufbau von Begriffslexika und Grammatiken notwendig

Morphologische Wortanalyse

Ein wesentliches Qualitätsmerkmal einer Text-Mining Komponente ist die automatische Erkennung von sog. "Morphemen".

Damit wird z.B. erkannt, dass "die Schiedsrichterfehlentscheidung" semantisch äquivalent zur "fehlerhaften Entscheidung des Schiedsrichters" ist.