Technologien
Text-MiningArtikel druckenzurueck
Zwei grundlegend verschiedene Verfahren
Es können zwei grundlegend verschiedene Text-Mining-Verfahren unterschieden werden, die jeweils ihre Vor- und Nachteile aufweisen:
Unter CIE (Correlation Information Extraction) versteht man statistisch-korrelative Extraktion:
- Gewichtung der Beziehungen zwischen Begriffen passiert auf Basis statistischer Vefahren bzw. neuronaler Netzwerke
- Vorteile: Sprachunabhängig und ohne Trainingsaufwand einsetzbar, mit semantischen Netzen koppelbar
- Nachteil: Beziehungen zwischen Wörtern bleiben unqualifiziert, Regeln für Flexionsformen nur in Kombination mit Fuzzy-Ansätzen
Unter SIE (Semantic Information Extraction) versteht man semantische Informationsextraktion:
- basiert auf linguistische Verfahren
- das semantische Verständnis der Wörter wird durch umfangreiche Regelwerke abgebildet
- Vorteil: Zusammenhänge sind exakt formulierbar, Worte werden zerlegt und „verstanden“
- Nachteil: sprachabhängiger, aufwendiger Aufbau von Begriffslexika und Grammatiken notwendig
Morphologische Wortanalyse
Ein wesentliches Qualitätsmerkmal einer Text-Mining Komponente ist die automatische Erkennung von sog. "Morphemen".
Damit wird z.B. erkannt, dass "die Schiedsrichterfehlentscheidung" semantisch äquivalent zur "fehlerhaften Entscheidung des Schiedsrichters" ist.

+43 - 1 - 897 41 22 | Fax - 22
