Forschung, Internet & Web 2.0, News
Schreibe einen Kommentar

Dresdner Planck-Forscher entwickeln neue Computer-Textanalysen

Symbolische Darstellung, wie man Sprache in einer binären Sequenz darstellt und so Rückschlüsse auf den Inhalt des Textes ziehen kann. Abb.: Gianluca Costantini , MPG

Symbolische Darstellung, wie man Sprache in einer binären Sequenz darstellt und so Rückschlüsse auf den Inhalt des Textes ziehen kann. Abb.: Gianluca Costantini , MPG

Maschinen suchen nach dem entscheidendem Wort

Dresden, 13.7.2012: Das dürfte sowohl „Google“ wie auch Plagiats-Jäger interessieren: Wie Forscher des Dresdner „Max-Planck-Instituts für Physik komplexer Systeme“ (MPI-PKS) durch statistische Textanalysen ermittelt haben, können die prägenden Schlüsselworte und das dahinter stehende Grundthema eines Buches oder Artikels durch Computerprogramme ermittelt werden – selbst wenn diese Schlüsselworte gar nicht so häufig im Text vorkommen oder weit voneinander entfernt verstreut sind.

Diese „Langzeitkorrelation“ finde sich selbst auf Buchstaben-Ebene wieder, betonte Teamleiter Eduardo Altmann. So ergab sich in Leo Tolstois „Krieg und Frieden“ eine überdurchschnittliche Häufig für den Buchstaben „K“ wie „Krieg“.

Die Forscher hatten die zehn ausgewählten Texte auf verschiedenen Ebenen mathematisch kodiert, um statistische Häufungen aufzuspüren – zum Beispiel wandelten sie Konsonanten und Vokale in Nullen und Einsen um, kodierten andererseits auch Buchstabenfolgen und Worte. Dann verglichen sie ihr eigenes, „menschliches“ Wissen um die Texte mit dem Themenresultaten der mathematischen Analysen – um beispielsweise zu ermitteln, ob sich die Programme durch – in allen Büchern unabhängig vom Thema gehäuft vorkommende – Buchstabenfolgen irre führen ließen, wie etwa Artikel (im Deutschen: „der“, „die“, „das“).

Algorithmen könnten Internetsuche nach relavanten Texten gegen Manipulationen besser schützen

Auch heute schon verwenden Internet-Suchmaschinen statistische Methoden, um die Relevanz von Web-Seiten für ein Thema zu ermitteln. Die Webspider schauen dabei aber eher auf reine Worthäufungen, was wiederum „Suchmaschinen-Optimierer“ nutzen, um ihre Treffer-Position zu erhöhen. Durch verfeinerte automatische Analysen auf verschiedenen Textebenen könnten solche Manipulationen deutlich erschwert werden. Heiko Weckbrodt

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.