Dresdner Planck-Forscher entwickeln neue Computer-Textanalysen

14. Juli 2012 Heiko Weckbrodt

Symbolische Darstellung, wie man Sprache in einer binären Sequenz darstellt und so Rückschlüsse auf den Inhalt des Textes ziehen kann. Abb.: Gianluca Costantini , MPG

Maschinen suchen nach dem entscheidendem Wort

Dresden, 13.7.2012: Das dürfte sowohl „Google“ wie auch Plagiats-Jäger interessieren: Wie Forscher des Dresdner „Max-Planck-Instituts für Physik komplexer Systeme“ (MPI-PKS) durch statistische Textanalysen ermittelt haben, können die prägenden Schlüsselworte und das dahinter stehende Grundthema eines Buches oder Artikels durch Computerprogramme ermittelt werden – selbst wenn diese Schlüsselworte gar nicht so häufig im Text vorkommen oder weit voneinander entfernt verstreut sind.

Diese „Langzeitkorrelation“ finde sich selbst auf Buchstaben-Ebene wieder, betonte Teamleiter Eduardo Altmann. So ergab sich in Leo Tolstois „Krieg und Frieden“ eine überdurchschnittliche Häufig für den Buchstaben „K“ wie „Krieg“.

Die Forscher hatten die zehn ausgewählten Texte auf verschiedenen Ebenen mathematisch kodiert, um statistische Häufungen aufzuspüren – zum Beispiel wandelten sie Konsonanten und Vokale in Nullen und Einsen um, kodierten andererseits auch Buchstabenfolgen und Worte. Dann verglichen sie ihr eigenes, „menschliches“ Wissen um die Texte mit dem Themenresultaten der mathematischen Analysen – um beispielsweise zu ermitteln, ob sich die Programme durch – in allen Büchern unabhängig vom Thema gehäuft vorkommende – Buchstabenfolgen irre führen ließen, wie etwa Artikel (im Deutschen: „der“, „die“, „das“).

Algorithmen könnten Internetsuche nach relavanten Texten gegen Manipulationen besser schützen

Auch heute schon verwenden Internet-Suchmaschinen statistische Methoden, um die Relevanz von Web-Seiten für ein Thema zu ermitteln. Die Webspider schauen dabei aber eher auf reine Worthäufungen, was wiederum „Suchmaschinen-Optimierer“ nutzen, um ihre Treffer-Position zu erhöhen. Durch verfeinerte automatische Analysen auf verschiedenen Textebenen könnten solche Manipulationen deutlich erschwert werden. Heiko Weckbrodt

Ihre Unterstützung für Oiger.de!

Ohne hinreichende Finanzierung ist unabhängiger Journalismus nach professionellen Maßstäben nicht dauerhaft möglich. Bitte unterstützen Sie daher unsere Arbeit! Wenn Sie helfen wollen, Oiger.de aufrecht zu erhalten, senden Sie Ihren Beitrag mit dem Betreff „freiwilliges Honorar“ via Paypal an:

paypal.me/oigerDD

Vielen Dank!

Maschinen suchen nach dem entscheidendem Wort

Algorithmen könnten Internetsuche nach relavanten Texten gegen Manipulationen besser schützen

Heiko Weckbrodt

Das könnte dir auch gefallen

Sachsens Handwerker ernüchtert: Herbst- und Merz-Belebung fällt aus

Elaskon etabliert Seil-Kompetenzzentrum in Sachsen

Bundestrojaner schnüffelte schon 50 bis 100 Mal

Schreibe einen Kommentar Antwort abbrechen