Diplomarbeit

Wissensrepräsentation in semantischen Netzen: Automatische Bedeutungsextraktion mittels moderner Suchtechnologien

Kaser, Armin. (2009). Wissensrepräsentation in semantischen Netzen: Automatische Bedeutungsextraktion mittels moderner Suchtechnologien.
Begutachter: Prof. Pierre Sachse
Diplomarbeit, Universität Innsbruck, Fakultät für Psychologie

Buch Dr. Armin Kaser Diplomarbeit Universität Innsbruck Masterarbeit

Die vollständige Diplomarbeit können Sie an der Unibibliothek Innsbruck ausleihen: weiter zum Bibliothekseintrag. Unten stehend finden sie auszugsweise die Abschnitte:

Zusammenfassung/Abstract

Weil moderne Suchmaschinen Parallelen dazu aufweisen, wie auch das menschliche Gehirn funktioniert, kann aus der Trefferanzahl, die zwei Begriffe in einer Suchanfrage erzielen, bestimmt werden, wie semantisch ähnlich sich diese sind. Dadurch lassen sich vollautomatisch semantische Netze erstellen.

Die vorliegende Untersuchung konnte dieses Verfahren der automatischen Erstellung semantischer Netze erstmals an einem natürlichen Datensatz validieren. In einem weiteren Schritt wurden vier moderne Suchmaschinen (GOOGLE, YAHOO, MSN, und SCIRUS) sowie vier Webverzeichnisse (ALLESKLAR.DE, WEB.DE, OPEN DIRECTORY und YAHOO VERZEICHNIS) auf ihre Eignung für dieses Verfahren hin überprüft.

Die Ergebnisse legen nahe, dass in bisherigen Studien die denkbar ungünstigste Alternative GOOGLE gewählt wurde und dass die bisher nicht für diesen Zweck verwendeten Webverzeichnisse generell besser geeignet sind als Suchmaschinen.

Ein neuer Ansatz dieser Untersuchung kombiniert die Vorteile der großen Indizes von Suchmaschinen und der redaktionellen Qualitätssicherung von Webverzeichnissen. Durch die Verwendung von Daten der freien Enzyklopädie WIKIPEDIA kann die Effizienz des Verfahrens nachweislich noch weiter gesteigert werden.

Einleitung

Wenn Sie morgens ihr Emailfach öffnen, wundern Sie sich, wie einfallslos die Versender von Spammails sein müssen. „Tuyet Hazer wants to see you again“. Und AUTOVERLOSUNG.DE will Ihnen einen Golf GTI schenken. Nach dem BMW von letzter Woche. Und dem Audi der Woche davor. Auf den ersten Blick lässt sich erkennen, dass diese Emails in den Müll gehören. Aber warum weiß das Ihr Emailprogramm nicht?

Künstliche Intelligenz tut sich schwer mit Bedeutungen. Menschen lernen Bedeutungen selbstständig, jeden Tag, mit jeder Unterhaltung, mit jedem gelesenen Wort und selbst aus situativen Kontexten. Computer warten darauf, dass ihnen etwas beigebracht wird. Doch die Überführung von  menschlichem Wissen in maschinenlesbare Form ist extrem aufwändig. Deshalb haben Psychologie, Informatik und Linguistik Verfahren entwickelt,
die diese Aufgabe übernehmen sollen. Die vorliegende Arbeit beschäftigt sich mit der automatischen Bedeutungsextraktion aus der größten Datenbank die es gibt: Dem Internet.

In dieser Untersuchung wird gezeigt, dass es möglich ist, mittels einfacher Suchanfragen an moderne Suchmaschinen und Webverzeichnisse die Bedeutungen von beliebigen Begriffen zu bestimmen. Diese Bedeutungen werden als Begriffsrelationen abgespeichert. Für diese Repräsentation von Wissen bieten sich semantische Netze an. So treffen sich Informatik, Psychologie und Linguistik, denn semantische Netze sind ein Modell der Psychologie,
das auch die Organisation des semantischen Wissens im menschlichen Gehirn erklärt. So gibt die kognitive Psychologie einerseits Aufschluss über die Funktionsweise des semantischen Gedächtnisses, bietet andererseits aber auch Anregungen für die Organisation von Wissen in künstlichen Systemen. Auch aus der biologischen Psychologie können Anregungen kommen, wie beispielsweise bei künstlichen neuronalen Netzen, die sich an der Funktionsweise von Nervenzellen orientieren. Die beiden Modelle „semantische Netze“ und „neuronale Netze“ werden deshalb im Theorieteil ausführlich bearbeitet. Neben der Validierung des Verfahrens zur automatischen Erstellung von semantischen Netzen mithilfe von Suchmaschinen wird auch ermittelt, welche der aktuellen Suchmaschinen sich für diesen Zweck am besten eignet – mit unerwartetem Ergebnis.

In der Folge wird auch untersucht, ob durch die Verwendung von Webverzeichnissen anstelle der Suchmaschinen oder einer Beschränkung auf einen hochwertigen Teil des Datensatzes bessere Ergebnisse erzielt werden können. Beide Ansätze wurden in früheren Studien noch nicht untersucht.

Diese Arbeit trägt dadurch ihren Teil dazu bei, das Verfahren zur automatischen Erstellung von semantischen Netzen zu verfeinern, und damit dem spamresistenten Emailprogramm einen Schritt näher zu kommen. Damit Sie nie mehr eine Email von Tuyet Hazer löschen müssen. Und das Auto würden Sie sowieso nicht bekommen.

Literaturverzeichnis (Auswahl)

Callan, R. (2003). Neuronale Netze im Klartext. Pearson Studium Im Klartext. München: Pearson Studium.

Chung, D. & Klünder, A. (2007). Suchmaschinen-Optimierung: Der schnelle Einstieg (1. Aufl.). mitp. Heidelberg: REDLINE/mitp.

Cilibrasi, R. & Vitányi, P. (2005, 15. März). Automatic Meaning Discovery Using Google. Verfügbar unter: http://arxiv.org/pdf/cs/0412098v2 [17.9.2008].

Cilibrasi, R. & Vitányi, P. (2007). The Google Similarity Distance. IEEE Transactions on Knowledge and Data Engineering (3), 370-383.

Collins, A. & Loftus, E. (1975). A spreading-activation theory of semantic processing. Psychological Review (82), 407-428.

Collins, A.& Quillian M. R. (1969). Retrieval time from semantic memory. Journal of Verbal Learning and Verbal Behavior (8).

Gregory, R. L. (Hrsg.). (2001). The Oxford companion to the mind (Repr.). Oxford: Oxford Univ. Press.

Griffiths, T., Steyvers, M. & Firl, A. (2007). Google and the mind: predicting fluency with PageRank. Psychological science : a journal of the American Psychological Society (18 (12)), 1069-1076.

Hoffmann, J. (1993). Vorhersage und Erkenntnis: Die Funktion von Antizipationen in der menschlichen Verhaltenssteuerung und Wahrnehmung. Göttingen: Hogrefe.

Holman-Rector, L. (2008). Comparison of Wikipedia and other encyclopedias for accuracy, breadth, and depth in historical articles. Reference Services Review (36), 7-22.

Kiefer, M. (1999). Die Organisation des semantischen Gedächtnisses: Ereigniskorrelierte Potentiale bei der Kategorisierung von Bildern und Wörtern (1. Aufl.). Aus dem Programm Huber. Bern: Huber.

Kohonen, T. (1989). Self-organization and associative memory (3. ed.). Springer series in information sciences: Bd. 8. Berlin u.a.: Springer.

Kolar, G. & Sachse, P. (2008). Computer modeling of concept-nets. In C. Dalbert (Hrsg.). International Journal of Psychology, Volume 43, Issue 3/4, Abstracts. (S. 790).

Lewandowski, D. (2005a). Web Information Retrieval: Technologien zur Informationssuche im Internet. Reihe Informationswissenschaft der DGI: Bd. 7. Frankfurt am Main: Dt. Ges. für Informationswiss. und Informationspraxis.

Schermer, F. J. (2002). Lernen und Gedächtnis (3., überarb. und erw. Aufl.). Urban-Taschenbücher: Bd. Bd. 559. Stuttgart: Kohlhammer.

Sedlmeier, P. & Renkewitz, F. (2008). Forschungsmethoden und Statistik in der Psychologie. PSPsychologie. München: Pearson Studium.

Solso, R. L. & Reiss, M. (2005). Kognitive Psychologie. Springer-Lehrbuch. Heidelberg: Springer.

Spitzer, M. (2000). Geist im Netz: Modelle für Lernen, Denken und Handeln. Heidelberg: Spektrum Akad. Verl.