|
|
| MARVIN :
|
|
Die Zahl der Internetseiten nimmt täglich zu und Informationen gibt es im Überfluss. Das Problem besteht aber heute darin, richtige und für bestimmte Zwecke nützliche Informationen zu finden. Geläufige Anwendungen zur Strukturierung von Information, z.B. durch themengeordnete Hierarchielisten und allgemeine Suchmaschinen haben Vor- und Nachteile. Hierarchielisten sind präzise, da sie von Hand geordnet werden. Jedoch ist die durchschnittliche Trefferquote auf Suchanfragen relativ niedrig, da nur wenige Dokumente verzeichnet sind. Allgemeine Suchmaschinen verzeichnen zwar fast alle Webseiten und die Ergebnisliste ist lang, doch geht dies auf Kosten der Genauigkeit. Das Suchergebnis nützt nicht viel, da die Zahl der Antworten aus verschiedenen Gebieten und zu vielen Themen einfach zu groß ist. Lediglich komplexe Suchanfragen können möglicherweise die Zahl der potentiell relevanten Dokumente verringern. Um die Suche besonders für alltägliche Nutzer effizienter und nützlicher zu machen, werden intelligente und spezialisierte Suchmaschinen benötigt.
|
Das Hauptziel des Projektes MARVIN (Multi-Agent Retrieval Vagabond on Information
Networks), das seit 1996 besteht, war es, den Suchraum einzuschränken, indem nur ein bestimmtes Gebiet verzeichnet wird, Webseiten herausgefiltert werden und die Mehrsprachigkeit des Internets gefördert wird. MARVIN von der Stiftung HON wurde zum ersten Mal im Bereich der Medizin angewendet. MARVIN durchsucht das Internet ständig nach neuen medizinischen Webseiten und versorgt und updated damit MedHunt, die Suchmaschine von HON für medizinische und gesundheitsbezogene Webseiten. Am 16. November 2000 wurden 2000 Besuche (von verschiedenen Computern) und 8000 Verbindungen mit MedHunt registriert. Dies ist Beweis für die Wirksamkeit und Nützlichkeit der Kombination MARVIN-MedHunt.
MARVIN und MedHunt wurden von HON entwickelt und sind Eigentum der Stiftung.
|
Wie funktioniert MARVIN?
MARVIN (Multi-Agent
Retrieval Vagabond on Information Networks) durchsucht das Internet
und wählt nur Dokumente aus, die für einen bestimmten Bereich
relevant sind. Die Relevanz eines Dokumentes wird nach einer Formel
errechnet, die berücksichtigt, wie viele Wörter des Dokuments in einem dafür vorgesehenen Glossar vorkommen und an welcher Stelle sich diese Wörter im Dokument befinden. MARVIN wurde zum ersten Mal für gesundheitsbezogene Themen angewendet. MARVIN speichert die ausgewählten Dokumente in einer Datenbank ab, damit Benutzer anschließend ihre Suchanfrage in z.B. , HONs eigener medizinischer Suchmaschine, eingeben können. MARVIN wird auch in anderen Fachgebieten angewendet, wie beispielsweise in der Molekularbiologie oder in der 2D-Elektrophorese, und versorgt dabei die Datenbanken ständig mit neuen Dokumenten bzw. bringt sie auf den neuesten Stand.
|
Multi-Agent
MARVIN wurde als ein Multiagenten-Software-Roboter konzipiert (). Jeder Agent besitzt Filterungsfähigkeiten. Der Agent lädt Webseiten herunter und berechnet die medizinische "Punktzahl" jeder Seite. Dabei benutzt er ein medizinisches Glossar und errechnet, wie häufig Wörter der Webseite in diesem Glossar vorkommen. Danach stuft er die Webseite als medizinisch oder nicht-medizinisch ein.
Die von MARVIN aufgestellte Punktzahl definiert, ob eine Webseite medizinisch oder gesundheitsbezogen ist oder nicht. Bei der Ermittlung der Gesamtzahl der medizinischen Begriffe in dem Dokument werden auch verschiedene Übersetzungen berücksichtigt und die Relevanz jedes Begriffes, so wie sie in dem dafür vorgesehenen Glossar definiert wurde.
Im Bereich der Medizin gab es schon vorher viele Thesauri, wie z.B. (Medical Subject Headings) von der (NLM) und das vom der Universität Gent (Belgien) entwickelte Glossar in neun europäischen Sprachen. Für MARVIN hat HON einen eigenen Thesaurus erstellt und dabei einige dieser Quellen zusammengetragen. Zunächst war der Thesaurus bilingual (Englisch/ Französisch) mit circa 12.000 medizinischen Begriffen. Später wurde er auf Deutsch, Dänisch, Holländisch, Italienisch, Portugiesisch und Spanisch erweitert. Heute besteht er aus 20.000 medizinischen Begriffen in mehreren Sprachen (ohne die 33.000 MeSH-Begriffe zu zählen).
Um die Relevanz eines Begriffes in einem Dokument bzw. in einer Dokumentsammlung abschätzen und somit auch die Relevanz der medizinischen Begriffe in unserem medizinischen Glossar bewerten zu können, wurden verschiedene Studien durchgeführt. 1000 Dokumente, von denen man wusste, dass sie medizinische und gesundheitsbezogene Themen behandeln, und weitere 1000, die sich auf andere (nicht-medizinische) Themen bezogen, wurden analysiert. Die Anzahl der medizinischen Begriffe in jeder Webseite wurde dann berechnet. Anhand dieser Studien, kombiniert mit anderen Techniken, wie z.B. mit der Wilbur und Yang Formel (An analysis
of statistical term strength and its use in the indexing and retrieval
of molecular biology texts, Comp. Bio. Med. 26.3 p. 209-222, 1996), konnten wir einen Schwellenwert für jeden Begriff in unserem medizinischen Glossar aufstellen.
Mithilfe des mehrsprachigen medizinischen Thesaurus mit 50.000 Begriffen, dem Herunterladen von Webseiten und der Berechnung einer Punktzahl, die sich auf den Seiteninhalt bezieht, macht MARVIN die Berechnungen und benutzt dabei einen klassischen invertierten Index. In diesem Index wird jedes Wort mit einer Liste von Dokumenten verbunden, in denen es vorkommt. Danach können die Begriffe einfach und zügig verglichen werden.

Fig. 1 MARVIN Multi-Agent Architektur
|