bannersHon
  EN | FR | DE | CN |
img
A Propos de HON
img PATIENT / PARTICULIER img PROFESSIONNEL DE SANTE img WEBMESTRE img
img
 
img
   

img
img
img
A Propos de
l'organisation
 Mission & utilisateurs 
 Organisation 
 Accrédités par la HAS 
 Statut NGO 
 Prix & Reconnaissance 
 Historique  
img
Recherche &
Développement
 En cours 
 Terminé 
    Européen
       WRAPIN
       Active Health
       PIPS
    International
       Google Co-op
       Joslin Dubai
       Vidal
    National
       MARVIN
       Services Hunt
    Interne
       HONcode
       HONselect
       Orphanet.ch
       Détecteur de Qualité
    Pays en voie de
       développement
       RUIG
       RAFT
 Publications 
img
Collaborations
internationales
 Afrique Francophone 
 Afrique Anglophone 
 HON Espagne 
 HON Arabie-Saoudite 
img
 Coin presse 
 Collaborations 
 Aide et Financement 
 Offres d'emplois  
 Politique d'éthique 
 Contacts 
 
MARVIN :

Introduction

Le nombre de sites web augmentant régulièrement, le problème actuel n'est pas d'obtenir de l'information, mais d'obtenir l'information recherchée. Les moteurs de recherche actuels n'ont pas résolu ce problème puisque le résultat d'une requête comporte une longue liste de documents. Le résultat retourné est souvent inutilisable, puisqu'il contient souvent un grand nombre de documents (quelques centaines ou quelques milliers selon la requête), faisant référence à d'autres sujets et domaines. Seulement les interrogations complexes peuvent, dans certaines situations, retourner un nombre limité de documents potentiellement pertinents. Afin de rendre les recherches plus efficaces et utiles pour l'utilisateur, nous avons maintenant besoin de moteurs de recherche intelligents et spécialisés sur le Net.

L'objectif principal du projet MARVIN (Multi-Agent Retrieval Vagabond on Information Networks, traduit en français par Vagabond multi-agent extracteur sur des réseaux d'informations) qui a débuté en janvier 1996 était de réduire l'espace d'investigation en ne considérant et n'indexant que les documents pour un domaine donné en filtrant les documents Web et de respecter le multilinguisme du Web.

A l'instar des autres robots, MARVIN est un programme permettant d'extraire automatiquement le contenu du Web afin d' alimenter une base de données qui sera interrogé par un outil de recherche. Mais MARVIN est doté d'intelligence, il ne récupère que les documents d'un domaine choisi.

Sa première application a été au domaine médical. Armé d'un dictionnaire médical, MARVIN extrait les documents médicaux du Web et alimente quotidiennement une base de données. Celle-ci est consulté par l'outil de recherche MedHunt. Le 16 novembre 2000, 2'000 visites (machines différentes) et 8'000 accès s à MedHunt montrent l'utilité de cette paire complémentaire MARVIN - MedHunt.

MARVIN et MedHunt ont été développé et sont la propriété de HON.

Comment fonctionne t-il?

MARVIN (Multi-Agent Retrieval Vagabond on Information Networks, traduit en français par Vagabond, multi-agent extracteur, sur des réseaux d'informations) vagabonde sur le Web et sélectionne les documents pertinents à un domaine donné. L'adéquation d'un document est calculée selon une formule qui prend en compte le nombre de mot d'un glossaire de termes significatifs choisis que MARVIN trouve dans le document ainsi que leur situation dans le texte. La première application de MARVIN a été au domaine médical.

Avec les documents extraits du Web, MARVIN alimente une base de données que les utilisateurs peuvent interrogé via MedHunt, l'outil de recherche créé et développé par HON. MARVIN est également utilisé pour d'autres domaines scientifiques tel que la biologie moléculaire, l'électrophorèse bi-dimensionnelle et le PACS (Picture Archiving Computarised System).


Multi-Agent

MARVIN a été spécifié comme un progiciel multi-agent (Fig.1). Chaque agent a une capacité de filtrage. L'agent récupère localement les pages Web et calcule leur score médical. La fréquence d'apparition d'un mot appartenant au glossaire de référence est calculé et permet ainsi d'établir le score médical de la page.

Trier les documents: médical ou non?

Le score calculé par MARVIN défini si la page Web est médicale ou de santé ou non. Il est estimé en prenant en compte le nombre de terme médical trouvé dans le document, les différentes traductions et le poids de chaque terme étant défini dans le glossaire.

Dans le domaine médical bien des thésaurus et glossaires existent tel que le MeSH (Medical Subject Heading) de la National Library of Medicine (NLM) et le glossaire en neuf langues Européennes développé par le Heymans Institute of Pharmacology, University of Ghent, Belgium, dans le contexte d'un projet Européen. Pour notre application, HON a crée son propre thésaurus à partir de ces différentes sources. Le dictionnaire initial bilingue (anglais/français) de 12,000 termes a été étendu à l'allemand, le le danois, l'italien, le hollandais, le portugais et l'espagnol avec au total 20,000 termes médicaux.

Des études ont été conduites afin d'estimer le rôle d'un mot en terme de contexte, de son importance à la compréhension d'un document et donc de leur donner un poids. 1,000 pages Web du secteur médical et 1,000 d'autres domaines ont été analysées et les termes médicaux de chaque page ont été évalués. Cette étude combinée à d'autres techniques tel que la formule de Wilbur et Yang (An analysis of statistical term strength and its use in the indexing and retrieval of molecular biology texts, Comp. Bio. Med. 26.3 p. 209-222, 1996) nous ont permis de définir un seuil pour chaque terme de notre glossaire.

Notre thésaurus multilingue initial est continuellement amélioré. Accroître le nombre de termes doit apporter une réelle valeur ajoutée et n'est pas sans diminuer la rapidité de l'indexage. Nous avons complété et enrichi notre glossaire initial de 20,000 termes médicaux multilingues avec le MeSH en anglais, français, et allemand. Afin d'affiner notre indexation et d'accroître notre base de données en sites Web de langues tel que le danois, le hollandais, l'espagnol et le portugais nous allons également augmenter le nombre de termes médicaux dans ces langues.

Après avoir récupérer en local et trier, en calculant le score médical de chaque terme, les documents médicaux des autres, MARVIN génère un index inversé classique, dans lequel à chaque terme correspond une liste de documents contenant ce mot. L'appariement des termes recherchés est alors une tâche rapide et efficace.


Fig. 1 MARVIN et son architecture multi-agent

Domaines d'applications

La Fondation Health On the Net et le Laboratoire d'Imagerie Moléculaire et Bio-Informatique de l'Hôpital Universitaire de Genève ont développé MARVIN -Multi-Agent Retrieval Vagabond on Information Networks-, un robot qui recherche les sites web et les documents se rapportant à un domaine d'intérêt spécifique. Un tel robot a déjà été développé pour la santé et la médecine ainsi que pour d'autres domaine tel que la biologie moléculaire.

  Domaine médical
MedHunt
PACSHunt
     
  Les autres domaines d' application

BioHunt: Molecular Biology search engine BioHunt

2DHunt: 2D Electrophoresis search engine
2DHunt

 

Financement
MARVIN a été supporté en partie par le Fond National Suisse pour la Recherche Scientifique, sous la référence # 21-43501.95.


References:
[1] HON http://www.hon.ch/
[2] SIB http://www.expasy.ch/www/limbio.html

Accueil img A Propos de HON img Coin presse img HON newsletter img Plan du Site img Politique d'éthique img Contact