![]() |
| EN FR DE CN |
|
|||||||||||||||||||
MARVIN a été spécifié comme un progiciel multi-agent (Fig.1). Chaque agent a une capacité de filtrage. L'agent récupère localement les pages Web et calcule leur score médical. La fréquence d'apparition d'un mot appartenant au glossaire de référence est calculé et permet ainsi d'établir le score médical de la page. Trier les documents: médical ou non? Le score calculé par MARVIN défini si la page Web est médicale ou de santé ou non. Il est estimé en prenant en compte le nombre de terme médical trouvé dans le document, les différentes traductions et le poids de chaque terme étant défini dans le glossaire. Dans le domaine médical bien des thésaurus et glossaires
existent tel que le MeSH
(Medical Subject Heading) de la National
Library of Medicine (NLM) et le glossaire en neuf langues Européennes
développé par le Heymans
Institute of Pharmacology, University of Ghent, Belgium, dans
le contexte d'un projet Européen. Pour notre application, HON a crée
son propre thésaurus à partir de ces différentes sources. Le dictionnaire
initial bilingue (anglais/français) de 12,000 termes a été étendu
à l'allemand, le le danois, l'italien, le hollandais, le portugais
et l'espagnol avec au total 20,000 termes médicaux. Des études ont été conduites afin d'estimer le
rôle d'un mot en terme de contexte, de son importance à la compréhension
d'un document et donc de leur donner un poids. 1,000 pages Web du
secteur médical et 1,000 d'autres domaines ont été analysées et les
termes médicaux de chaque page ont été évalués. Cette étude combinée
à d'autres techniques tel que la formule de Wilbur et Yang (An
analysis of statistical term strength and its use in the indexing
and retrieval of molecular biology texts, Comp. Bio. Med. 26.3 p.
209-222, 1996) nous ont permis de définir un seuil pour chaque
terme de notre glossaire. Notre thésaurus multilingue initial est continuellement
amélioré. Accroître le nombre de termes doit apporter une réelle valeur
ajoutée et n'est pas sans diminuer la rapidité de l'indexage. Nous
avons complété et enrichi notre glossaire initial de 20,000 termes
médicaux multilingues avec le MeSH en anglais, français, et allemand.
Afin d'affiner notre indexation et d'accroître notre base de données
en sites Web de langues tel que le danois, le hollandais, l'espagnol
et le portugais nous allons également augmenter le nombre de termes
médicaux dans ces langues. Après avoir récupérer en local et trier, en calculant le score médical de chaque terme, les documents médicaux des autres, MARVIN génère un index inversé classique, dans lequel à chaque terme correspond une liste de documents contenant ce mot. L'appariement des termes recherchés est alors une tâche rapide et efficace. ![]()
|