![]() |
| EN FR |
|
|||||||||||||||||||
|
Détecteur de Qualité Ce projet a été réalisé dans le cadre du stage de fin d'étude de Melle Hind LAGHZALI. Ce projet est focalisé sur la classification automatique de la qualité des pages médicales sur le Web. A l’instar des systèmes capables de détecter et filtrer des contenus limites, la fondation HON a, à ce jour, proposé des outils pour la classification des documents en fonction des principes éthiques HONcode (Gaudinat et al, JFIM 2007). Le système de classification est basé actuellement sur une base d’apprentissage détaillée qui distingue les différents critères éthiques du HONcode. Dans le cadre de la détection automatique de la qualité sur le Web, le projet consiste à réaliser un classificateur basé sur un corpus d’apprentissage de "BON" et "MAUVAIS" sites. Une sélection de pages et sites a déjà été effectuée par un médecin. La première étape a consisté à récupérer et préparer ces données en vue de leur utilisation dans un système d’apprentissage automatique (classification) pour maximiser leur pouvoir discriminant. Le système de classification mis au point lors de la détection des critères éthiques pourra être modifié pour cette nouvelle tâche suivant les résultats obtenus. Une évaluation systématiquea été mise en œuvre afin de régler au mieux le système et les données. La dernière étape a consisté en l’intégration du système de classification au sein des outils de HON (e.g. moteur de recherche). Voici un aperçu des résultats obtenus. Après une première série de tests pour comparer les différents algorithmes de classification, le choix s’est porté sur le SVM (Support Vector Machine), car il a montré de meilleures performances comparé au NaiveBayes. Ensuite, une validation croisée a était réalisée. La moyenne des résultats des 10 tests est calculée et représentée dans le tableau suivant.
Légende Nous obtenons un macro rappel de 0.979 et un micro rappel de 0.982. Ce qui signifie que le système est capable de renvoyer plus de 97 % des documents pertinents toutes catégories confondues, et plus de 98 % des documents pertinents tous documents confondus. Pour la précision, nous obtenons une valeur supérieure à 0.98 (micro et macro valeurs), ce qui signifie que plus de 98 % des documents retournés sont correctement classés (respectivement, tous documents et toutes catégories confondus). Notons que seulement 1.7 % des documents sont mal classés. Comme on peut le constater, la mesure des différents paramètres montre une très bonne performance du système de classification. Cela permet d’envisager sereinement l’intégration du système dans une interface utilisateur pour une utilisation en production. |