Voici un aperçu des résultats obtenus. Après une première série de tests pour comparer les différents algorithmes de classification, le choix
s’est porté sur le SVM (Support Vector Machine), car il a montré de meilleures performances comparé au NaiveBayes.
Ensuite, une validation croisée a était réalisée. La moyenne des résultats des 10 tests est
calculée et représentée dans le tableau suivant.
maR |
maP |
miR |
miP |
Erreur |
0.979 |
0.985 |
0.982 |
0.982 |
0.017 |
Légende
maR / miR : macro Rappel / micro Rappel
maP / miP : macro Précision / micro Précision
Nous obtenons un macro rappel de 0.979 et un micro rappel de 0.982. Ce qui signifie
que le système est capable de renvoyer plus de 97 % des documents pertinents toutes
catégories confondues, et plus de 98 % des documents pertinents tous documents confondus.
Pour la précision, nous obtenons une valeur supérieure à 0.98 (micro et macro valeurs),
ce qui signifie que plus de 98 % des documents retournés sont correctement classés
(respectivement, tous documents et toutes catégories confondus).
Notons que seulement 1.7 % des documents sont mal classés.
Comme on peut le constater, la mesure des différents paramètres montre une très bonne
performance du système de classification. Cela permet d’envisager sereinement l’intégration
du système dans une interface utilisateur pour une utilisation en production.