Classification automatique de dépêches

Implémentation et comparaison de différents algorithmes

Langages utilisés : Java, LaTeX

Travail commun

Dans le cadre d'un travail en binôme lors de ma première année de BUT informatique, nous avons implémenté un système de classification automatique de dépêches dans différentes catégories (Sport, Économie, ...).

Ce système marche avec un système de glossaire par catégorie avec des mots ayant chacun un score (entre 1 et 3).

sport:3
sportif:3
tour:2
partie:2
leader:1

Figure 1 : Exemple de glossaire pour la catégorie Sport

Ces glossaires ont d'abord été manuellement écrits, mais par la suite automatiquement générés. Pour se faire, nous avons calculé la fréquence dans chaque catégorie de chaque mot présent dans chaque dépêche dans notre jeu de données.

Nous avons ensuite dû réfléchir à différents moyens d'optimiser notre système en complexité, nous avons tout d'abord trié les mots des glossaires lors de leur création afin de pouvoir utiliser un recherche dichotomique à la place d'une recherche séquentielle.

Nous avons également travaillé sur différents moyens d'améliorer la précision de nos résultats, en tentant de filtrer certains mots (moins de 3 lettres, suppression du 's' marquant le pluriel des mots, ...), d'ajouter de nouvelles dépêches (en créant un script de formattage de dépêches de FranceInfo et Le Monde via leurs flux RSS) ou tout simplement en tentant d'implémenter de nouveaux algorithmes (k-NN, en calculant de deux manières différentes la distance entre deux dépêches).

Figure 2 : Taux de précision des différentes modifications que nous avons faites

Travail personnel

J'ai personnellement développé l'implémentation de base et deux de nos cinq tentatives d'optimisation du système. J'ai également mis en place un répertoire Git afin de pouvoir travailler de façon efficace avec mon binôme, et ai rédigé une bonne partie de notre rapport (disponible ci-dessous), préparé avec LaTeX.

Liens et fichiers en rapport avec ce projet

Compte-rendu de nos travaux (fichier pdf) : disponible ici ;
Code réalisé (répertoire Git distant) : lien (indisponible).