NLPvs un outil de classification et de production de cartes sémantiques

Développé par Vincent Dubois au titre du parcours libre en M1 à EVCAU dans le contexte de la Chaire Architecture & Intelligences, NLPvs est un outil de classification non-supervisé de documents au format PDF.
Pour un corpus de documents à classer défini par l’utilisateur, l’outil se charge de les répartir au sein de clusters selon le modèle de Machine Learning pré-entraîné choisi, et de restituer cette classification sous forme graphique montrant la proximité des documents entre eux ainsi que leurs répartition au sein des clusters.
Il est également possible d’entraîner son propre modèle, en spécifiant un corpus de documents d’entraînement ainsi qu’un nombre de clusters (avec une possibilité de l’accélérer grâce aux coeurs CUDA sur un GPU Nvidia). Après l’entraînement, ce modèle est automatiquement sauvegardé (pour permettre une réutilisation pour un autre jeu de documents) et procède à la classification du corpus de documents à classer.