5 Classification non-supervisée des documents
Introduction
L’analyse sémantique latente permet de:
Diminuer les dimensions de représentation des données, facilitant une visualisation des liens Token-Token, Document-Document et Token-Document:
Token-Token pour découvrir les tokens synonimes
Document-Document pour suggérer une segmentation par thème
Token-Document pour le pouvoir discriminant des Tokens pour les documents;
De construire un petit moteur de recherche dans un corpus à l’aide de mots clés.
Cette analyse sert aussi de point de départ pour d’autres analyses telles que la classification non-supervisée qui est le sujet de ce chapitre.
L’objectif de la classificaton non-supervisée est de regrouper les individus de l’échantillon dont on dispose de sorte que deux individus d’un même groupe soient similaires ou moins dissemblable que deux autre pris dans des groupes différents.
Certaines méthodes de classification non-supervisée se servent de la notion de dissimilarité, ou de façon équivalente de similarité pour construire les groupes en question.
6 Dissimilariré - Dissemblance
Soit \(\mathcal{X}\) l’espace des données.
Définition
On appelle dissimilarité sur \(\mathcal{X}\) toute application \(d\) définie de \(\mathcal{X}^2\) dans \(\mathbb{R}\) vérifiant les axiomes suivants:
\(d(x, y)\geq 0\), \(\forall x, y\in\mathcal{X}\)
\(d(x, y)=0\) ssi \(x=y\)
\(d(x, y) = d(y, x)\) \(\forall x, y\in\mathcal{X}\).
Remarque: Toute distance est une dissimilarité. En effet, seule l’inégalité triangulaire n’est pas exigée pour une dissimilarité.
Exemples
\(\mathcal{X}=\mathbb{R}^p\), \(d=\) distance euclidienne
\(\mathcal{X}=\left\{0, 1\right\}^p\), \(d(x, y)=\sum_j1_{[x_j\neq y_j]}\)
Définition: Dissemblance
Une dissemblance est construite à partir d’une dissimilarité: elle s’applique à deux groupe d’individus.
Exemples
Soit \(d\) une dissimilarité.
Lien simple: \(D\left(A, B\right)=\min_{x\in A, y\in B}d(x, y)\)
Lien complet: \(D\left(A, B\right)=\max_{x\in A, y\in B}d(x, y)\)
Ward: (chercher)
7 Classification Ascendante Hiérarchique (CAH)
Soit \(\mathcal{D}_n=\left\{x_i\right\}_{i=1}^n\) l’ensemble des données d’apprentissage.
Rappel: La cah produit une suite de partitions par l’algorithme suivant.
Initialisation
- \(\mathcal{P}_0 = \left\{\left\{x_1\right\}, \left\{x_2\right\}, \cdots, \left\{x_n\right\}\right\}\)
8 \(K\)-Means
9 Latent-Dirichlet Allocation (Projet)
10 Travaux pratiques
Label,Message
ham,"Hey, how are you?"
ham,"Can you please call me back?"
ham,"I will be late today."
ham,"What's up?"
spam,"You have been selected to receive a prize! Click here to claim."
spam,"Congratulations! You have won a free trip. Click here to claim your prize."
ham,"See you soon."
ham,"Can you pick me up from the airport?"
ham,"Do you want to grab some dinner tonight?"
ham,"Thanks for the help yesterday."
spam,"Your computer has a virus! Click here to download the antivirus software."
ham,"Don't forget to bring the book."
11 Données
Il existe de nombreux jeux de données pour l’analyse de text mining. En voici quelques-uns :
Jeu de données de commentaires Amazon : Il s’agit d’un ensemble de commentaires de produits Amazon, étiquetés comme positifs ou négatifs. Il peut être utilisé pour l’analyse de sentiment.
Jeu de données de critiques de films IMDB : Il s’agit d’un ensemble de critiques de films de la base de données IMDB, étiquetées comme positives ou négatives. Il peut être utilisé pour l’analyse de sentiment.
Jeu de données de SMS Spam Collection : Il s’agit d’un ensemble de SMS, étiquetés comme spam ou non-spam. Il peut être utilisé pour la classification de texte.
Jeu de données de tweets de sentiments : Il s’agit d’un ensemble de tweets, étiquetés comme positifs ou négatifs. Il peut être utilisé pour l’analyse de sentiment.
Jeu de données de classification de newsgroup : Il s’agit d’un ensemble de messages newsgroup, étiquetés en fonction de leur sujet. Il peut être utilisé pour la classification de texte.
Jeu de données de questions-réponses : Il s’agit d’un ensemble de paires de questions et de réponses. Il peut être utilisé pour la détection de similarité de texte.
Jeu de données de commentaires de Yelp : Il s’agit d’un ensemble de commentaires de Yelp, étiquetés comme positifs ou négatifs. Il peut être utilisé pour l’analyse de sentiment.