5 Classification non-supervisée des documents

Author

Wilson Toussile

Introduction

L’analyse sémantique latente permet de:

Diminuer les dimensions de représentation des données, facilitant une visualisation des liens Token-Token, Document-Document et Token-Document:
- Token-Token pour découvrir les tokens synonimes
- Document-Document pour suggérer une segmentation par thème
- Token-Document pour le pouvoir discriminant des Tokens pour les documents;
De construire un petit moteur de recherche dans un corpus à l’aide de mots clés.

Cette analyse sert aussi de point de départ pour d’autres analyses telles que la classification non-supervisée qui est le sujet de ce chapitre.

L’objectif de la classificaton non-supervisée est de regrouper les individus de l’échantillon dont on dispose de sorte que deux individus d’un même groupe soient similaires ou moins dissemblable que deux autre pris dans des groupes différents.

Certaines méthodes de classification non-supervisée se servent de la notion de dissimilarité, ou de façon équivalente de similarité pour construire les groupes en question.

6 Dissimilariré - Dissemblance

Soit \(\mathcal{X}\) l’espace des données.

Définition

On appelle dissimilarité sur \(\mathcal{X}\) toute application \(d\) définie de \(\mathcal{X}^2\) dans \(\mathbb{R}\) vérifiant les axiomes suivants:

\(d(x, y)\geq 0\), \(\forall x, y\in\mathcal{X}\)
\(d(x, y)=0\) ssi \(x=y\)
\(d(x, y) = d(y, x)\) \(\forall x, y\in\mathcal{X}\).

Remarque: Toute distance est une dissimilarité. En effet, seule l’inégalité triangulaire n’est pas exigée pour une dissimilarité.

Exemples

\(\mathcal{X}=\mathbb{R}^p\), \(d=\) distance euclidienne
\(\mathcal{X}=\left\{0, 1\right\}^p\), \(d(x, y)=\sum_j1_{[x_j\neq y_j]}\)

Définition: Dissemblance

Une dissemblance est construite à partir d’une dissimilarité: elle s’applique à deux groupe d’individus.

Exemples

Soit \(d\) une dissimilarité.

Lien simple: \(D\left(A, B\right)=\min_{x\in A, y\in B}d(x, y)\)
Lien complet: \(D\left(A, B\right)=\max_{x\in A, y\in B}d(x, y)\)
Ward: (chercher)

7 Classification Ascendante Hiérarchique (CAH)

Soit \(\mathcal{D}_n=\left\{x_i\right\}_{i=1}^n\) l’ensemble des données d’apprentissage.

Rappel: La cah produit une suite de partitions par l’algorithme suivant.

Initialisation
- \(\mathcal{P}_0 = \left\{\left\{x_1\right\}, \left\{x_2\right\}, \cdots, \left\{x_n\right\}\right\}\)

8 \(K\)-Means

9 Latent-Dirichlet Allocation (Projet)

10 Travaux pratiques

Label,Message
ham,"Hey, how are you?"
ham,"Can you please call me back?"
ham,"I will be late today."
ham,"What's up?"
spam,"You have been selected to receive a prize! Click here to claim."
spam,"Congratulations! You have won a free trip. Click here to claim your prize."
ham,"See you soon."
ham,"Can you pick me up from the airport?"
ham,"Do you want to grab some dinner tonight?"
ham,"Thanks for the help yesterday."
spam,"Your computer has a virus! Click here to download the antivirus software."
ham,"Don't forget to bring the book."

11 Données

Il existe de nombreux jeux de données pour l’analyse de text mining. En voici quelques-uns :

Jeu de données de commentaires Amazon : Il s’agit d’un ensemble de commentaires de produits Amazon, étiquetés comme positifs ou négatifs. Il peut être utilisé pour l’analyse de sentiment.
Jeu de données de critiques de films IMDB : Il s’agit d’un ensemble de critiques de films de la base de données IMDB, étiquetées comme positives ou négatives. Il peut être utilisé pour l’analyse de sentiment.
Jeu de données de SMS Spam Collection : Il s’agit d’un ensemble de SMS, étiquetés comme spam ou non-spam. Il peut être utilisé pour la classification de texte.
Jeu de données de tweets de sentiments : Il s’agit d’un ensemble de tweets, étiquetés comme positifs ou négatifs. Il peut être utilisé pour l’analyse de sentiment.
Jeu de données de classification de newsgroup : Il s’agit d’un ensemble de messages newsgroup, étiquetés en fonction de leur sujet. Il peut être utilisé pour la classification de texte.
Jeu de données de questions-réponses : Il s’agit d’un ensemble de paires de questions et de réponses. Il peut être utilisé pour la détection de similarité de texte.
Jeu de données de commentaires de Yelp : Il s’agit d’un ensemble de commentaires de Yelp, étiquetés comme positifs ou négatifs. Il peut être utilisé pour l’analyse de sentiment.