4  Analyse Factorielle Discriminante

4.1 Introduction et position du problème

L’Analyse Factorielle Discriminante (AFD) est une technique statistique utilisée dans le cadre de l’explication d’une variable qualitative \(Y\) à \(K\) modalités pare \(p\) variables quantitatives explicatives \(X^1, \ldots, X^p\). l’AFD consiste à chercher un certain nombre \(q\leq p\) de combinaisons linéaires des variables explicatives \(X^j\) qui permettent de discriminer au mieux les \(K\) modalités de \(Y\). L’AFD fait partie d’une classe de méthodes dites factorielles, qui procèdent par une réduction des dimensions de représentation des données.

Objectifs du cours
  • Comprendre le principe et les objectifs de l’AFD;

  • Apprendre à calculer les fonctions discriminantes;

  • Savoir interpréter les résultats d’une AFD;

  • Acquérir la capacité de visualiser et de discriminer des groupes d’individus dans un espace de dimension réduite;

  • Développer une compréhension des liaisons entre la variable qualitative et les variables explicatives.

Example 4.1 (Exemple introductif) Considérons les données iris, bien connues en statistique. Ces données concernent \(n=150\) fleurs d’iris; sur sur chaque fleur on a mesuré \(p=4\) variables quantitatives \(X_1,\cdots,X_4\) et une variable qualitative \(Y\):

  • \(X_1\): Longueur du sépale (sepal length);
  • \(X_2\): Largeur du sépale (sepal width);
  • \(X_3\): Longueur du pétale (petal length);
  • \(X_4\): Largeur du pétale (petal width);
  • \(Y\): L’espèce de la fleur à \(K=3\) modalités.
Code
data(iris)
iris |>
  head(n=5)

Question: Les caractéristiques morphologiques permettent-elles de discriminer les espèces des fleurs?

Nuage des points dans le 1er plan discriminant

4.2 Notations et statistiqques

4.2.1 Les données

On dispose de données \((x_i, y_i)_{i=1}^n\)

  • Les \(x_{i,\cdot}={}^t(x_{i,j})_{j=1}^p\in\mathbb{R}^p\) sont des réalisations iid d’un vecteur aléatoire \(X=(X_1,\cdots,X_p)\)

  • Les \(y_i\) celles d’une variable qualitative \(Y\) à \(K\) modalités.

  • On pose \(\mathbf{X}=(x_{i,j})_{i=1,\cdots,n;\ j=1,\cdots,p}\in\mathbb{R}^{n\times p}\), les

  • On code \(y_i:=y_{i,\cdot}=\left(y_{i,k}\right)_{k=1}^K\in\left\{0,1\right\}^K\), avec \(\sum_{k=1}^Ky_{i,k}=1\), les modalités de la variable \(Y\)

  • On pose \(\mathbf{Y}=(y_{i,k})_{i=1,\cdots,n;\ k=1,\cdots,K}\in\left\{0, 1\right\}^{n\times K}\)

  • Chaque individu \(i\) est affecté d’un poids \(\omega_i>0\), avec \(\sum_{i=1}^n\omega_i=1\). On pose \(\mathbf{W}=diag(\omega_1,\cdots,\omega_n)\), la .

  • Poids de la classe \(k\): \(\overline{\omega}_k=\sum_iy_{i,k}\omega_i\)

\(X_1\) \(X_2\) \(\cdots\) \(X_p\) \(Y_1\) \(Y_2\) \(\cdots\) \(Y_K\)
\(x_{1,1}\) \(x_{1,2}\) \(\cdots\) \(x_{1,p}\) \(1\) \(0\) \(\cdots\) \(0\)
\(x_{2,1}\) \(x_{2,2}\) \(\cdots\) \(x_{2,p}\) \(1\) \(0\) \(\cdots\) \(0\)
\(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\)
\(x_{n_1+1,1}\) \(x_{n_1+1,2}\) \(\cdots\) \(x_{n_1+1,p}\) \(0\) \(1\) \(\cdots\) \(0\)
\(x_{n_1+2,1}\) \(x_{n_1+2,2}\) \(\cdots\) \(x_{n_1+2,p}\) \(0\) \(1\) \(\cdots\) \(0\)
\(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\)
\(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\) \(\ddots\)
\(x_{n-1,1}\) \(x_{n-1,2}\) \(\cdots\) \(x_{n-1,p}\) \(0\) \(0\) \(\cdots\) \(1\)
\(x_{n,1}\) \(x_{n,2}\) \(\cdots\) \(x_{n,p}\) \(0\) \(0\) \(\cdots\) \(1\)

4.2.2 Matrice des poids et centres de gravité

  • Matrice des poids des classes: \[\mathbf{D}={}^t\mathbf{YWY}=diag\left(\overline{\omega}_k\right)_k\in\mathbb{R}^{K\times K}\]

  • Centre de gravité de la classe \(k\): \[g_k=\dfrac{1}{\overline{\omega}_k}\sum_{i=1}^{n}y_{i,k}\omega_ix_i\]

  • Matrice des centres de gravité: \[ \begin{aligned} \mathbf{G}&=\begin{pmatrix}{}^tg_1\\ \vdots \\{}^tg_K\end{pmatrix}\\ &=\left({}^t\mathbf{YWY}\right)^{-1}\left({}^t\mathbf{YWX}\right)\\ \end{aligned} \]

  • Centre de gravité: \[g=\sum_k\overline{\omega}_kg_k\]

  • Données centrées: \[\mathbf{X}_c=\mathbf{X}-1_n\cdot{}^tg\]

  • Centres de gravités centrés: \[\mathbf{G}_c=\mathbf{G}-1_K\cdot{}^tg\]

4.2.3 Variances

  • Variance totale: \[\mathbf{S}_t^2={}^t\mathbf{X_cWX}_c\]

  • Variance intra-classes: \[\mathbf{S}_w^2=\sum_{k=1}^K\dfrac{1}{\bar{w}_k}\sum_{i=1}^ny_{i,k}w_i\left(x_i-g_k\right){}^t\left(x_i-g_k\right)\]

  • Variance inter-classes: \[\mathbf{S}_b^2={}^t\mathbf{G}_c\mathbf{DG}_c\]

Proposition 4.1 \[\mathbf{S}_t^2 = \mathbf{S}_w^2+\mathbf{S}_b^2.\]

Note
  • Les classes sont d’autant bien séparées que \(\mathbf{S}_b^2\) est “grande” (équivalent à \(\mathbf{S}_w^2\) “petite”)

  • Pour deux matrices symétriques \(\mathbf{A, B}\), \(\mathbf{A\leq B}\) signifie que \(\forall v\), \({}^tv\mathbf{A}v\leq {}^tv\mathbf{B}v\)

  • À \(S_t^2\) fixée, les variances intra et inter varient en sens contraires.

4.3 Axes, Facteurs et Variables discriminants

4.3.1 Axes, facteurs et Variables discriminants

On munit l’espace \(\mathbb{R}^p\) d’une métrique \(\mathbf{M}\) dont le but est en général de ramener les variables \(X_j\) au même ordre de grandeur. Par exemple \(\mathbf{M}=\mathbf{S_t^{-2}}:=\left(\mathbf{S}_t^2\right)^{-1}\). On recherche les variables discriminantes sous la forme \(c = \mathbf{X}_c\mathbf{M}v\)\(v\in\mathbb{R}^p\) est à déterminer de sorte que \(c\) discrimine le “mieux” les classes.

Pour \(v\) tel que \({}^tv\mathbf{M}v=1\), \(c\) est l’ensemble des coordonnées de la projection \(\mathbf{M}\)- orthogonale des lignes de \(\mathbf{X}_c\) sur la droite vectorielle engendrée par \(v\).

  • \(v\in\mathbb{R}^p\) est un

  • \(u:=\mathbf{M}v\) est un

  • \(c\) est une

4.3.2 Critère à optimiser

  • Variance de \(c\): \({}^tc\mathbf{W}c={}^tu\mathbf{S}_w^2u+{}^tu\mathbf{S}_b^2u\)

  • On souhaite que les classes soient le plus discriminées possible: Maximiner \({}^tu\mathbf{S}_b^2u\) ou de façon équivalente Minimiser \({}^tu\mathbf{S}_w^2u\).

\[ \dfrac{{}^tu\mathbf{S}_b^2u}{{}^tu\mathbf{S}_t^2u}\in[0, 1] \]

  • Discrimination d’autant meilleure que ce critère est proche de \(1\).

4.3.3 Solution du pb d’optimisation

  • Rappel \(u=\mathbf{M}v\). Alors \(v = \mathbf{M}^{-1}u\)

  • On résoud alors \(\max_{u}\dfrac{{}^tu\mathbf{S}_b^2u}{{}^tu\mathbf{S}_t^2u}\)

Proposition 4.2 Soient \(\mathbf{A, B}\) deux matrices symatriques de même dimension telles que \(\mathbf{B}\) est inversible. Alors la solution de \(\max_u\dfrac{{}^tu\mathbf{A}u}{{}^tu\mathbf{B}u}\) est un vecteur propore \(u^1\) de \(\mathbf{B}^{-1}\mathbf{A}\) associé à sa plus grabde valeur propre \(\lambda_1\).

  • Dans la pratique, on choisit en général \(\mathbf{M}=\mathbf{S}_t^{-2}=\left(\mathbf{S}_t^2\right)^{-1}\).

  • On déduit du résultat précédent que le 1er facteur discriminant est un vecteur propre \(u^1\) de \(\mathbf{S_t^{-2}S_b^2}\) associé à la plus grande valeur propre \(\lambda_1\).

  • Le pouvoir discriminant de \(u^1\) est \(\lambda_1=\dfrac{{}^tu^1\mathbf{S}_b^2u^1}{{}^tu^1\mathbf{S}_t^2u^1}\)

Remarques
  • \(\lambda_1=1\) signifie que les données d’une même classe sont égales, ce qui implique une discrimination parfaite.
  • \(\lambda_1=0\) signifie que les centres des classes sont confondus, alors aucune séparation linéaire des classes n’est possible
  • \(\lambda_1\) est une mesure pésimiste du pouvoir discriminant: même si \(\lambda_1<1\), il peut être possible de discriminer parfaitement les classes.

4.3.4 Facteurs - Axes discriminants

  • La 2ème variables discriminantes est \(c^2=\mathbf{X}u^2\), non correlée à \(c^1=\mathbf{X}u^1\), tel que \(u^2\) maximise \(\dfrac{{}^tu\mathbf{S}_b^2u}{{}^tu\mathbf{S}_t^2u}\).

  • Il vient donc que \(u^2\) est un vecteur propre associé à la 2ème plus grande valeurs propres de \(\mathbf{S_t^{-2}S_b^2}\)

Proposition 4.3 Les sont \(K-1\) vecteurs propres \(u^k\) associés aux valeurs propres \(\lambda_1>\lambda_2>\cdots>\lambda_{K-1}>0\) de la matrice \(\mathbf{S_t^{-2}S_b^2}\)

Remarques
  • Il faut que la matrice \(\mathbf{S}_t^2\) soit inversible, c’est à dire que \(\mathbf{X}\) soit de plein rang
  • Lorsque \(\mathbf{X}\) est de plein rang et \(K-1\leq p\), on peut construre \(K-1\) axes discriminants car \(rg\left(\mathbf{S_t^{-2}S_b^2}\right)=\min\left(n, K-1\right)\) L’AFD sur \(\left(\mathbf{X,Y}\right)\) est l’ACP sur \(\left(\mathbf{G, S_t^{-2}, D}\right)\)

Exercise 4.1 Considérer les facteurs discriminants plutôt solution de \(\max_u\dfrac{{}^tu\mathbf{S}_b^2u}{{}^tu\mathbf{S}_w^2u}\).

  1. Montrer que ces facteurs discriminants sont les même que ceux solution de \(\max_u\dfrac{{}^tu\mathbf{S}_b^2u}{{}^tu\mathbf{S}_t^2u}\), associés aux valeurs propres \(\mu=\dfrac{\lambda}{1-\lambda}\).

  2. Réaliser l’AFD sur les données “iris”.