Liaison entre Deux Variables Qualitatives

Introduction

Dans ce chapitre, nous allons explorer les méthodes pour analyser la relation entre deux variables qualitatives. Contrairement aux variables quantitatives, les variables qualitatives décrivent des catégories ou des attributs, et nous devons utiliser des techniques spécifiques pour comprendre comment elles sont liées.

Tableaux de Contingence

Un tableau de contingence, également appelé tableau croisé, est un outil fondamental pour examiner la relation entre deux variables qualitatives. Il présente les fréquences des observations pour chaque combinaison de catégories des deux variables.

Example 1 Supposons que nous voulions étudier la relation entre le genre (Homme, Femme) et la préférence pour un certain type de musique (Pop, Rock, Classique). Un tableau de contingence pourrait ressembler à ceci :

Genre Pop Rock Classique Total
Homme 45 60 25 130
Femme 70 30 50 150
Total 115 90 75 280

Analyse des Fréquences

À partir d’un tableau de contingence, nous pouvons calculer différentes fréquences pour analyser la relation :

  • Fréquences marginales : Elles représentent le total des observations pour chaque catégorie d’une variable. Nous noterons \(n_{k,+}\) l’effectif marginal de la modalité \(k\) de \(X\) et \(n_{+,l}\) celui marginal de la modalité \(l\) de \(Y\).
  • Fréquences conditionnelles : Elles représentent la distribution d’une variable pour chaque catégorie de l’autre variable.

Mesures de Liaison

Plusieurs mesures peuvent quantifier la force de la relation entre deux variables qualitatives :

Chi-deux

Le Chi-deux (\(\chi^2\)) mesure l’écart entre les fréquences observées et les fréquences attendues en cas d’indépendance des variables.

Calcul du Chi-deux :

  1. Calcul des fréquences attendues : Pour chaque cellule \((k, l)\) du tableau, la fréquence attendue \(\widehat{n}_{k,l}\) est calculée comme suit :

\[ \widehat{n}_{k,l} = \dfrac{n_{k,+} \times n_{+,l}}{n} \]

\(n\) est le nombre total d’observations.

  1. Calcul des écarts : Pour chaque cellule \((k, l)\), l’écart est calculé comme :

\[ \dfrac{(n_{k,l} - \widehat{n}_{k,l})^2}{\widehat{n}_{k,l}} \]

  1. Somme des écarts : Le Chi-deux (χ²) est la somme de ces écarts pour toutes les cellules du tableau :

\[ \chi^2 = \sum_{k,l} \frac{(n_{k,l} - \widehat{n}_{k,l})^2}{\widehat{n}_{k,l}} \]

Interprétation :

  • Un \(\chi^2\) élevé indique une forte association entre les variables.
  • Un \(\chi^2\) proche de zéro indique une faible association ou une indépendance.

V de Cramer

Le V de Cramer est une mesure de la force de l’association entre deux variables qualitatives, variant de 0 (aucune association) à 1 (association parfaite).

Calcul du V de Cramer :

  1. Calcul du Chi-deux (\(\chi^2\)) : Voir ci-dessus.
  2. Calcul du V de Cramer :

\[ V = \sqrt{\frac{\chi^2}{n \times \min(K - 1, L - 1)}} \]

où : * \(n\) est le nombre total d’observations. * \(K\) est le nombre de colonnes dans le tableau. * \(L\) est le nombre de lignes dans le tableau.

Interprétation du V de Cramer
  • \(0 \lea V < 0.2\): Absence de lien.
  • \(0.2 \lea V < 0.4\) : Lien faible.
  • 0.4 V < 0.6$: Lien modérée.
  • \(V\geq .6\): Lien fort.
Code
# Exemple de tableau de contingence
genre <- c(rep("Homme", 130), rep("Femme", 150))
musique <- c(rep("Pop", 45), rep("Rock", 60), rep("Classique", 25),
             rep("Pop", 70), rep("Rock", 30), rep("Classique", 50))
tableau <- table(genre, musique)
print(tableau)
       musique
genre   Classique Pop Rock
  Femme        50  70   30
  Homme        25  45   60
Code
# Test du Chi-deux
test_chi2 <- chisq.test(tableau)
print(test_chi2)

    Pearson's Chi-squared test

data:  tableau
X-squared = 22.454, df = 2, p-value = 1.331e-05
Code
# V de Cramer (package 'DescTools')
if (!requireNamespace("DescTools", quietly = TRUE)) {
  install.packages("DescTools")
}
library(DescTools)
cramer_v <- CramerV(tableau)
cat("V de Cramer :", cramer_v, "\n")
V de Cramer : 0.2831841 

Visualisation

Les diagrammes en barres groupées ou empilées et les diagrammes en mosaïque sont utiles pour visualiser la relation entre deux variables qualitatives.

Code
# Diagramme en barres groupées
barplot(tableau, beside = TRUE,
        legend.text = TRUE,
        main = "Préférence musicale par genre",
        xlab = "Type de musique",
        ylab = "Nombre de personnes")

Code
# Diagramme en mosaïque
mosaicplot(tableau,
           main = "Préférence musicale par genre",
           color = TRUE)

Exercices

Exercise 1 (Préférences de Films et Genre) Un chercheur souhaite étudier la relation entre le genre (Homme, Femme) et la préférence pour un type de film (Comédie, Drame, Action). Les résultats de l’étude sont présentés dans le tableau de contingence suivant :

Genre Comédie Drame Action Total
Homme 60 40 80 180
Femme 70 50 20 140
Total 130 90 100 320
  1. Calculez les fréquences marginales pour chaque variable.
  2. Calculez les fréquences conditionnelles (pourcentages) des préférences de films pour chaque genre.
  3. Calculez le Chi-deux (χ²) et interprétez le résultat.
  4. Calculez le V de Cramer et interprétez le résultat.
  5. Créez un diagramme en barres groupées pour visualiser la relation entre le genre et les préférences de films.

Exercise 2 (Niveau d’Éducation et Opinion Politique) Une enquête a été menée pour étudier la relation entre le niveau d’éducation (Primaire, Secondaire, Supérieur) et l’opinion politique (Gauche, Droite, Centre). Les résultats sont présentés dans le tableau de contingence suivant :

Niveau d’Éducation Gauche Droite Centre Total
Primaire 80 60 40 180
Secondaire 60 70 50 180
Supérieur 40 80 60 180
Total 180 210 150 540
  1. Calculez les fréquences marginales pour chaque variable.
  2. Calculez les fréquences conditionnelles (pourcentages) des opinions politiques pour chaque niveau d’éducation.
  3. Calculez le Chi-deux (χ²) et interprétez le résultat.
  4. Calculez le V de Cramer et interprétez le résultat.
  5. Créez un diagramme en mosaïque pour visualiser la relation entre le niveau d’éducation et l’opinion politique.