Dans ce chapitre, nous allons explorer les méthodes pour analyser la relation entre deux variables qualitatives. Contrairement aux variables quantitatives, les variables qualitatives décrivent des catégories ou des attributs, et nous devons utiliser des techniques spécifiques pour comprendre comment elles sont liées.
Tableaux de Contingence
Un tableau de contingence, également appelé tableau croisé, est un outil fondamental pour examiner la relation entre deux variables qualitatives. Il présente les fréquences des observations pour chaque combinaison de catégories des deux variables.
Example 1 Supposons que nous voulions étudier la relation entre le genre (Homme, Femme) et la préférence pour un certain type de musique (Pop, Rock, Classique). Un tableau de contingence pourrait ressembler à ceci :
Genre
Pop
Rock
Classique
Total
Homme
45
60
25
130
Femme
70
30
50
150
Total
115
90
75
280
Analyse des Fréquences
À partir d’un tableau de contingence, nous pouvons calculer différentes fréquences pour analyser la relation :
Fréquences marginales : Elles représentent le total des observations pour chaque catégorie d’une variable. Nous noterons \(n_{k,+}\) l’effectif marginal de la modalité \(k\) de \(X\) et \(n_{+,l}\) celui marginal de la modalité \(l\) de \(Y\).
Fréquences conditionnelles : Elles représentent la distribution d’une variable pour chaque catégorie de l’autre variable.
Mesures de Liaison
Plusieurs mesures peuvent quantifier la force de la relation entre deux variables qualitatives :
Chi-deux
Le Chi-deux (\(\chi^2\)) mesure l’écart entre les fréquences observées et les fréquences attendues en cas d’indépendance des variables.
Calcul du Chi-deux :
Calcul des fréquences attendues : Pour chaque cellule \((k, l)\) du tableau, la fréquence attendue \(\widehat{n}_{k,l}\) est calculée comme suit :
Un \(\chi^2\) élevé indique une forte association entre les variables.
Un \(\chi^2\) proche de zéro indique une faible association ou une indépendance.
V de Cramer
Le V de Cramer est une mesure de la force de l’association entre deux variables qualitatives, variant de 0 (aucune association) à 1 (association parfaite).
Calcul du V de Cramer :
Calcul du Chi-deux (\(\chi^2\)) : Voir ci-dessus.
Calcul du V de Cramer :
\[
V = \sqrt{\frac{\chi^2}{n \times \min(K - 1, L - 1)}}
\]
où : * \(n\) est le nombre total d’observations. * \(K\) est le nombre de colonnes dans le tableau. * \(L\) est le nombre de lignes dans le tableau.
Interprétation du V de Cramer
\(0 \lea V < 0.2\): Absence de lien.
\(0.2 \lea V < 0.4\): Lien faible.
0.4 V < 0.6$: Lien modérée.
\(V\geq .6\): Lien fort.
Code
# Exemple de tableau de contingencegenre <-c(rep("Homme", 130), rep("Femme", 150))musique <-c(rep("Pop", 45), rep("Rock", 60), rep("Classique", 25),rep("Pop", 70), rep("Rock", 30), rep("Classique", 50))tableau <-table(genre, musique)print(tableau)
musique
genre Classique Pop Rock
Femme 50 70 30
Homme 25 45 60
Code
# Test du Chi-deuxtest_chi2 <-chisq.test(tableau)print(test_chi2)
# V de Cramer (package 'DescTools')if (!requireNamespace("DescTools", quietly =TRUE)) {install.packages("DescTools")}library(DescTools)cramer_v <-CramerV(tableau)cat("V de Cramer :", cramer_v, "\n")
V de Cramer : 0.2831841
Visualisation
Les diagrammes en barres groupées ou empilées et les diagrammes en mosaïque sont utiles pour visualiser la relation entre deux variables qualitatives.
Code
# Diagramme en barres groupéesbarplot(tableau, beside =TRUE,legend.text =TRUE,main ="Préférence musicale par genre",xlab ="Type de musique",ylab ="Nombre de personnes")
Code
# Diagramme en mosaïquemosaicplot(tableau,main ="Préférence musicale par genre",color =TRUE)
Exercices
Exercise 1 (Préférences de Films et Genre) Un chercheur souhaite étudier la relation entre le genre (Homme, Femme) et la préférence pour un type de film (Comédie, Drame, Action). Les résultats de l’étude sont présentés dans le tableau de contingence suivant :
Genre
Comédie
Drame
Action
Total
Homme
60
40
80
180
Femme
70
50
20
140
Total
130
90
100
320
Calculez les fréquences marginales pour chaque variable.
Calculez les fréquences conditionnelles (pourcentages) des préférences de films pour chaque genre.
Calculez le Chi-deux (χ²) et interprétez le résultat.
Calculez le V de Cramer et interprétez le résultat.
Créez un diagramme en barres groupées pour visualiser la relation entre le genre et les préférences de films.
Exercise 2 (Niveau d’Éducation et Opinion Politique) Une enquête a été menée pour étudier la relation entre le niveau d’éducation (Primaire, Secondaire, Supérieur) et l’opinion politique (Gauche, Droite, Centre). Les résultats sont présentés dans le tableau de contingence suivant :
Niveau d’Éducation
Gauche
Droite
Centre
Total
Primaire
80
60
40
180
Secondaire
60
70
50
180
Supérieur
40
80
60
180
Total
180
210
150
540
Calculez les fréquences marginales pour chaque variable.
Calculez les fréquences conditionnelles (pourcentages) des opinions politiques pour chaque niveau d’éducation.
Calculez le Chi-deux (χ²) et interprétez le résultat.
Calculez le V de Cramer et interprétez le résultat.
Créez un diagramme en mosaïque pour visualiser la relation entre le niveau d’éducation et l’opinion politique.
---title: "Liaison entre Deux Variables Qualitatives"format: pdf---## IntroductionDans ce chapitre, nous allons explorer les méthodes pour analyser la relation entre deux variables qualitatives. Contrairement aux variables quantitatives, les variables qualitatives décrivent des catégories ou des attributs, et nous devons utiliser des techniques spécifiques pour comprendre comment elles sont liées.## Tableaux de ContingenceUn tableau de contingence, également appelé tableau croisé, est un outil fondamental pour examiner la relation entre deux variables qualitatives. Il présente les fréquences des observations pour chaque combinaison de catégories des deux variables.:::{#exm-}Supposons que nous voulions étudier la relation entre le genre (Homme, Femme) et la préférence pour un certain type de musique (Pop, Rock, Classique). Un tableau de contingence pourrait ressembler à ceci :| Genre | Pop | Rock | Classique | Total || :----| :-- | :---| :--------| :----|| Homme | 45 | 60 | 25 | 130 || Femme | 70 | 30 | 50 | 150 || **Total** | **115** | **90** | **75** | **280** |:::## Analyse des FréquencesÀ partir d'un tableau de contingence, nous pouvons calculer différentes fréquences pour analyser la relation :* **Fréquences marginales **: Elles représentent le total des observations pour chaque catégorie d'une variable. Nous noterons $n_{k,+}$ l'effectif marginal de la modalité $k$ de $X$ et $n_{+,l}$ celui marginal de la modalité $l$ de $Y$.* **Fréquences conditionnelles **: Elles représentent la distribution d'une variable pour chaque catégorie de l'autre variable.## Mesures de LiaisonPlusieurs mesures peuvent quantifier la force de la relation entre deux variables qualitatives :### Chi-deux Le Chi-deux ($\chi^2$) mesure l'écart entre les fréquences observées et les fréquences attendues en cas d'indépendance des variables.**Calcul du Chi-deux **:1. **Calcul des fréquences attendues **: Pour chaque cellule $(k, l)$ du tableau, la fréquence attendue $\widehat{n}_{k,l}$ est calculée comme suit :$$\widehat{n}_{k,l} = \dfrac{n_{k,+} \times n_{+,l}}{n}$$où $n$ est le nombre total d'observations.2. **Calcul des écarts **: Pour chaque cellule $(k, l)$, l'écart est calculé comme : $$ \dfrac{(n_{k,l} - \widehat{n}_{k,l})^2}{\widehat{n}_{k,l}} $$3. **Somme des écarts **: Le Chi-deux (χ²) est la somme de ces écarts pour toutes les cellules du tableau : $$ \chi^2 = \sum_{k,l} \frac{(n_{k,l} - \widehat{n}_{k,l})^2}{\widehat{n}_{k,l}} $$**Interprétation **:* Un $\chi^2$ élevé indique une forte association entre les variables.* Un $\chi^2$ proche de zéro indique une faible association ou une indépendance.### V de CramerLe V de Cramer est une mesure de la force de l'association entre deux variables qualitatives, variant de 0 (aucune association) à 1 (association parfaite).**Calcul du V de Cramer **:1. **Calcul du Chi-deux ($\chi^2$) **: Voir ci-dessus.2. **Calcul du V de Cramer **: $$ V = \sqrt{\frac{\chi^2}{n \times \min(K - 1, L - 1)}} $$ où : * $n$ est le nombre total d'observations. * $K$ est le nombre de colonnes dans le tableau. * $L$ est le nombre de lignes dans le tableau.:::{.callout-tip}## Interprétation du V de Cramer* **$0 \lea V < 0.2$**: Absence de lien.* **$0.2 \lea V < 0.4$ **: Lien faible.* **0.4 \leq V < 0.6$**: Lien modérée.* **$V\geq .6$**: Lien fort.::::::{exm-}```{r}# Exemple de tableau de contingencegenre <-c(rep("Homme", 130), rep("Femme", 150))musique <-c(rep("Pop", 45), rep("Rock", 60), rep("Classique", 25),rep("Pop", 70), rep("Rock", 30), rep("Classique", 50))tableau <-table(genre, musique)print(tableau)# Test du Chi-deuxtest_chi2 <-chisq.test(tableau)print(test_chi2)# V de Cramer (package 'DescTools')if (!requireNamespace("DescTools", quietly =TRUE)) {install.packages("DescTools")}library(DescTools)cramer_v <-CramerV(tableau)cat("V de Cramer :", cramer_v, "\n")```**Visualisation**Les diagrammes en barres groupées ou empilées et les diagrammes en mosaïque sont utiles pour visualiser la relation entre deux variables qualitatives.```{r}# Diagramme en barres groupéesbarplot(tableau, beside =TRUE,legend.text =TRUE,main ="Préférence musicale par genre",xlab ="Type de musique",ylab ="Nombre de personnes")# Diagramme en mosaïquemosaicplot(tableau,main ="Préférence musicale par genre",color =TRUE)```:::## Exercices:::{#exr-}## Préférences de Films et GenreUn chercheur souhaite étudier la relation entre le genre (Homme, Femme) et la préférence pour un type de film (Comédie, Drame, Action). Les résultats de l'étude sont présentés dans le tableau de contingence suivant :| Genre | Comédie | Drame | Action | Total || :----| :------| :----| :-----| :----|| Homme | 60 | 40 | 80 | 180 || Femme | 70 | 50 | 20 | 140 || **Total** | **130** | **90** | **100** | **320** |1. Calculez les fréquences marginales pour chaque variable.2. Calculez les fréquences conditionnelles (pourcentages) des préférences de films pour chaque genre.3. Calculez le Chi-deux (χ²) et interprétez le résultat.4. Calculez le V de Cramer et interprétez le résultat.5. Créez un diagramme en barres groupées pour visualiser la relation entre le genre et les préférences de films.::::::{#exr-}## Niveau d'Éducation et Opinion PolitiqueUne enquête a été menée pour étudier la relation entre le niveau d'éducation (Primaire, Secondaire, Supérieur) et l'opinion politique (Gauche, Droite, Centre). Les résultats sont présentés dans le tableau de contingence suivant :| Niveau d'Éducation | Gauche | Droite | Centre | Total || :------------------| :-----| :-----| :-----| :----|| Primaire | 80 | 60 | 40 | 180 || Secondaire | 60 | 70 | 50 | 180 || Supérieur | 40 | 80 | 60 | 180 || **Total** | **180** | **210** | **150** | **540** |1. Calculez les fréquences marginales pour chaque variable.2. Calculez les fréquences conditionnelles (pourcentages) des opinions politiques pour chaque niveau d'éducation.3. Calculez le Chi-deux (χ²) et interprétez le résultat.4. Calculez le V de Cramer et interprétez le résultat.5. Créez un diagramme en mosaïque pour visualiser la relation entre le niveau d'éducation et l'opinion politique.:::