Dans de nombreuses analyses de données, nous rencontrons des situations où nous devons examiner la relation entre une variable quantitative (mesurée numériquement) et une variable qualitative (catégorielle). Ce chapitre explore les méthodes et les outils pour analyser et interpréter ce type de relation.
L’objectif de cette analyse descriptive est d’explorer visuellement et numériquement les éventuelles associations entre ces deux types de variables, sans recourir à des tests statistiques formels. En d’autres termes, nous allons examiner comment les valeurs de la variable quantitative varient en fonction des différentes modalités de la variable qualitative.
Cette approche descriptive nous permettra de :
Identifier les tendances et les motifs potentiels dans les données.
Formuler des hypothèses pour des analyses ultérieures plus approfondies.
Fournir une base solide pour la compréhension des relations entre les variables.
Il est important de noter que, en l’absence de tests statistiques, les conclusions tirées de cette analyse seront de nature descriptive et ne pourront pas établir de relations causales ou généralisables à l’ensemble de la population.
Dans les sections suivantes, nous explorerons les méthodes graphiques et les indicateurs statistiques descriptifs qui nous permettront d’analyser en détail la relation entre nos variables d’intérêt.
Visualisation des données
Boxplots (Boîtes à moustaches)
Les boxplots sont un excellent moyen de visualiser la distribution d’une variable quantitative pour chaque catégorie d’une variable qualitative.
Code
require(ggplot2)# Exemple de donnéesdata <-data.frame(categorie =factor(rep(c("A", "B", "C"), each =50)),valeur =c(rnorm(50, 10, 2), rnorm(50, 12, 2), rnorm(50, 15, 2)))ggplot(data, aes(x = categorie, y = valeur)) +geom_boxplot() +labs(title ="Distribution de la valeur par catégorie", x ="Catégorie", y ="Valeur")
Dans le graphique ci-dessus, nous pouvons observer :
La médiane : Représentée par la ligne au centre de chaque boîte, elle indique la valeur médiane pour chaque groupe.
Les quartiles : Les bords de la boîte représentent le premier (Q1) et le troisième quartile (Q3), délimitant la plage où se trouvent 50 % des données.
Les moustaches : Elles s’étendent généralement jusqu’à 1,5 fois l’écart interquartile (IQR) à partir des quartiles, et les points au-delà sont considérés comme des valeurs aberrantes.
Les valeurs aberrantes : Représentées par des points individuels, elles peuvent indiquer des observations inhabituelles ou des erreurs de données.
En comparant les boîtes à moustaches, nous pouvons identifier les différences de médianes, de dispersions et de présence de valeurs aberrantes entre les groupes.
Histogrammes groupés
Les histogrammes groupés offrent une autre perspective en affichant la distribution de la variable quantitative pour chaque modalité de la variable qualitative. Ils permettent de comparer les formes, les centres et les étendues des distributions.
Dans les histogrammes ci-dessus, nous pouvons observer :
La forme de la distribution : Symétrique, asymétrique, bimodale, etc.
Le centre de la distribution : La position de la moyenne ou de la médiane.
L’étendue de la distribution : La plage de revenus observés.
La comparaison des histogrammes permet d’identifier les différences de formes et de tendances entre les niveaux d’éducation.
Introduction
Dans ce chapitre, nous allons détailler le calcul du rapport de corrélation \(\eta^2\) en utilisant les sommes des carrés. Cette approche, étroitement liée à l’analyse de la variance (ANOVA), permet de comprendre comment la variance d’une variable quantitative est expliquée par les modalités d’une variable qualitative.
Définitions
Variable quantitative (Y): Les données numériques que nous analysons.
Variable qualitative (X): Les catégories ou groupes qui divisent les données.
\(y_{k,i}\): La i-ème observation de la variable Y dans la modalité k de la variable X.
\(\bar{y}_k\): La moyenne des observations de Y dans la modalité k de X.
\(\bar{y}\): La moyenne globale de toutes les observations de Y.
\(n_k\): Le nombre d’observations dans la modalité k de X.
n: Le nombre total d’observations.
Sommes des carrés
Somme des carrés totale (SCT):
Mesure la variation totale des données Y autour de la moyenne globale \(\bar{y}\).
---title: Liaison entre une variable quantitative et une variable qualitativeexecute: eval: false---```{r}#| label: setuprequire(dplyr)require(ggplot2)```## IntroductionDans de nombreuses analyses de données, nous rencontrons des situations où nous devons examiner la relation entre une variable quantitative (mesurée numériquement) et une variable qualitative (catégorielle). Ce chapitre explore les méthodes et les outils pour analyser et interpréter ce type de relation.L'objectif de cette analyse descriptive est d'explorer visuellement et numériquement les éventuelles associations entre ces deux types de variables, sans recourir à des tests statistiques formels. En d'autres termes, nous allons examiner comment les valeurs de la variable quantitative varient en fonction des différentes modalités de la variable qualitative.Cette approche descriptive nous permettra de :* Identifier les tendances et les motifs potentiels dans les données.* Formuler des hypothèses pour des analyses ultérieures plus approfondies.* Fournir une base solide pour la compréhension des relations entre les variables.Il est important de noter que, en l'absence de tests statistiques, les conclusions tirées de cette analyse seront de nature descriptive et ne pourront pas établir de relations causales ou généralisables à l'ensemble de la population.Dans les sections suivantes, nous explorerons les méthodes graphiques et les indicateurs statistiques descriptifs qui nous permettront d'analyser en détail la relation entre nos variables d'intérêt.## Visualisation des données### Boxplots (Boîtes à moustaches)Les boxplots sont un excellent moyen de visualiser la distribution d'une variable quantitative pour chaque catégorie d'une variable qualitative.```{r}#| message: false#| warning: falserequire(ggplot2)# Exemple de donnéesdata <-data.frame(categorie =factor(rep(c("A", "B", "C"), each =50)),valeur =c(rnorm(50, 10, 2), rnorm(50, 12, 2), rnorm(50, 15, 2)))ggplot(data, aes(x = categorie, y = valeur)) +geom_boxplot() +labs(title ="Distribution de la valeur par catégorie", x ="Catégorie", y ="Valeur")```Dans le graphique ci-dessus, nous pouvons observer :* La médiane : Représentée par la ligne au centre de chaque boîte, elle indique la valeur médiane pour chaque groupe.* Les quartiles : Les bords de la boîte représentent le premier (Q1) et le troisième quartile (Q3), délimitant la plage où se trouvent 50 % des données.* Les moustaches : Elles s'étendent généralement jusqu'à 1,5 fois l'écart interquartile (IQR) à partir des quartiles, et les points au-delà sont considérés comme des valeurs aberrantes.* Les valeurs aberrantes : Représentées par des points individuels, elles peuvent indiquer des observations inhabituelles ou des erreurs de données.En comparant les boîtes à moustaches, nous pouvons identifier les différences de médianes, de dispersions et de présence de valeurs aberrantes entre les groupes.### Histogrammes groupésLes histogrammes groupés offrent une autre perspective en affichant la distribution de la variable quantitative pour chaque modalité de la variable qualitative. Ils permettent de comparer les formes, les centres et les étendues des distributions.```{r}#| include: false#| eval: true# Définir le nombre d'individus à simulern_individus <-300# Définir les niveaux d'éducation et leurs proportionsniveaux <-c("Primaire", "Secondaire", "Superieur")proportions <-c(0.20, 0.50, 0.30) # Assurez-vous que la somme est 1# Simuler les niveaux d'éducation# `factor` est utilisé pour que les niveaux soient ordonnés correctementniveau_education_simule <-factor(sample(niveaux, size = n_individus, replace =TRUE, prob = proportions),levels = niveaux,ordered =TRUE)# Définir les paramètres de revenu (moyenne, écart-type) pour chaque niveau# (en milliers de XAF/an)revenu_moyenne <-c(Primaire =500, Secondaire =1000, Superieur =3000)revenu_ecart_type <-c(Primaire =100, Secondaire =250, Superieur =800)# Initialiser le vecteur de revenusrevenus_simules <-numeric(n_individus)# Simuler les revenus en fonction du niveau d'éducation# Pour chaque niveau, on tire un revenu d'une loi normale avec les bons paramètresfor (niveau in niveaux) { indices <-which(niveau_education_simule == niveau) n_niveau <-length(indices)if (n_niveau >0) { revenus_simules[indices] <-rnorm(n = n_niveau,mean = revenu_moyenne[niveau],sd = revenu_ecart_type[niveau] ) }}# S'assurer que les revenus sont positifs (par exemple, minimum 50)revenus_simules <-pmax(50, revenus_simules)# Créer le data frame nommé "revenus" avec les noms de colonnes spécifiés# Utilisation des backticks `` pour le nom de colonne non standard "niveau-education"revenus <-data.frame(niveau_education = niveau_education_simule,revenus =round(revenus_simules, 0) # Nom de colonne déjà correct)revenus |>head()``````{r}#| label: histogrammes-groupes-exemple#| fig-cap: "Histogrammes groupés des revenus par niveau d'éducation."#| echo: false#| eval: false# Création des histogrammes groupéspar(mfrow =c(1, 3)) # Pour afficher les histogrammes côte à côtehist(revenus$revenus[revenus$niveau_education =="Primaire"], main ="Primaire", xlab ="Revenus")hist(revenus$revenus[revenus$niveau_education =="Secondaire"], main ="Secondaire", xlab ="Revenus")hist(revenus$revenus[revenus$niveau_education =="Superieur"], main ="Superieur", xlab ="Revenus")par(mfrow =c(1, 1)) # Pour revenir à l'affichage par défaut``````{r}#| label: histogrammes-groupes-ggplot2-exemple#| fig-cap: "Histogrammes groupés superposés des revenus par niveau d'éducation avec ggplot2."#| echo: false# Création des histogrammes groupés superposésggplot(revenus, aes(x = revenus, y=..density.., fill = niveau_education)) +geom_histogram(alpha =0.5, position ="identity") +geom_density(alpha=0.3, show.legend =FALSE, mapping =aes(fill = niveau_education, colour = niveau_education)) +labs(title ="Histogrammes groupés superposés des revenus par niveau d'éducation",x ="Revenus (en euros)",y ="Fréquence",fill ="Niveau d'éducation") +theme_minimal()```Dans les histogrammes ci-dessus, nous pouvons observer :* La forme de la distribution : Symétrique, asymétrique, bimodale, etc.* Le centre de la distribution : La position de la moyenne ou de la médiane.* L'étendue de la distribution : La plage de revenus observés.* La comparaison des histogrammes permet d'identifier les différences de formes et de tendances entre les niveaux d'éducation.---title: "Calcul de η² par les sommes des carrés"author: "Votre Nom"format: html---## IntroductionDans ce chapitre, nous allons détailler le calcul du rapport de corrélation $\eta^2$ en utilisant les sommes des carrés. Cette approche, étroitement liée à l'analyse de la variance (ANOVA), permet de comprendre comment la variance d'une variable quantitative est expliquée par les modalités d'une variable qualitative.## Définitions* **Variable quantitative (Y)**: Les données numériques que nous analysons.* **Variable qualitative (X)**: Les catégories ou groupes qui divisent les données.* **$y_{k,i}$**: La i-ème observation de la variable Y dans la modalité k de la variable X.* **$\bar{y}_k$**: La moyenne des observations de Y dans la modalité k de X.* **$\bar{y}$**: La moyenne globale de toutes les observations de Y.* **$n_k$**: Le nombre d'observations dans la modalité k de X.* **n**: Le nombre total d'observations.## Sommes des carrés* **Somme des carrés totale (SCT)**: * Mesure la variation totale des données Y autour de la moyenne globale $\bar{y}$. * Formule: $SCT = \sum_{k} \sum_{i} (y_{k,i} - \bar{y})^2$* **Somme des carrés expliquée (SCE)**: * Mesure la variation des moyennes conditionnelles $\bar{y}_k$ autour de la moyenne globale $\bar{y}$. * Formule: $SCE = \sum_{k} n_k (\bar{y}_k - \bar{y})^2$* **Somme des carrés résiduelle (SCR)**: * Mesure la variation des données Y à l'intérieur de chaque modalité k de X, autour de leurs moyennes conditionnelles $\bar{y}_k$ respectives. * Formule: $SCR = \sum_{k} \sum_{i} (y_{k,i} - \bar{y}_k)^2$* Relation importante: SCT = SCE + SCR## Calcul du rapport de corrélation (η²)* Le rapport de corrélation $\eta^2$ est le rapport de la SCE à la SCT.* Formule: $\eta^2 = \frac{SCE}{SCT}$## Interprétation* $\eta^2$ représente la proportion de la variance totale de Y qui est expliquée par les différences entre les modalités de X.* Il varie entre 0 et 1: * $\eta^2 = 0$: Aucune relation entre X et Y. * $\eta^2 = 1$: Relation parfaite entre X et Y. * Plus $\eta^2$ est élevé, plus la relation est forte.## Exemple pratique (en R)```{r}#| message: false#| warning: false# Exemple de donnéescategorie <-factor(rep(c("A", "B", "C"), each =10))valeur <-c(rnorm(10, 10, 2), rnorm(10, 12, 2), rnorm(10, 15, 2))data <-data.frame(categorie, valeur)# Calcul des moyennesmoyenne_globale <-mean(data$valeur)moyennes_groupes <-aggregate(valeur ~ categorie, data, mean)# Calcul des sommes des carrésSCT <-sum((data$valeur - moyenne_globale)^2)SCE <-sum(aggregate(valeur ~ categorie, data, length)$valeur * (moyennes_groupes$valeur - moyenne_globale)^2)# Calcul de η²eta_carre <- SCE / SCTprint(eta_carre)```