Calcul de η² par les sommes des carrés

Author

Votre Nom

Code

require(dplyr)
require(ggplot2)

Introduction

Dans de nombreuses analyses de données, nous rencontrons des situations où nous devons examiner la relation entre une variable quantitative (mesurée numériquement) et une variable qualitative (catégorielle). Ce chapitre explore les méthodes et les outils pour analyser et interpréter ce type de relation.

L’objectif de cette analyse descriptive est d’explorer visuellement et numériquement les éventuelles associations entre ces deux types de variables, sans recourir à des tests statistiques formels. En d’autres termes, nous allons examiner comment les valeurs de la variable quantitative varient en fonction des différentes modalités de la variable qualitative.

Cette approche descriptive nous permettra de :

Identifier les tendances et les motifs potentiels dans les données.
Formuler des hypothèses pour des analyses ultérieures plus approfondies.
Fournir une base solide pour la compréhension des relations entre les variables.

Il est important de noter que, en l’absence de tests statistiques, les conclusions tirées de cette analyse seront de nature descriptive et ne pourront pas établir de relations causales ou généralisables à l’ensemble de la population.

Dans les sections suivantes, nous explorerons les méthodes graphiques et les indicateurs statistiques descriptifs qui nous permettront d’analyser en détail la relation entre nos variables d’intérêt.

Visualisation des données

Boxplots (Boîtes à moustaches)

Les boxplots sont un excellent moyen de visualiser la distribution d’une variable quantitative pour chaque catégorie d’une variable qualitative.

Code

require(ggplot2)

# Exemple de données
data <- data.frame(
  categorie = factor(rep(c("A", "B", "C"), each = 50)),
  valeur = c(rnorm(50, 10, 2), rnorm(50, 12, 2), rnorm(50, 15, 2))
)

ggplot(data, aes(x = categorie, y = valeur)) +
  geom_boxplot() +
  labs(title = "Distribution de la valeur par catégorie", x = "Catégorie", y = "Valeur")

Dans le graphique ci-dessus, nous pouvons observer :

La médiane : Représentée par la ligne au centre de chaque boîte, elle indique la valeur médiane pour chaque groupe.
Les quartiles : Les bords de la boîte représentent le premier (Q1) et le troisième quartile (Q3), délimitant la plage où se trouvent 50 % des données.
Les moustaches : Elles s’étendent généralement jusqu’à 1,5 fois l’écart interquartile (IQR) à partir des quartiles, et les points au-delà sont considérés comme des valeurs aberrantes.
Les valeurs aberrantes : Représentées par des points individuels, elles peuvent indiquer des observations inhabituelles ou des erreurs de données.

En comparant les boîtes à moustaches, nous pouvons identifier les différences de médianes, de dispersions et de présence de valeurs aberrantes entre les groupes.

Histogrammes groupés

Les histogrammes groupés offrent une autre perspective en affichant la distribution de la variable quantitative pour chaque modalité de la variable qualitative. Ils permettent de comparer les formes, les centres et les étendues des distributions.

Dans les histogrammes ci-dessus, nous pouvons observer :

La forme de la distribution : Symétrique, asymétrique, bimodale, etc.
Le centre de la distribution : La position de la moyenne ou de la médiane.
L’étendue de la distribution : La plage de revenus observés.
La comparaison des histogrammes permet d’identifier les différences de formes et de tendances entre les niveaux d’éducation.

Introduction

Dans ce chapitre, nous allons détailler le calcul du rapport de corrélation $\eta^2$ en utilisant les sommes des carrés. Cette approche, étroitement liée à l’analyse de la variance (ANOVA), permet de comprendre comment la variance d’une variable quantitative est expliquée par les modalités d’une variable qualitative.

Définitions

Variable quantitative (Y): Les données numériques que nous analysons.
Variable qualitative (X): Les catégories ou groupes qui divisent les données.
$y_{k,i}$: La i-ème observation de la variable Y dans la modalité k de la variable X.
$\bar{y}_k$: La moyenne des observations de Y dans la modalité k de X.
$\bar{y}$: La moyenne globale de toutes les observations de Y.
$n_k$: Le nombre d’observations dans la modalité k de X.
n: Le nombre total d’observations.

Sommes des carrés

Somme des carrés totale (SCT):
- Mesure la variation totale des données Y autour de la moyenne globale $\bar{y}$.
- Formule: $SCT = \sum_{k} \sum_{i} (y_{k,i} - \bar{y})^2$
Somme des carrés expliquée (SCE):
- Mesure la variation des moyennes conditionnelles $\bar{y}_k$ autour de la moyenne globale $\bar{y}$.
- Formule: $SCE = \sum_{k} n_k (\bar{y}_k - \bar{y})^2$
Somme des carrés résiduelle (SCR):
- Mesure la variation des données Y à l’intérieur de chaque modalité k de X, autour de leurs moyennes conditionnelles $\bar{y}_k$ respectives.
- Formule: $SCR = \sum_{k} \sum_{i} (y_{k,i} - \bar{y}_k)^2$
Relation importante: SCT = SCE + SCR

Calcul du rapport de corrélation (η²)

Le rapport de corrélation $\eta^2$ est le rapport de la SCE à la SCT.
Formule: $\eta^2 = \frac{SCE}{SCT}$

Interprétation

$\eta^2$ représente la proportion de la variance totale de Y qui est expliquée par les différences entre les modalités de X.
Il varie entre 0 et 1:
- $\eta^2 = 0$: Aucune relation entre X et Y.
- $\eta^2 = 1$: Relation parfaite entre X et Y.
- Plus $\eta^2$ est élevé, plus la relation est forte.

Exemple pratique (en R)

Code

# Exemple de données
categorie <- factor(rep(c("A", "B", "C"), each = 10))
valeur <- c(rnorm(10, 10, 2), rnorm(10, 12, 2), rnorm(10, 15, 2))
data <- data.frame(categorie, valeur)

# Calcul des moyennes
moyenne_globale <- mean(data$valeur)
moyennes_groupes <- aggregate(valeur ~ categorie, data, mean)

# Calcul des sommes des carrés
SCT <- sum((data$valeur - moyenne_globale)^2)
SCE <- sum(aggregate(valeur ~ categorie, data, length)$valeur * (moyennes_groupes$valeur - moyenne_globale)^2)

# Calcul de η²
eta_carre <- SCE / SCT

print(eta_carre)

--- title: Liaison entre une variable quantitative et une variable qualitative execute: eval: false --- ```{r} #| label: setup require(dplyr) require(ggplot2) ``` ## Introduction Dans de nombreuses analyses de données, nous rencontrons des situations où nous devons examiner la relation entre une variable quantitative (mesurée numériquement) et une variable qualitative (catégorielle). Ce chapitre explore les méthodes et les outils pour analyser et interpréter ce type de relation. L'objectif de cette analyse descriptive est d'explorer visuellement et numériquement les éventuelles associations entre ces deux types de variables, sans recourir à des tests statistiques formels. En d'autres termes, nous allons examiner comment les valeurs de la variable quantitative varient en fonction des différentes modalités de la variable qualitative. Cette approche descriptive nous permettra de : * Identifier les tendances et les motifs potentiels dans les données. * Formuler des hypothèses pour des analyses ultérieures plus approfondies. * Fournir une base solide pour la compréhension des relations entre les variables. Il est important de noter que, en l'absence de tests statistiques, les conclusions tirées de cette analyse seront de nature descriptive et ne pourront pas établir de relations causales ou généralisables à l'ensemble de la population. Dans les sections suivantes, nous explorerons les méthodes graphiques et les indicateurs statistiques descriptifs qui nous permettront d'analyser en détail la relation entre nos variables d'intérêt. ## Visualisation des données ### Boxplots (Boîtes à moustaches) Les boxplots sont un excellent moyen de visualiser la distribution d'une variable quantitative pour chaque catégorie d'une variable qualitative. ```{r} #| message: false #| warning: false require(ggplot2) # Exemple de données data <- data.frame( categorie = factor(rep(c("A", "B", "C"), each = 50)), valeur = c(rnorm(50, 10, 2), rnorm(50, 12, 2), rnorm(50, 15, 2)) ) ggplot(data, aes(x = categorie, y = valeur)) + geom_boxplot() + labs(title = "Distribution de la valeur par catégorie", x = "Catégorie", y = "Valeur") ``` Dans le graphique ci-dessus, nous pouvons observer : * La médiane : Représentée par la ligne au centre de chaque boîte, elle indique la valeur médiane pour chaque groupe. * Les quartiles : Les bords de la boîte représentent le premier (Q1) et le troisième quartile (Q3), délimitant la plage où se trouvent 50 % des données. * Les moustaches : Elles s'étendent généralement jusqu'à 1,5 fois l'écart interquartile (IQR) à partir des quartiles, et les points au-delà sont considérés comme des valeurs aberrantes. * Les valeurs aberrantes : Représentées par des points individuels, elles peuvent indiquer des observations inhabituelles ou des erreurs de données. En comparant les boîtes à moustaches, nous pouvons identifier les différences de médianes, de dispersions et de présence de valeurs aberrantes entre les groupes. ### Histogrammes groupés Les histogrammes groupés offrent une autre perspective en affichant la distribution de la variable quantitative pour chaque modalité de la variable qualitative. Ils permettent de comparer les formes, les centres et les étendues des distributions. ```{r} #| include: false #| eval: true # Définir le nombre d'individus à simuler n_individus <- 300 # Définir les niveaux d'éducation et leurs proportions niveaux <- c("Primaire", "Secondaire", "Superieur") proportions <- c(0.20, 0.50, 0.30) # Assurez-vous que la somme est 1 # Simuler les niveaux d'éducation # `factor` est utilisé pour que les niveaux soient ordonnés correctement niveau_education_simule <- factor( sample(niveaux, size = n_individus, replace = TRUE, prob = proportions), levels = niveaux, ordered = TRUE ) # Définir les paramètres de revenu (moyenne, écart-type) pour chaque niveau # (en milliers de XAF/an) revenu_moyenne <- c(Primaire = 500, Secondaire = 1000, Superieur = 3000) revenu_ecart_type <- c(Primaire = 100, Secondaire = 250, Superieur = 800) # Initialiser le vecteur de revenus revenus_simules <- numeric(n_individus) # Simuler les revenus en fonction du niveau d'éducation # Pour chaque niveau, on tire un revenu d'une loi normale avec les bons paramètres for (niveau in niveaux) { indices <- which(niveau_education_simule == niveau) n_niveau <- length(indices) if (n_niveau > 0) { revenus_simules[indices] <- rnorm( n = n_niveau, mean = revenu_moyenne[niveau], sd = revenu_ecart_type[niveau] ) } } # S'assurer que les revenus sont positifs (par exemple, minimum 50) revenus_simules <- pmax(50, revenus_simules) # Créer le data frame nommé "revenus" avec les noms de colonnes spécifiés # Utilisation des backticks `` pour le nom de colonne non standard "niveau-education" revenus <- data.frame( niveau_education = niveau_education_simule, revenus = round(revenus_simules, 0) # Nom de colonne déjà correct ) revenus |> head() ``` ```{r} #| label: histogrammes-groupes-exemple #| fig-cap: "Histogrammes groupés des revenus par niveau d'éducation." #| echo: false #| eval: false # Création des histogrammes groupés par(mfrow = c(1, 3)) # Pour afficher les histogrammes côte à côte hist(revenus$revenus[revenus$niveau_education == "Primaire"], main = "Primaire", xlab = "Revenus") hist(revenus$revenus[revenus$niveau_education == "Secondaire"], main = "Secondaire", xlab = "Revenus") hist(revenus$revenus[revenus$niveau_education == "Superieur"], main = "Superieur", xlab = "Revenus") par(mfrow = c(1, 1)) # Pour revenir à l'affichage par défaut ``` ```{r} #| label: histogrammes-groupes-ggplot2-exemple #| fig-cap: "Histogrammes groupés superposés des revenus par niveau d'éducation avec ggplot2." #| echo: false # Création des histogrammes groupés superposés ggplot(revenus, aes(x = revenus, y=..density.., fill = niveau_education)) + geom_histogram(alpha = 0.5, position = "identity") + geom_density(alpha=0.3, show.legend = FALSE, mapping = aes(fill = niveau_education, colour = niveau_education)) + labs(title = "Histogrammes groupés superposés des revenus par niveau d'éducation", x = "Revenus (en euros)", y = "Fréquence", fill = "Niveau d'éducation") + theme_minimal() ``` Dans les histogrammes ci-dessus, nous pouvons observer : * La forme de la distribution : Symétrique, asymétrique, bimodale, etc. * Le centre de la distribution : La position de la moyenne ou de la médiane. * L'étendue de la distribution : La plage de revenus observés. * La comparaison des histogrammes permet d'identifier les différences de formes et de tendances entre les niveaux d'éducation. --- title: "Calcul de η² par les sommes des carrés" author: "Votre Nom" format: html --- ## Introduction Dans ce chapitre, nous allons détailler le calcul du rapport de corrélation $\eta^2$ en utilisant les sommes des carrés. Cette approche, étroitement liée à l'analyse de la variance (ANOVA), permet de comprendre comment la variance d'une variable quantitative est expliquée par les modalités d'une variable qualitative. ## Définitions * **Variable quantitative (Y)**: Les données numériques que nous analysons. * **Variable qualitative (X)**: Les catégories ou groupes qui divisent les données. * **$y_{k,i}$**: La i-ème observation de la variable Y dans la modalité k de la variable X. * **$\bar{y}_k$**: La moyenne des observations de Y dans la modalité k de X. * **$\bar{y}$**: La moyenne globale de toutes les observations de Y. * **$n_k$**: Le nombre d'observations dans la modalité k de X. * **n**: Le nombre total d'observations. ## Sommes des carrés * **Somme des carrés totale (SCT)**: * Mesure la variation totale des données Y autour de la moyenne globale $\bar{y}$. * Formule: $SCT = \sum_{k} \sum_{i} (y_{k,i} - \bar{y})^2$ * **Somme des carrés expliquée (SCE)**: * Mesure la variation des moyennes conditionnelles $\bar{y}_k$ autour de la moyenne globale $\bar{y}$. * Formule: $SCE = \sum_{k} n_k (\bar{y}_k - \bar{y})^2$ * **Somme des carrés résiduelle (SCR)**: * Mesure la variation des données Y à l'intérieur de chaque modalité k de X, autour de leurs moyennes conditionnelles $\bar{y}_k$ respectives. * Formule: $SCR = \sum_{k} \sum_{i} (y_{k,i} - \bar{y}_k)^2$ * Relation importante: SCT = SCE + SCR ## Calcul du rapport de corrélation (η²) * Le rapport de corrélation $\eta^2$ est le rapport de la SCE à la SCT. * Formule: $\eta^2 = \frac{SCE}{SCT}$ ## Interprétation * $\eta^2$ représente la proportion de la variance totale de Y qui est expliquée par les différences entre les modalités de X. * Il varie entre 0 et 1: * $\eta^2 = 0$: Aucune relation entre X et Y. * $\eta^2 = 1$: Relation parfaite entre X et Y. * Plus $\eta^2$ est élevé, plus la relation est forte. ## Exemple pratique (en R) ```{r} #| message: false #| warning: false # Exemple de données categorie <- factor(rep(c("A", "B", "C"), each = 10)) valeur <- c(rnorm(10, 10, 2), rnorm(10, 12, 2), rnorm(10, 15, 2)) data <- data.frame(categorie, valeur) # Calcul des moyennes moyenne_globale <- mean(data$valeur) moyennes_groupes <- aggregate(valeur ~ categorie, data, mean) # Calcul des sommes des carrés SCT <- sum((data$valeur - moyenne_globale)^2) SCE <- sum(aggregate(valeur ~ categorie, data, length)$valeur * (moyennes_groupes$valeur - moyenne_globale)^2) # Calcul de η² eta_carre <- SCE / SCT print(eta_carre) ```