Mesures de Liaison entre Variables Quantitatives

Introduction

Après avoir visualisé les relations entre variables quantitatives à l’aide de nuages de points, nous allons maintenant explorer les mesures numériques qui permettent de quantifier ces relations. Ces mesures nous aideront à déterminer la force et la direction de la liaison entre deux variables.

La Covariance : Mesure de la Variation Conjointe

La covariance est une mesure qui indique comment deux variables quantitatives varient ensemble. Elle est définie comme la moyenne des produits des écarts à la moyenne de chaque variable.

Pour un échantillon :

\[ S_{x,y} = \dfrac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \]

où :

$x_i$ et $y_i$ sont les valeurs des variables $X$ et $Y$ pour l’observation $i$.
$\bar{x}=\dfrac{1}{n}\sum_{i=1}^nx_i$ et $\bar{y}=\dfrac{1}{n}\sum_{i=1}^ny_i$ sont les moyennes des variables $X$ et $Y$.
$n$ est le nombre d’observations.

Interprétation

Une covariance positive indique que les variables ont tendance à varier dans la même direction.
Une covariance négative indique que les variables ont tendance à varier dans des directions opposées.
Une covariance proche de zéro indique une faible liaison linéaire.

Limites

La covariance est sensible à l’échelle des variables, ce qui rend difficile la comparaison de covariances entre différents jeux de données.

Le Coefficient de Corrélation Linéaire de Pearson : Mesure de la Force et de la Direction

Le coefficient de corrélation linéaire de Pearson est une mesure normalisée de la liaison linéaire entre deux variables quantitatives. Il est défini comme la covariance divisée par le produit des écarts-types des variables.

\[ r_{x, y} = \frac{S_{x, y}}{S_x S_y} \]

où :

$S_{x, y}$ est la covariance entre $X$ et $Y$.
$S_x$ et $S_y$ sont les écarts-types de $X$ et $Y$.

Interprétation

Le coefficient de corrélation varie entre -1 et 1.
$r = 1$ indique une corrélation linéaire positive parfaite.
$r = -1$ indique une corrélation linéaire négative parfaite.
$r = 0$ indique l’absence de corrélation linéaire.
La valeur absolue de $r$ indique la force de la corrélation:
- $|r| = 1$ : Corrélation linéaire parfaite. Les points sont parfaitement alignés sur une droite.
- $0.7 \le |r| < 1$ : Corrélation linéaire forte. Les points sont proches d’une droite.
- $0.3 \le |r| < 0.7$ : Corrélation linéaire modérée. Les points montrent une tendance linéaire, mais sont plus dispersés.
- $0 \le |r| < 0.3$ : Corrélation linéaire faible ou nulle. Les points sont très dispersés, et il est difficile de discerner une tendance linéaire.

Note

Avantages : Le coefficient de corrélation est indépendant de l’échelle des variables, ce qui permet de comparer les corrélations entre différents jeux de données.
Limites : Le coefficient de corrélation mesure uniquement la liaison linéaire. Il ne détecte pas les relations non linéaires.

Example 1

Code

# Exemple avec les données heures d'étude et notes d'examen
heures_etude <- c(2, 3, 4, 5, 6, 7, 8, 3, 5, 9)
notes_examen <- c(60, 68, 75, 82, 88, 92, 95, 72, 80, 98)

# Calcul de la covariance
covariance <- cov(heures_etude, notes_examen)
print(paste("Covariance :", covariance))

[1] "Covariance : 28"

Code

# Calcul du coefficient de corrélation de Pearson
correlation <- cor(heures_etude, notes_examen)
print(paste("Coefficient de corrélation :", correlation))

[1] "Coefficient de corrélation : 0.981813545165399"

Dans l’exemple ci-dessus, nous nous attendons à une covariance positive et à un coefficient de corrélation positif proche de 1, car il existe une forte relation linéaire positive entre les heures d’étude et les notes d’examen.

Limites de la Corrélation

Il est important de se rappeler que la corrélation n’implique pas la causalité: Une forte corrélation entre deux variables peut être due à une troisième variable non observée.
De plus, la corrélation mesure uniquement la liaison linéaire. Des relations non linéaires peuvent exister entre les variables, même si le coefficient de corrélation est proche de zéro

Exercices

Exercise 1 (Relation entre Taille et Poids) Un chercheur souhaite étudier la relation entre la taille (en cm) et le poids (en kg) d’un groupe de 20 individus. Les données sont les suivantes :

Taille (cm)	Poids (kg)
165	60
170	65
175	70
180	75
160	58
185	80
172	68
168	62
178	73
182	78
163	59
177	72
188	85
173	69
166	61
183	79
171	67
169	63
179	74
181	77

Créez un nuage de points pour visualiser la relation entre la taille et le poids.
Calculez la covariance entre la taille et le poids.
Calculez le coefficient de corrélation linéaire de Pearson et interprétez le résultat.
Effectuez une régression linéaire simple pour prédire le poids en fonction de la taille.
Interprétez les coefficients de la régression et le coefficient de détermination ($R^2$).
Ajoutez la droite de régression au nuage de points.

Exercise 2 (Relation entre Température et Ventes de Glaces) Un vendeur de glaces souhaite étudier la relation entre la température quotidienne (en °C) et le nombre de glaces vendues. Les données pour 15 jours sont les suivantes :

Température (°C)	Glaces vendues
25	150
28	180
30	200
22	120
26	160
29	190
24	140
31	210
23	130
27	170
32	220
21	110
25	155
28	185
30	205

Créez un nuage de points pour visualiser la relation entre la température et les ventes de glaces.
Calculez la covariance et le coefficient de corrélation linéaire de Pearson.
Effectuez une régression linéaire simple pour prédire les ventes de glaces en fonction de la température.
Interprétez les coefficients de la régression et le coefficient de détermination ($R^2$).
Prédisez le nombre de glaces vendues si la température est de 35 °C.
Discutez des limites de la régression linéaire dans ce contexte.

--- title: "Mesures de Liaison entre Variables Quantitatives" --- ## Introduction Après avoir visualisé les relations entre variables quantitatives à l'aide de nuages de points, nous allons maintenant explorer les mesures numériques qui permettent de quantifier ces relations. Ces mesures nous aideront à déterminer la force et la direction de la liaison entre deux variables. ## La Covariance : Mesure de la Variation Conjointe La covariance est une mesure qui indique comment deux variables quantitatives varient ensemble. Elle est définie comme la moyenne des produits des écarts à la moyenne de chaque variable. Pour un échantillon : $$ S_{x,y} = \dfrac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) $$ où : * $x_i$ et $y_i$ sont les valeurs des variables $X$ et $Y$ pour l'observation $i$. * $\bar{x}=\dfrac{1}{n}\sum_{i=1}^nx_i$ et $\bar{y}=\dfrac{1}{n}\sum_{i=1}^ny_i$ sont les moyennes des variables $X$ et $Y$. * $n$ est le nombre d'observations. :::{.callout-tip} ## Interprétation * Une covariance positive indique que les variables ont tendance à varier dans la même direction. * Une covariance négative indique que les variables ont tendance à varier dans des directions opposées. * Une covariance proche de zéro indique une faible liaison linéaire. ::: :::{.callout-tip} ## Limites La covariance est sensible à l'échelle des variables, ce qui rend difficile la comparaison de covariances entre différents jeux de données. ::: ## Le Coefficient de Corrélation Linéaire de Pearson : Mesure de la Force et de la Direction Le coefficient de corrélation linéaire de Pearson est une mesure normalisée de la liaison linéaire entre deux variables quantitatives. Il est défini comme la covariance divisée par le produit des écarts-types des variables. $$ r_{x, y} = \frac{S_{x, y}}{S_x S_y} $$ où : * $S_{x, y}$ est la covariance entre $X$ et $Y$. * $S_x$ et $S_y$ sont les écarts-types de $X$ et $Y$. :::{.callout-tip} ## Interprétation * Le coefficient de corrélation varie entre -1 et 1. * $r = 1$ indique une corrélation linéaire positive parfaite. * $r = -1$ indique une corrélation linéaire négative parfaite. * $r = 0$ indique l'absence de corrélation linéaire. * La valeur absolue de $r$ indique la force de la corrélation: * **$|r| = 1$ **: Corrélation linéaire parfaite. Les points sont parfaitement alignés sur une droite. * **$0.7 \le |r| < 1$ **: Corrélation linéaire forte. Les points sont proches d'une droite. * **$0.3 \le |r| < 0.7$ **: Corrélation linéaire modérée. Les points montrent une tendance linéaire, mais sont plus dispersés. * **$0 \le |r| < 0.3$ **: Corrélation linéaire faible ou nulle. Les points sont très dispersés, et il est difficile de discerner une tendance linéaire. ::: :::{.callout-note} * **Avantages **: Le coefficient de corrélation est indépendant de l'échelle des variables, ce qui permet de comparer les corrélations entre différents jeux de données. * **Limites **: Le coefficient de corrélation mesure uniquement la liaison linéaire. Il ne détecte pas les relations non linéaires. ::: :::{#exm-} ```{r} # Exemple avec les données heures d'étude et notes d'examen heures_etude <- c(2, 3, 4, 5, 6, 7, 8, 3, 5, 9) notes_examen <- c(60, 68, 75, 82, 88, 92, 95, 72, 80, 98) # Calcul de la covariance covariance <- cov(heures_etude, notes_examen) print(paste("Covariance :", covariance)) # Calcul du coefficient de corrélation de Pearson correlation <- cor(heures_etude, notes_examen) print(paste("Coefficient de corrélation :", correlation)) ``` Dans l'exemple ci-dessus, nous nous attendons à une covariance positive et à un coefficient de corrélation positif proche de 1, car il existe une forte relation linéaire positive entre les heures d'étude et les notes d'examen. ::: :::{.callout-tipe} ## Limites de la Corrélation - Il est important de se rappeler que la corrélation n'implique pas la causalité: Une forte corrélation entre deux variables peut être due à une troisième variable non observée. - De plus, la corrélation mesure uniquement la liaison linéaire. Des relations non linéaires peuvent exister entre les variables, même si le coefficient de corrélation est proche de zéro ::: ## Exercices :::{#exr-} ## Relation entre Taille et Poids Un chercheur souhaite étudier la relation entre la taille (en cm) et le poids (en kg) d'un groupe de 20 individus. Les données sont les suivantes : | Taille (cm) | Poids (kg) | | :---------- | :---------- | | 165 | 60 | | 170 | 65 | | 175 | 70 | | 180 | 75 | | 160 | 58 | | 185 | 80 | | 172 | 68 | | 168 | 62 | | 178 | 73 | | 182 | 78 | | 163 | 59 | | 177 | 72 | | 188 | 85 | | 173 | 69 | | 166 | 61 | | 183 | 79 | | 171 | 67 | | 169 | 63 | | 179 | 74 | | 181 | 77 | 1. Créez un nuage de points pour visualiser la relation entre la taille et le poids. 2. Calculez la covariance entre la taille et le poids. 3. Calculez le coefficient de corrélation linéaire de Pearson et interprétez le résultat. 4. Effectuez une régression linéaire simple pour prédire le poids en fonction de la taille. 5. Interprétez les coefficients de la régression et le coefficient de détermination ($R^2$). 6. Ajoutez la droite de régression au nuage de points. ::: :::{#exr-} ## Relation entre Température et Ventes de Glaces Un vendeur de glaces souhaite étudier la relation entre la température quotidienne (en °C) et le nombre de glaces vendues. Les données pour 15 jours sont les suivantes : | Température (°C) | Glaces vendues | | :--------------- | :------------- | | 25 | 150 | | 28 | 180 | | 30 | 200 | | 22 | 120 | | 26 | 160 | | 29 | 190 | | 24 | 140 | | 31 | 210 | | 23 | 130 | | 27 | 170 | | 32 | 220 | | 21 | 110 | | 25 | 155 | | 28 | 185 | | 30 | 205 | 1. Créez un nuage de points pour visualiser la relation entre la température et les ventes de glaces. 2. Calculez la covariance et le coefficient de corrélation linéaire de Pearson. 3. Effectuez une régression linéaire simple pour prédire les ventes de glaces en fonction de la température. 4. Interprétez les coefficients de la régression et le coefficient de détermination ($R^2$). 5. Prédisez le nombre de glaces vendues si la température est de 35 °C. 6. Discutez des limites de la régression linéaire dans ce contexte. :::