Après avoir visualisé les relations entre variables quantitatives à l’aide de nuages de points, nous allons maintenant explorer les mesures numériques qui permettent de quantifier ces relations. Ces mesures nous aideront à déterminer la force et la direction de la liaison entre deux variables.
La Covariance : Mesure de la Variation Conjointe
La covariance est une mesure qui indique comment deux variables quantitatives varient ensemble. Elle est définie comme la moyenne des produits des écarts à la moyenne de chaque variable.
\(x_i\) et \(y_i\) sont les valeurs des variables \(X\) et \(Y\) pour l’observation \(i\).
\(\bar{x}=\dfrac{1}{n}\sum_{i=1}^nx_i\) et \(\bar{y}=\dfrac{1}{n}\sum_{i=1}^ny_i\) sont les moyennes des variables \(X\) et \(Y\).
\(n\) est le nombre d’observations.
Interprétation
Une covariance positive indique que les variables ont tendance à varier dans la même direction.
Une covariance négative indique que les variables ont tendance à varier dans des directions opposées.
Une covariance proche de zéro indique une faible liaison linéaire.
Limites
La covariance est sensible à l’échelle des variables, ce qui rend difficile la comparaison de covariances entre différents jeux de données.
Le Coefficient de Corrélation Linéaire de Pearson : Mesure de la Force et de la Direction
Le coefficient de corrélation linéaire de Pearson est une mesure normalisée de la liaison linéaire entre deux variables quantitatives. Il est défini comme la covariance divisée par le produit des écarts-types des variables.
\[
r_{x, y} = \frac{S_{x, y}}{S_x S_y}
\]
où :
\(S_{x, y}\) est la covariance entre \(X\) et \(Y\).
\(S_x\) et \(S_y\) sont les écarts-types de \(X\) et \(Y\).
Interprétation
Le coefficient de corrélation varie entre -1 et 1.
\(r = 1\) indique une corrélation linéaire positive parfaite.
\(r = -1\) indique une corrélation linéaire négative parfaite.
\(r = 0\) indique l’absence de corrélation linéaire.
La valeur absolue de \(r\) indique la force de la corrélation:
\(|r| = 1\): Corrélation linéaire parfaite. Les points sont parfaitement alignés sur une droite.
\(0.7 \le |r| < 1\): Corrélation linéaire forte. Les points sont proches d’une droite.
\(0.3 \le |r| < 0.7\): Corrélation linéaire modérée. Les points montrent une tendance linéaire, mais sont plus dispersés.
\(0 \le |r| < 0.3\): Corrélation linéaire faible ou nulle. Les points sont très dispersés, et il est difficile de discerner une tendance linéaire.
Note
Avantages : Le coefficient de corrélation est indépendant de l’échelle des variables, ce qui permet de comparer les corrélations entre différents jeux de données.
Limites : Le coefficient de corrélation mesure uniquement la liaison linéaire. Il ne détecte pas les relations non linéaires.
Example 1
Code
# Exemple avec les données heures d'étude et notes d'examenheures_etude <-c(2, 3, 4, 5, 6, 7, 8, 3, 5, 9)notes_examen <-c(60, 68, 75, 82, 88, 92, 95, 72, 80, 98)# Calcul de la covariancecovariance <-cov(heures_etude, notes_examen)print(paste("Covariance :", covariance))
[1] "Covariance : 28"
Code
# Calcul du coefficient de corrélation de Pearsoncorrelation <-cor(heures_etude, notes_examen)print(paste("Coefficient de corrélation :", correlation))
[1] "Coefficient de corrélation : 0.981813545165399"
Dans l’exemple ci-dessus, nous nous attendons à une covariance positive et à un coefficient de corrélation positif proche de 1, car il existe une forte relation linéaire positive entre les heures d’étude et les notes d’examen.
Limites de la Corrélation
Il est important de se rappeler que la corrélation n’implique pas la causalité: Une forte corrélation entre deux variables peut être due à une troisième variable non observée.
De plus, la corrélation mesure uniquement la liaison linéaire. Des relations non linéaires peuvent exister entre les variables, même si le coefficient de corrélation est proche de zéro
Exercices
Exercise 1 (Relation entre Taille et Poids) Un chercheur souhaite étudier la relation entre la taille (en cm) et le poids (en kg) d’un groupe de 20 individus. Les données sont les suivantes :
Taille (cm)
Poids (kg)
165
60
170
65
175
70
180
75
160
58
185
80
172
68
168
62
178
73
182
78
163
59
177
72
188
85
173
69
166
61
183
79
171
67
169
63
179
74
181
77
Créez un nuage de points pour visualiser la relation entre la taille et le poids.
Calculez la covariance entre la taille et le poids.
Calculez le coefficient de corrélation linéaire de Pearson et interprétez le résultat.
Effectuez une régression linéaire simple pour prédire le poids en fonction de la taille.
Interprétez les coefficients de la régression et le coefficient de détermination (\(R^2\)).
Ajoutez la droite de régression au nuage de points.
Exercise 2 (Relation entre Température et Ventes de Glaces) Un vendeur de glaces souhaite étudier la relation entre la température quotidienne (en °C) et le nombre de glaces vendues. Les données pour 15 jours sont les suivantes :
Température (°C)
Glaces vendues
25
150
28
180
30
200
22
120
26
160
29
190
24
140
31
210
23
130
27
170
32
220
21
110
25
155
28
185
30
205
Créez un nuage de points pour visualiser la relation entre la température et les ventes de glaces.
Calculez la covariance et le coefficient de corrélation linéaire de Pearson.
Effectuez une régression linéaire simple pour prédire les ventes de glaces en fonction de la température.
Interprétez les coefficients de la régression et le coefficient de détermination (\(R^2\)).
Prédisez le nombre de glaces vendues si la température est de 35 °C.
Discutez des limites de la régression linéaire dans ce contexte.
---title: "Mesures de Liaison entre Variables Quantitatives"---## IntroductionAprès avoir visualisé les relations entre variables quantitatives à l'aide de nuages de points, nous allons maintenant explorer les mesures numériques qui permettent de quantifier ces relations. Ces mesures nous aideront à déterminer la force et la direction de la liaison entre deux variables.## La Covariance : Mesure de la Variation ConjointeLa covariance est une mesure qui indique comment deux variables quantitatives varient ensemble. Elle est définie comme la moyenne des produits des écarts à la moyenne de chaque variable.Pour un échantillon :$$S_{x,y} = \dfrac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$$où :* $x_i$ et $y_i$ sont les valeurs des variables $X$ et $Y$ pour l'observation $i$.* $\bar{x}=\dfrac{1}{n}\sum_{i=1}^nx_i$ et $\bar{y}=\dfrac{1}{n}\sum_{i=1}^ny_i$ sont les moyennes des variables $X$ et $Y$.* $n$ est le nombre d'observations.:::{.callout-tip}## Interprétation * Une covariance positive indique que les variables ont tendance à varier dans la même direction.* Une covariance négative indique que les variables ont tendance à varier dans des directions opposées.* Une covariance proche de zéro indique une faible liaison linéaire.::::::{.callout-tip}## LimitesLa covariance est sensible à l'échelle des variables, ce qui rend difficile la comparaison de covariances entre différents jeux de données.:::## Le Coefficient de Corrélation Linéaire de Pearson : Mesure de la Force et de la DirectionLe coefficient de corrélation linéaire de Pearson est une mesure normalisée de la liaison linéaire entre deux variables quantitatives. Il est défini comme la covariance divisée par le produit des écarts-types des variables.$$r_{x, y} = \frac{S_{x, y}}{S_x S_y}$$où :* $S_{x, y}$ est la covariance entre $X$ et $Y$.* $S_x$ et $S_y$ sont les écarts-types de $X$ et $Y$.:::{.callout-tip}## Interprétation* Le coefficient de corrélation varie entre -1 et 1.* $r = 1$ indique une corrélation linéaire positive parfaite.* $r = -1$ indique une corrélation linéaire négative parfaite.* $r = 0$ indique l'absence de corrélation linéaire.* La valeur absolue de $r$ indique la force de la corrélation: * **$|r| = 1$ **: Corrélation linéaire parfaite. Les points sont parfaitement alignés sur une droite. * **$0.7 \le |r| < 1$ **: Corrélation linéaire forte. Les points sont proches d'une droite. * **$0.3 \le |r| < 0.7$ **: Corrélation linéaire modérée. Les points montrent une tendance linéaire, mais sont plus dispersés. * **$0 \le |r| < 0.3$ **: Corrélation linéaire faible ou nulle. Les points sont très dispersés, et il est difficile de discerner une tendance linéaire.::::::{.callout-note}* **Avantages **: Le coefficient de corrélation est indépendant de l'échelle des variables, ce qui permet de comparer les corrélations entre différents jeux de données.* **Limites **: Le coefficient de corrélation mesure uniquement la liaison linéaire. Il ne détecte pas les relations non linéaires.::::::{#exm-}```{r}# Exemple avec les données heures d'étude et notes d'examenheures_etude <-c(2, 3, 4, 5, 6, 7, 8, 3, 5, 9)notes_examen <-c(60, 68, 75, 82, 88, 92, 95, 72, 80, 98)# Calcul de la covariancecovariance <-cov(heures_etude, notes_examen)print(paste("Covariance :", covariance))# Calcul du coefficient de corrélation de Pearsoncorrelation <-cor(heures_etude, notes_examen)print(paste("Coefficient de corrélation :", correlation))```Dans l'exemple ci-dessus, nous nous attendons à une covariance positive et à un coefficient de corrélation positif proche de 1, car il existe une forte relation linéaire positive entre les heures d'étude et les notes d'examen.::::::{.callout-tipe}## Limites de la Corrélation- Il est important de se rappeler que la corrélation n'implique pas la causalité: Une forte corrélation entre deux variables peut être due à une troisième variable non observée. - De plus, la corrélation mesure uniquement la liaison linéaire. Des relations non linéaires peuvent exister entre les variables, même si le coefficient de corrélation est proche de zéro:::## Exercices:::{#exr-}## Relation entre Taille et PoidsUn chercheur souhaite étudier la relation entre la taille (en cm) et le poids (en kg) d'un groupe de 20 individus. Les données sont les suivantes :| Taille (cm) | Poids (kg) || :----------| :----------|| 165 | 60 || 170 | 65 || 175 | 70 || 180 | 75 || 160 | 58 || 185 | 80 || 172 | 68 || 168 | 62 || 178 | 73 || 182 | 78 || 163 | 59 || 177 | 72 || 188 | 85 || 173 | 69 || 166 | 61 || 183 | 79 || 171 | 67 || 169 | 63 || 179 | 74 || 181 | 77 |1. Créez un nuage de points pour visualiser la relation entre la taille et le poids.2. Calculez la covariance entre la taille et le poids.3. Calculez le coefficient de corrélation linéaire de Pearson et interprétez le résultat.4. Effectuez une régression linéaire simple pour prédire le poids en fonction de la taille.5. Interprétez les coefficients de la régression et le coefficient de détermination ($R^2$).6. Ajoutez la droite de régression au nuage de points.::::::{#exr-}## Relation entre Température et Ventes de GlacesUn vendeur de glaces souhaite étudier la relation entre la température quotidienne (en °C) et le nombre de glaces vendues. Les données pour 15 jours sont les suivantes :| Température (°C) | Glaces vendues || :---------------| :-------------|| 25 | 150 || 28 | 180 || 30 | 200 || 22 | 120 || 26 | 160 || 29 | 190 || 24 | 140 || 31 | 210 || 23 | 130 || 27 | 170 || 32 | 220 || 21 | 110 || 25 | 155 || 28 | 185 || 30 | 205 |1. Créez un nuage de points pour visualiser la relation entre la température et les ventes de glaces.2. Calculez la covariance et le coefficient de corrélation linéaire de Pearson.3. Effectuez une régression linéaire simple pour prédire les ventes de glaces en fonction de la température.4. Interprétez les coefficients de la régression et le coefficient de détermination ($R^2$).5. Prédisez le nombre de glaces vendues si la température est de 35 °C.6. Discutez des limites de la régression linéaire dans ce contexte.:::