Mesures de Liaison entre Variables Quantitatives

Introduction

Après avoir visualisé les relations entre variables quantitatives à l’aide de nuages de points, nous allons maintenant explorer les mesures numériques qui permettent de quantifier ces relations. Ces mesures nous aideront à déterminer la force et la direction de la liaison entre deux variables.

La Covariance : Mesure de la Variation Conjointe

La covariance est une mesure qui indique comment deux variables quantitatives varient ensemble. Elle est définie comme la moyenne des produits des écarts à la moyenne de chaque variable.

Pour un échantillon :

\[ S_{x,y} = \dfrac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \]

où :

  • \(x_i\) et \(y_i\) sont les valeurs des variables \(X\) et \(Y\) pour l’observation \(i\).
  • \(\bar{x}=\dfrac{1}{n}\sum_{i=1}^nx_i\) et \(\bar{y}=\dfrac{1}{n}\sum_{i=1}^ny_i\) sont les moyennes des variables \(X\) et \(Y\).
  • \(n\) est le nombre d’observations.
Interprétation
  • Une covariance positive indique que les variables ont tendance à varier dans la même direction.
  • Une covariance négative indique que les variables ont tendance à varier dans des directions opposées.
  • Une covariance proche de zéro indique une faible liaison linéaire.
Limites

La covariance est sensible à l’échelle des variables, ce qui rend difficile la comparaison de covariances entre différents jeux de données.

Le Coefficient de Corrélation Linéaire de Pearson : Mesure de la Force et de la Direction

Le coefficient de corrélation linéaire de Pearson est une mesure normalisée de la liaison linéaire entre deux variables quantitatives. Il est défini comme la covariance divisée par le produit des écarts-types des variables.

\[ r_{x, y} = \frac{S_{x, y}}{S_x S_y} \]

où :

  • \(S_{x, y}\) est la covariance entre \(X\) et \(Y\).
  • \(S_x\) et \(S_y\) sont les écarts-types de \(X\) et \(Y\).
Interprétation
  • Le coefficient de corrélation varie entre -1 et 1.

  • \(r = 1\) indique une corrélation linéaire positive parfaite.

  • \(r = -1\) indique une corrélation linéaire négative parfaite.

  • \(r = 0\) indique l’absence de corrélation linéaire.

  • La valeur absolue de \(r\) indique la force de la corrélation:

    • \(|r| = 1\) : Corrélation linéaire parfaite. Les points sont parfaitement alignés sur une droite.
    • \(0.7 \le |r| < 1\) : Corrélation linéaire forte. Les points sont proches d’une droite.
    • \(0.3 \le |r| < 0.7\) : Corrélation linéaire modérée. Les points montrent une tendance linéaire, mais sont plus dispersés.
    • \(0 \le |r| < 0.3\) : Corrélation linéaire faible ou nulle. Les points sont très dispersés, et il est difficile de discerner une tendance linéaire.
Note
  • Avantages : Le coefficient de corrélation est indépendant de l’échelle des variables, ce qui permet de comparer les corrélations entre différents jeux de données.
  • Limites : Le coefficient de corrélation mesure uniquement la liaison linéaire. Il ne détecte pas les relations non linéaires.

Example 1  

Code
# Exemple avec les données heures d'étude et notes d'examen
heures_etude <- c(2, 3, 4, 5, 6, 7, 8, 3, 5, 9)
notes_examen <- c(60, 68, 75, 82, 88, 92, 95, 72, 80, 98)

# Calcul de la covariance
covariance <- cov(heures_etude, notes_examen)
print(paste("Covariance :", covariance))
[1] "Covariance : 28"
Code
# Calcul du coefficient de corrélation de Pearson
correlation <- cor(heures_etude, notes_examen)
print(paste("Coefficient de corrélation :", correlation))
[1] "Coefficient de corrélation : 0.981813545165399"

Dans l’exemple ci-dessus, nous nous attendons à une covariance positive et à un coefficient de corrélation positif proche de 1, car il existe une forte relation linéaire positive entre les heures d’étude et les notes d’examen.

Limites de la Corrélation

  • Il est important de se rappeler que la corrélation n’implique pas la causalité: Une forte corrélation entre deux variables peut être due à une troisième variable non observée.

  • De plus, la corrélation mesure uniquement la liaison linéaire. Des relations non linéaires peuvent exister entre les variables, même si le coefficient de corrélation est proche de zéro

Exercices

Exercise 1 (Relation entre Taille et Poids) Un chercheur souhaite étudier la relation entre la taille (en cm) et le poids (en kg) d’un groupe de 20 individus. Les données sont les suivantes :

Taille (cm) Poids (kg)
165 60
170 65
175 70
180 75
160 58
185 80
172 68
168 62
178 73
182 78
163 59
177 72
188 85
173 69
166 61
183 79
171 67
169 63
179 74
181 77
  1. Créez un nuage de points pour visualiser la relation entre la taille et le poids.
  2. Calculez la covariance entre la taille et le poids.
  3. Calculez le coefficient de corrélation linéaire de Pearson et interprétez le résultat.
  4. Effectuez une régression linéaire simple pour prédire le poids en fonction de la taille.
  5. Interprétez les coefficients de la régression et le coefficient de détermination (\(R^2\)).
  6. Ajoutez la droite de régression au nuage de points.

Exercise 2 (Relation entre Température et Ventes de Glaces) Un vendeur de glaces souhaite étudier la relation entre la température quotidienne (en °C) et le nombre de glaces vendues. Les données pour 15 jours sont les suivantes :

Température (°C) Glaces vendues
25 150
28 180
30 200
22 120
26 160
29 190
24 140
31 210
23 130
27 170
32 220
21 110
25 155
28 185
30 205
  1. Créez un nuage de points pour visualiser la relation entre la température et les ventes de glaces.
  2. Calculez la covariance et le coefficient de corrélation linéaire de Pearson.
  3. Effectuez une régression linéaire simple pour prédire les ventes de glaces en fonction de la température.
  4. Interprétez les coefficients de la régression et le coefficient de détermination (\(R^2\)).
  5. Prédisez le nombre de glaces vendues si la température est de 35 °C.
  6. Discutez des limites de la régression linéaire dans ce contexte.