La régression linéaire simple vise à trouver la meilleure droite qui approxime la relation entre deux variables quantitatives, \(Y\) et \(X\). Nous cherchons à modéliser cette relation par une équation de la forme \[y_i \approx \beta_0 + \beta_1 x_i,\] où \(\approx\) signifie “approximativement égal au sens des moindres carrés”.
Le Modèle d’Approximation Linéaire
Nous supposons que la relation entre \(Y\) et \(X\) peut être approximée par une droite :
\[
y_i \approx \beta_0 + \beta_1 x_i
\]
où :
\(y_i\) est la valeur observée de la variable dépendante \(Y\) pour l’observation \(i\).
\(x_i\) est la valeur observée de la variable indépendante \(X\) pour l’observation \(i\).
\(\beta_0\) est l’ordonnée à l’origine (l’interception).
\(\beta_1\) est la pente (le coefficient directeur ou pente).
La Méthode des Moindres Carrés : Minimisation des Écarts
L’objectif est de trouver les valeurs de \(\beta_0\) et \(\beta_1\) qui minimisent la somme des carrés des écarts entre les valeurs observées \(y_i\) et les valeurs prédites \[\hat{y}_i = \beta_0 + \beta_1 x_i.\]
L’écart (ou résidu) pour l’observation \(i\) est :
Pour trouver les valeurs de \(\beta_0\) et \(\beta_1\) qui minimisent \(SSE\), nous dérivons \(SSE\) par rapport à \(\beta_0\) et \(\beta_1\) et égalisons les dérivées à zéro. Cela nous donne les formules suivantes :
\(R^2\) représente la proportion de la variance de \(Y\) expliquée par le modèle de régression.
Example 1
Code
# Exemple avec les données heures d'étude et notes d'examenheures_etude <-c(2, 3, 4, 5, 6, 7, 8, 3, 5, 9)notes_examen <-c(60, 68, 75, 82, 88, 92, 95, 72, 80, 98)# Régression linéaire simplemodele_reg <-lm(notes_examen ~ heures_etude)# Affichage des résultats# summary(modele_reg)# Graphique avec la droite de régressionplot(heures_etude, notes_examen,main ="Approximation linéaire : Heures d'étude vs. Notes d'examen",xlab ="Heures d'étude",ylab ="Notes d'examen", col ="steelblue", pch=20, lwd=3)abline(modele_reg, col ="red", lwd=2)
Exercices
Exercise 1 (Prédiction des Ventes en Fonction du Budget Publicitaire) Une entreprise souhaite comprendre la relation entre son budget publicitaire (en milliers d’euros) et ses ventes (en milliers d’unités). Les données suivantes ont été collectées :
Budget Publicitaire (X)
Ventes (Y)
10
80
15
120
20
150
25
180
30
220
35
260
40
300
Créez un nuage de points pour visualiser la relation entre le budget publicitaire et les ventes.
Calculez les coefficients de la régression linéaire simple (\(\beta_0\) et \(\beta_1\)).
Écrivez l’équation de la droite de régression.
Interprétez les coefficients \(\beta_0\) et \(\beta_1\).
Calculez le coefficient de détermination (\(R^2\)) et interprétez-le.
Prédisez les ventes si le budget publicitaire est de 45 000 euros.
Ajoutez la droite de régression au nuage de points.
Relation entre Heures d’Étude et Notes d’Examen
Un professeur souhaite étudier la relation entre le nombre d’heures d’étude (X) et les notes obtenues à un examen (Y). Les données suivantes ont été recueillies :
Heures d’Étude (X)
Notes d’Examen (Y)
2
55
3
65
4
70
5
75
6
80
7
85
8
90
Créez un nuage de points pour visualiser la relation entre les heures d’étude et les notes d’examen.
Calculez les coefficients de la régression linéaire simple (\(\beta_0\) et \(\beta_1\)).
Écrivez l’équation de la droite de régression.
Interprétez les coefficients \(\beta_0\) et \(\beta_1\).
Calculez le coefficient de détermination (\(R^2\)) et interprétez-le.
Prédisez la note d’examen si un étudiant étudie pendant 9 heures.
Discutez des limites de la régression linéaire dans ce contexte.
---title: "Régression Linéaire Simple"---## IntroductionLa régression linéaire simple vise à trouver la meilleure droite qui approxime la relation entre deux variables quantitatives, $Y$ et $X$. Nous cherchons à modéliser cette relation par une équation de la forme $$y_i \approx \beta_0 + \beta_1 x_i,$$où $\approx$ signifie "approximativement égal au sens des moindres carrés".## Le Modèle d'Approximation LinéaireNous supposons que la relation entre $Y$ et $X$ peut être approximée par une droite :$$y_i \approx \beta_0 + \beta_1 x_i$$où :* $y_i$ est la valeur observée de la variable dépendante $Y$ pour l'observation $i$.* $x_i$ est la valeur observée de la variable indépendante $X$ pour l'observation $i$.* $\beta_0$ est l'ordonnée à l'origine (l'interception).* $\beta_1$ est la pente (le coefficient directeur ou pente).## La Méthode des Moindres Carrés : Minimisation des ÉcartsL'objectif est de trouver les valeurs de $\beta_0$ et $\beta_1$ qui minimisent la somme des carrés des écarts entre les valeurs observées $y_i$ et les valeurs prédites $$\hat{y}_i = \beta_0 + \beta_1 x_i.$$L'écart (ou résidu) pour l'observation $i$ est :$$e_i = y_i - \hat{y}_i = y_i - (\beta_0 + \beta_1 x_i)$$La somme des carrés des écarts (SSE) est :$$SSE = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2$$Pour trouver les valeurs de $\beta_0$ et $\beta_1$ qui minimisent $SSE$, nous dérivons $SSE$ par rapport à $\beta_0$ et $\beta_1$ et égalisons les dérivées à zéro. Cela nous donne les formules suivantes :$$\beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}$$$$\beta_0 = \bar{y} - \beta_1 \bar{x}$$où $\bar{x}$ et $\bar{y}$ sont les moyennes de $X$ et $Y$, respectivement.## Détail des Calculs1. **Calcul des moyennes **: $$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i, \quad \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i $$2. **Calcul des écarts **: $$ (x_i - \bar{x}), \quad (y_i - \bar{y}) $$3. **Calcul des produits et des carrés **: $$ (x_i - \bar{x})(y_i - \bar{y}), \quad (x_i - \bar{x})^2 $$4. **Calcul des sommes **: $$ \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}), \quad \sum_{i=1}^{n} (x_i - \bar{x})^2 $$5. **Calcul des coefficients **: $$ \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}, \quad \beta_0 = \bar{y} - \beta_1 \bar{x} $$## Sommes des Carrés et Coefficient de Détermination ($R^2$)* **Somme des carrés totale (SST) **: $$ SST = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$* **Somme des carrés des résidus (SSR) **: $$ SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$* **Somme des carrés expliquée (SSE) **: $$ SSE = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $$* **Coefficient de détermination ($R^2$) **: $$ R^2 = \dfrac{SSE}{SST} = 1 - \dfrac{SSR}{SST} $$$R^2$ représente la proportion de la variance de $Y$ expliquée par le modèle de régression.:::{#exm-}```{r}# Exemple avec les données heures d'étude et notes d'examenheures_etude <-c(2, 3, 4, 5, 6, 7, 8, 3, 5, 9)notes_examen <-c(60, 68, 75, 82, 88, 92, 95, 72, 80, 98)# Régression linéaire simplemodele_reg <-lm(notes_examen ~ heures_etude)# Affichage des résultats# summary(modele_reg)# Graphique avec la droite de régressionplot(heures_etude, notes_examen,main ="Approximation linéaire : Heures d'étude vs. Notes d'examen",xlab ="Heures d'étude",ylab ="Notes d'examen", col ="steelblue", pch=20, lwd=3)abline(modele_reg, col ="red", lwd=2)```:::## Exercices:::{#exr-}## Prédiction des Ventes en Fonction du Budget PublicitaireUne entreprise souhaite comprendre la relation entre son budget publicitaire (en milliers d'euros) et ses ventes (en milliers d'unités). Les données suivantes ont été collectées :| Budget Publicitaire (X) | Ventes (Y) || :-----------------------| :---------|| 10 | 80 || 15 | 120 || 20 | 150 || 25 | 180 || 30 | 220 || 35 | 260 || 40 | 300 |1. Créez un nuage de points pour visualiser la relation entre le budget publicitaire et les ventes.2. Calculez les coefficients de la régression linéaire simple ($\beta_0$ et $\beta_1$).3. Écrivez l'équation de la droite de régression.4. Interprétez les coefficients $\beta_0$ et $\beta_1$.5. Calculez le coefficient de détermination ($R^2$) et interprétez-le.6. Prédisez les ventes si le budget publicitaire est de 45 000 euros.7. Ajoutez la droite de régression au nuage de points.::::::{#esr-}## Relation entre Heures d'Étude et Notes d'ExamenUn professeur souhaite étudier la relation entre le nombre d'heures d'étude (X) et les notes obtenues à un examen (Y). Les données suivantes ont été recueillies :| Heures d'Étude (X) | Notes d'Examen (Y) || :------------------| :------------------|| 2 | 55 || 3 | 65 || 4 | 70 || 5 | 75 || 6 | 80 || 7 | 85 || 8 | 90 |1. Créez un nuage de points pour visualiser la relation entre les heures d'étude et les notes d'examen.2. Calculez les coefficients de la régression linéaire simple ($\beta_0$ et $\beta_1$).3. Écrivez l'équation de la droite de régression.4. Interprétez les coefficients $\beta_0$ et $\beta_1$.5. Calculez le coefficient de détermination ($R^2$) et interprétez-le.6. Prédisez la note d'examen si un étudiant étudie pendant 9 heures.7. Discutez des limites de la régression linéaire dans ce contexte.:::