Formalisation de l’Apprentissage Supervisé

1 Introduction

L’apprentissage supervisé est un paradigme central de l’apprentissage automatique. Son objectif est d’apprendre une fonction de prédiction à partir d’un ensemble de données d’entraînement, où chaque exemple est constitué d’une entrée et d’une sortie désirée. Cette section formalise les concepts clés de ce processus.

2 Données d’Apprentissage et Modélisation Probabiliste

2.1 Données d’Apprentissage

Nous disposons d’un ensemble de données d’apprentissage, noté \(\mathcal{D}_n\):

\[\mathcal{D}_n = \left\{(x_i, y_i)\right\}_{i=1}^n \tag{1}\]

où : * \(x_i \in \mathcal{X}\) représente le vecteur des variables prédictives (ou caractéristiques, features) pour la \(i\)-ème observation. \(\mathcal{X}\) est l’espace des entrées, souvent \(\mathcal{X} \subseteq \mathbb{R}^p\) où \(p\) est le nombre de caractéristiques. * \(y_i \in \mathcal{Y}\) est la variable cible (ou réponse, label) pour la \(i\)-ème observation. \(\mathcal{Y}\) est l’espace des sorties. * Si \(\mathcal{Y} \subseteq \mathbb{R}\), le problème est une régression. * Si \(\mathcal{Y}\) est un ensemble fini de catégories (par exemple, \(\mathcal{Y} = \{0, 1\}\) ou \(\mathcal{Y} = \{c_1, ..., c_K\}\)), le problème est une classification. * \(n\) est le nombre d’observations dans l’ensemble d’apprentissage.

2.2 Modélisation Probabiliste

Nous modélisons les données d’apprentissage comme une suite de \(n\) réalisations de couples de variables aléatoires \((X_i, Y_i)\). Ces couples sont supposés indépendants et identiquement distribués (i.i.d.) selon une loi de probabilité jointe inconnue, celle d’un couple générique \((X, Y)\).

Soit \(p_{X,Y}\) la loi jointe du couple \((X,Y)\). Nous notons \(p(x,y)\) la fonction de masse (si \((X,Y)\) est discret) ou la densité de probabilité (si \((X,Y)\) est continu) associée à cette loi. Cette distribution \(p(x,y)\) régit la manière dont les données sont générées. L’objectif de l’apprentissage supervisé est d’inférer des propriétés de cette distribution (ou des fonctions qui en dépendent) à partir de l’échantillon \(\mathcal{D}_n\).

3 Prédicteur et Objectif de l’Apprentissage

L’objectif de l’apprentissage supervisé est de construire une application, appelée prédicteur (ou modèle, hypothèse), notée \(g\):

\[g: \mathcal{X} \rightarrow \mathcal{Y} \tag{2}\]

Cette fonction \(g\) prend en entrée un nouveau vecteur de caractéristiques \(x \in \mathcal{X}\) et retourne une prédiction \(\hat{y} = g(x)\) de la vraie sortie \(y \in \mathcal{Y}\). Le but est que \(g(x)\) soit “proche” de la vraie valeur \(Y\) associée à \(X=x\).

4 Fonction de Perte et Risque

Pour quantifier la “proximité” entre la prédiction \(\hat{y} = g(x)\) et la vraie valeur \(y\), on introduit une fonction de perte (ou fonction de coût, loss function).

4.1 Fonction de Perte

Une fonction de perte \(L\) est une application :

\[L: \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}_+ \tag{3}\] qui vérifie les propriétés suivantes :

\(L(y, \hat{y}) \ge 0\) pour tout \(y, \hat{y} \in \mathcal{Y}\).
\(L(y, \hat{y}) = 0\) si et seulement si \(\hat{y} = y\).

\(L(y, \hat{y})\) mesure le coût ou l’erreur commise lorsque la vraie valeur est \(y\) et que la valeur prédite est \(\hat{y} = g(x)\). Une perte nulle signifie une prédiction parfaite.

Exemples de fonctions de perte :

En régression (\(\mathcal{Y} = \mathbb{R}\)):
- Perte quadratique (Squared Loss): \(L(y, \hat{y}) = (y - \hat{y})^2\). C’est la plus courante.
- Perte absolue (Absolute Loss): \(L(y, \hat{y}) = |y - \hat{y}|\). Moins sensible aux valeurs aberrantes que la perte quadratique.
- Perte de Huber: Un compromis entre la perte quadratique et la perte absolue.
En classification (\(\mathcal{Y} = \{c_1, ..., c_K\}\)):
- Perte 0-1 (Zero-One Loss): \[L(y, \hat{y}) = \begin{cases} 0 & \text{si } y = \hat{y} \\ 1 & \text{si } y \neq \hat{y} \end{cases}\] Elle pénalise toutes les erreurs de classification de manière égale.
- Perte logistique (Log Loss / Cross-Entropy): Utilisée pour les modèles qui prédisent des probabilités d’appartenance aux classes. Pour une classification binaire (\(y \in \{0,1\}\) et \(\hat{p} = P(Y=1|X=x)\)): \[L(y, \hat{p}) = -[y \log(\hat{p}) + (1-y) \log(1-\hat{p})]\]
- Perte Hinge (Hinge Loss): Souvent utilisée avec les Machines à Vecteurs de Support (SVM). Pour \(y \in \{-1,1\}\) et \(\hat{y}\) le score brut du classifieur: \[L(y, \hat{y}) = \max(0, 1 - y\hat{y})\]

4.2 Risque (Erreur de Généralisation)

La performance d’un prédicteur \(g\) est mesurée par son risque \(R(g)\), également appelé erreur de généralisation. C’est l’espérance de la fonction de perte sur la distribution jointe inconnue \(p(x,y)\):

\[R(g) = E_{X,Y}[L(Y, g(X))] = \int_{\mathcal{X} \times \mathcal{Y}} L(y, g(x)) p(x,y) \,dx\,dy \tag{4}\] (ou une somme si les variables sont discrètes).

Le risque \(R(g)\) représente la perte moyenne que l’on s’attend à subir si l’on utilise le prédicteur \(g\) sur de nouvelles données tirées de la même distribution \(p(x,y)\). L’objectif fondamental de l’apprentissage supervisé est de trouver un prédicteur \(g^*\) qui minimise ce risque :

\[g^* = \arg\min_{g \in \mathcal{G}} R(g) \tag{5}\]

où \(\mathcal{G}\) est l’espace des fonctions candidates pour \(g\) (par exemple, l’ensemble des fonctions linéaires, des arbres de décision, des réseaux de neurones d’une certaine architecture, etc.).

4.3 Risques Usuels et Prédicteurs Cibles

Régression : Risque Quadratique

Si l’on utilise la perte quadratique \(L(Y, g(X)) = (Y - g(X))^2\), le risque est le Risque Quadratique Moyen (Mean Squared Error - MSE) :

\[R_2(g) = E_{X,Y}[(Y - g(X))^2] \tag{6}\]

Le prédicteur \(g_2^*\) qui minimise ce risque est la fonction d’espérance conditionnelle :

\[g_2^*(x) = E[Y|X=x] \tag{7}\]

Preuve (esquisse) : \(R_2(g) = E_X[E_Y[(Y - g(X))^2 | X=x]]\) Pour minimiser \(E_Y[(Y - c)^2 | X=x]\) par rapport à \(c=g(x)\), on dérive par rapport à \(c\) et on égale à zéro: \(2 E_Y[(Y - c)(-1) | X=x] = 0 \implies E_Y[Y|X=x] - c = 0 \implies c = E[Y|X=x]\).

Classification : Risque 0-1

Si l’on utilise la perte 0-1, \(L(Y, g(X)) = \mathbb{I}(Y \neq g(X))\) (où \(\mathbb{I}(\cdot)\) est la fonction indicatrice), le risque est la probabilité d’erreur de classification :

\[R_{0-1}(g) = P(Y \neq g(X)) = E_{X,Y}[\mathbb{I}(Y \neq g(X))] \tag{8}\]

Considérons le cas binaire \(\mathcal{Y}=\{0,1\}\). Le prédicteur \(g_{0-1}^*\) qui minimise ce risque est le classifieur de Bayes :

\[g_{0-1}^*(x) = \begin{cases} 1 & \text{si } P(Y=1|X=x) \ge 0.5 \\ 0 & \text{sinon} \end{cases} \tag{9}\]

Plus généralement, pour \(K\) classes, le classifieur de Bayes assigne à \(x\) la classe \(k\) qui maximise la probabilité a posteriori \(P(Y=k|X=x)\):

\[g_{0-1}^*(x) = \arg\max_{k \in \mathcal{Y}} P(Y=k|X=x)\]

Le classifieur de Bayes est le meilleur classifieur possible en termes de probabilité d’erreur. Son risque, \(R(g_{0-1}^*)\), est appelé le risque de Bayes.

5 Risque Empirique

En pratique, la distribution \(p(x,y)\) est inconnue, donc le vrai risque \(R(g)\) Equation 15 ne peut pas être calculé directement. On l’approxime en utilisant l’ensemble de données d’apprentissage \(\mathcal{D}_n\).

Le risque empirique \(R_{emp}(g)\) (ou erreur d’entraînement) est la perte moyenne calculée sur l’ensemble d’apprentissage \(\mathcal{D}_n\):

\[R_{emp}(g) = \frac{1}{n} \sum_{i=1}^n L(y_i, g(x_i)) \tag{10}\]

De nombreux algorithmes d’apprentissage fonctionnent en minimisant ce risque empirique (Empirical Risk Minimization - ERM):

\[\hat{g} = \arg\min_{g \in \mathcal{G}} R_{emp}(g)\]

Cependant, \(R_{emp}(\hat{g})\) est souvent une mesure optimiste de la performance réelle \(R(\hat{g})\) sur de nouvelles données. Un modèle peut très bien performer sur les données d’entraînement (faible \(R_{emp}\)) mais mal généraliser à de nouvelles données (fort \(R(\hat{g})\)). Ce phénomène est appelé surapprentissage (overfitting).

6 Estimation du Risque par Validation Croisée

Pour obtenir une estimation plus fiable du risque \(R(g)\) (l’erreur de généralisation), on utilise des techniques qui évaluent le modèle sur des données qu’il n’a pas vues pendant l’entraînement. La validation croisée (cross-validation) est une famille de méthodes populaires pour cela.

6.1 Principe de la Validation Croisée

L’idée générale est de diviser l’ensemble de données \(\mathcal{D}_n\) en plusieurs sous-ensembles (ou “plis”, folds). On entraîne le modèle sur certains plis et on l’évalue sur le(s) pli(s) restant(s). Ce processus est répété plusieurs fois.

6.2 Validation Croisée à K Plis (K-Fold Cross-Validation)

C’est la variante la plus courante :

Diviser aléatoirement \(\mathcal{D}_n\) en \(K\) sous-ensembles (plis) de taille approximativement égale, \(\mathcal{D}_1, ..., \mathcal{D}_K\). Des valeurs typiques pour \(K\) sont 5 ou 10.
Pour chaque pli \(k = 1, ..., K\):
1. Entraîner le modèle \(g_k\) sur \(\mathcal{D}_n \setminus \mathcal{D}_k\) (toutes les données sauf le pli \(k\)).
2. Calculer la perte moyenne du modèle \(g_k\) sur le pli de validation \(\mathcal{D}_k\): \(L_k = \frac{1}{|\mathcal{D}_k|} \sum_{(x_j, y_j) \in \mathcal{D}_k} L(y_j, g_k(x_j))\).
L’estimation du risque par validation croisée est la moyenne des pertes \(L_k\):

\[R_{CV}(g) = \frac{1}{K} \sum_{k=1}^K L_k \tag{11}\]

Cette estimation \(R_{CV}(g)\) est généralement moins biaisée (plus proche du vrai risque \(R(g)\)) que le risque empirique \(R_{emp}(g)\).

6.3 Autres Variantes

Leave-One-Out Cross-Validation (LOOCV): Un cas particulier de K-fold où \(K=n\). Chaque observation est utilisée une fois comme ensemble de validation, et le modèle est entraîné sur les \(n-1\) autres. Computationnellement coûteux si \(n\) est grand.
Validation Croisée Stratifiée (Stratified Cross-Validation): Utilisée en classification lorsque les classes sont déséquilibrées. La stratification assure que chaque pli conserve approximativement la même proportion de chaque classe que l’ensemble de données original.
Hold-Out (Ensemble de Validation Simple): Diviser \(\mathcal{D}_n\) en un ensemble d’entraînement et un ensemble de validation (par exemple, 80%-20%). Entraîner sur le premier, évaluer sur le second. Simple mais peut être sensible à la manière dont la division est faite, surtout si \(n\) est petit.

La validation croisée est cruciale non seulement pour estimer la performance d’un modèle final, mais aussi pour la sélection de modèle (choisir entre différents types de modèles ou algorithmes) et l’optimisation des hyperparamètres (choisir les meilleures valeurs pour les paramètres qui ne sont pas appris directement à partir des données, comme le \(K\) dans K-NN, la profondeur d’un arbre, etc.).

7 Conclusion

La formalisation de l’apprentissage supervisé fournit un cadre rigoureux pour comprendre comment les modèles sont construits et évalués. Les concepts de fonction de perte, de risque théorique, de risque empirique et de techniques d’estimation du risque comme la validation croisée sont essentiels pour développer des prédicteurs robustes et performants.

8 Quiz

8.1 Question

9 Introduction

10 Données d’Apprentissage et Modélisation Probabiliste

10.1 Données d’Apprentissage

Nous disposons d’un ensemble de données d’apprentissage, noté \(\mathcal{D}_n\):

\[\mathcal{D}_n = \left\{(x_i, y_i)\right\}_{i=1}^n \tag{12}\]

10.2 Modélisation Probabiliste

11 Prédicteur et Objectif de l’Apprentissage

L’objectif de l’apprentissage supervisé est de construire une application, appelée prédicteur (ou modèle, hypothèse), notée \(g\):

\[g: \mathcal{X} \rightarrow \mathcal{Y} \tag{13}\]

12 Fonction de Perte et Risque

Pour quantifier la “proximité” entre la prédiction \(\hat{y} = g(x)\) et la vraie valeur \(y\), on introduit une fonction de perte (ou fonction de coût, loss function).

12.1 Fonction de Perte

Une fonction de perte \(L\) est une application :

\[L: \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}_+ \tag{14}\] qui vérifie les propriétés suivantes :

\(L(y, \hat{y}) \ge 0\) pour tout \(y, \hat{y} \in \mathcal{Y}\).
\(L(y, \hat{y}) = 0\) si et seulement si \(\hat{y} = y\).

\(L(y, \hat{y})\) mesure le coût ou l’erreur commise lorsque la vraie valeur est \(y\) et que la valeur prédite est \(\hat{y} = g(x)\). Une perte nulle signifie une prédiction parfaite.

Exemples de fonctions de perte :

En régression (\(\mathcal{Y} = \mathbb{R}\)):
- Perte quadratique (Squared Loss): \(L(y, \hat{y}) = (y - \hat{y})^2\). C’est la plus courante.
- Perte absolue (Absolute Loss): \(L(y, \hat{y}) = |y - \hat{y}|\). Moins sensible aux valeurs aberrantes que la perte quadratique.
- Perte de Huber: Un compromis entre la perte quadratique et la perte absolue.
En classification (\(\mathcal{Y} = \{c_1, ..., c_K\}\)):
- Perte 0-1 (Zero-One Loss): \[L(y, \hat{y}) = \begin{cases} 0 & \text{si } y = \hat{y} \\ 1 & \text{si } y \neq \hat{y} \end{cases}\] Elle pénalise toutes les erreurs de classification de manière égale.
- Perte logistique (Log Loss / Cross-Entropy): Utilisée pour les modèles qui prédisent des probabilités d’appartenance aux classes. Pour une classification binaire (\(y \in \{0,1\}\) et \(\hat{p} = P(Y=1|X=x)\)): \[L(y, \hat{p}) = -[y \log(\hat{p}) + (1-y) \log(1-\hat{p})]\]
- Perte Hinge (Hinge Loss): Souvent utilisée avec les Machines à Vecteurs de Support (SVM). Pour \(y \in \{-1,1\}\) et \(\hat{y}\) le score brut du classifieur: \[L(y, \hat{y}) = \max(0, 1 - y\hat{y})\]

12.2 Risque (Erreur de Généralisation)

\[R(g) = E_{X,Y}[L(Y, g(X))] = \int_{\mathcal{X} \times \mathcal{Y}} L(y, g(x)) p(x,y) \,dx\,dy \tag{15}\] (ou une somme si les variables sont discrètes).

\[g^* = \arg\min_{g \in \mathcal{G}} R(g) \tag{16}\]

12.3 Risques Usuels et Prédicteurs Cibles

Régression : Risque Quadratique

Si l’on utilise la perte quadratique \(L(Y, g(X)) = (Y - g(X))^2\), le risque est le Risque Quadratique Moyen (Mean Squared Error - MSE) :

\[R_2(g) = E_{X,Y}[(Y - g(X))^2] \tag{17}\]

Le prédicteur \(g_2^*\) qui minimise ce risque est la fonction d’espérance conditionnelle :

\[g_2^*(x) = E[Y|X=x] \tag{18}\]

Classification : Risque 0-1

Si l’on utilise la perte 0-1, \(L(Y, g(X)) = \mathbb{I}(Y \neq g(X))\) (où \(\mathbb{I}(\cdot)\) est la fonction indicatrice), le risque est la probabilité d’erreur de classification :

\[R_{0-1}(g) = P(Y \neq g(X)) = E_{X,Y}[\mathbb{I}(Y \neq g(X))] \tag{19}\]

Considérons le cas binaire \(\mathcal{Y}=\{0,1\}\). Le prédicteur \(g_{0-1}^*\) qui minimise ce risque est le classifieur de Bayes :

\[g_{0-1}^*(x) = \begin{cases} 1 & \text{si } P(Y=1|X=x) \ge 0.5 \\ 0 & \text{sinon} \end{cases} \tag{20}\]

Plus généralement, pour \(K\) classes, le classifieur de Bayes assigne à \(x\) la classe \(k\) qui maximise la probabilité a posteriori \(P(Y=k|X=x)\):

\[g_{0-1}^*(x) = \arg\max_{k \in \mathcal{Y}} P(Y=k|X=x)\]

Le classifieur de Bayes est le meilleur classifieur possible en termes de probabilité d’erreur. Son risque, \(R(g_{0-1}^*)\), est appelé le risque de Bayes.

13 Risque Empirique

Le risque empirique \(R_{emp}(g)\) (ou erreur d’entraînement) est la perte moyenne calculée sur l’ensemble d’apprentissage \(\mathcal{D}_n\):

\[R_{emp}(g) = \frac{1}{n} \sum_{i=1}^n L(y_i, g(x_i)) \tag{21}\]

De nombreux algorithmes d’apprentissage fonctionnent en minimisant ce risque empirique (Empirical Risk Minimization - ERM):

\[\hat{g} = \arg\min_{g \in \mathcal{G}} R_{emp}(g)\]

14 Estimation du Risque par Validation Croisée

14.1 Principe de la Validation Croisée

14.2 Validation Croisée à K Plis (K-Fold Cross-Validation)

C’est la variante la plus courante :

Diviser aléatoirement \(\mathcal{D}_n\) en \(K\) sous-ensembles (plis) de taille approximativement égale, \(\mathcal{D}_1, ..., \mathcal{D}_K\). Des valeurs typiques pour \(K\) sont 5 ou 10.
Pour chaque pli \(k = 1, ..., K\):
1. Entraîner le modèle \(g_k\) sur \(\mathcal{D}_n \setminus \mathcal{D}_k\) (toutes les données sauf le pli \(k\)).
2. Calculer la perte moyenne du modèle \(g_k\) sur le pli de validation \(\mathcal{D}_k\): \(L_k = \frac{1}{|\mathcal{D}_k|} \sum_{(x_j, y_j) \in \mathcal{D}_k} L(y_j, g_k(x_j))\).
L’estimation du risque par validation croisée est la moyenne des pertes \(L_k\):

\[R_{CV}(g) = \frac{1}{K} \sum_{k=1}^K L_k \tag{22}\]

Cette estimation \(R_{CV}(g)\) est généralement moins biaisée (plus proche du vrai risque \(R(g)\)) que le risque empirique \(R_{emp}(g)\).

14.3 Autres Variantes

Leave-One-Out Cross-Validation (LOOCV): Un cas particulier de K-fold où \(K=n\). Chaque observation est utilisée une fois comme ensemble de validation, et le modèle est entraîné sur les \(n-1\) autres. Computationnellement coûteux si \(n\) est grand.
Validation Croisée Stratifiée (Stratified Cross-Validation): Utilisée en classification lorsque les classes sont déséquilibrées. La stratification assure que chaque pli conserve approximativement la même proportion de chaque classe que l’ensemble de données original.
Hold-Out (Ensemble de Validation Simple): Diviser \(\mathcal{D}_n\) en un ensemble d’entraînement et un ensemble de validation (par exemple, 80%-20%). Entraîner sur le premier, évaluer sur le second. Simple mais peut être sensible à la manière dont la division est faite, surtout si \(n\) est petit.

15 Conclusion

Copyright

2025 W. Toussile

1 Introduction

2 Données d’Apprentissage et Modélisation Probabiliste

2.1 Données d’Apprentissage

2.2 Modélisation Probabiliste

3 Prédicteur et Objectif de l’Apprentissage

4 Fonction de Perte et Risque

4.1 Fonction de Perte

4.2 Risque (Erreur de Généralisation)

4.3 Risques Usuels et Prédicteurs Cibles

Régression : Risque Quadratique

Classification : Risque 0-1

5 Risque Empirique

6 Estimation du Risque par Validation Croisée

6.1 Principe de la Validation Croisée

6.2 Validation Croisée à K Plis (K-Fold Cross-Validation)

6.3 Autres Variantes

7 Conclusion

8 Quiz

8.1 Question

9 Introduction

10 Données d’Apprentissage et Modélisation Probabiliste

10.1 Données d’Apprentissage

10.2 Modélisation Probabiliste

11 Prédicteur et Objectif de l’Apprentissage

12 Fonction de Perte et Risque

12.1 Fonction de Perte

12.2 Risque (Erreur de Généralisation)

12.3 Risques Usuels et Prédicteurs Cibles

Régression : Risque Quadratique

Classification : Risque 0-1

13 Risque Empirique

14 Estimation du Risque par Validation Croisée

14.1 Principe de la Validation Croisée

14.2 Validation Croisée à K Plis (K-Fold Cross-Validation)

14.3 Autres Variantes

15 Conclusion

16 Quiz

16.1 Question 1

16.2 Question 2

16.3 Question 3

16.4 Question 4

16.5 Question 5

16.6 Question 6

16.7 Question 7

16.8 Question 8

16.9 Question 9

16.10 Question 10

Copyright