1 Introduction
L’apprentissage supervisé est un paradigme central de l’apprentissage automatique. Son objectif est d’apprendre une fonction de prédiction à partir d’un ensemble de données d’entraînement, où chaque exemple est constitué d’une entrée et d’une sortie désirée. Cette section formalise les concepts clés de ce processus.
2 Données d’Apprentissage et Modélisation Probabiliste
2.1 Données d’Apprentissage
Nous disposons d’un ensemble de données d’apprentissage, noté \(\mathcal{D}_n\):
\[\mathcal{D}_n = \left\{(x_i, y_i)\right\}_{i=1}^n \tag{1}\]
où : * \(x_i \in \mathcal{X}\) représente le vecteur des variables prédictives (ou caractéristiques, features) pour la \(i\)-ème observation. \(\mathcal{X}\) est l’espace des entrées, souvent \(\mathcal{X} \subseteq \mathbb{R}^p\) où \(p\) est le nombre de caractéristiques. * \(y_i \in \mathcal{Y}\) est la variable cible (ou réponse, label) pour la \(i\)-ème observation. \(\mathcal{Y}\) est l’espace des sorties. * Si \(\mathcal{Y} \subseteq \mathbb{R}\), le problème est une régression. * Si \(\mathcal{Y}\) est un ensemble fini de catégories (par exemple, \(\mathcal{Y} = \{0, 1\}\) ou \(\mathcal{Y} = \{c_1, ..., c_K\}\)), le problème est une classification. * \(n\) est le nombre d’observations dans l’ensemble d’apprentissage.
2.2 Modélisation Probabiliste
Nous modélisons les données d’apprentissage comme une suite de \(n\) réalisations de couples de variables aléatoires \((X_i, Y_i)\). Ces couples sont supposés indépendants et identiquement distribués (i.i.d.) selon une loi de probabilité jointe inconnue, celle d’un couple générique \((X, Y)\).
Soit \(p_{X,Y}\) la loi jointe du couple \((X,Y)\). Nous notons \(p(x,y)\) la fonction de masse (si \((X,Y)\) est discret) ou la densité de probabilité (si \((X,Y)\) est continu) associée à cette loi. Cette distribution \(p(x,y)\) régit la manière dont les données sont générées. L’objectif de l’apprentissage supervisé est d’inférer des propriétés de cette distribution (ou des fonctions qui en dépendent) à partir de l’échantillon \(\mathcal{D}_n\).
3 Prédicteur et Objectif de l’Apprentissage
L’objectif de l’apprentissage supervisé est de construire une application, appelée prédicteur (ou modèle, hypothèse), notée \(g\):
\[g: \mathcal{X} \rightarrow \mathcal{Y} \tag{2}\]
Cette fonction \(g\) prend en entrée un nouveau vecteur de caractéristiques \(x \in \mathcal{X}\) et retourne une prédiction \(\hat{y} = g(x)\) de la vraie sortie \(y \in \mathcal{Y}\). Le but est que \(g(x)\) soit “proche” de la vraie valeur \(Y\) associée à \(X=x\).
4 Fonction de Perte et Risque
Pour quantifier la “proximité” entre la prédiction \(\hat{y} = g(x)\) et la vraie valeur \(y\), on introduit une fonction de perte (ou fonction de coût, loss function).
4.1 Fonction de Perte
Une fonction de perte \(L\) est une application :
\[L: \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}_+ \tag{3}\] qui vérifie les propriétés suivantes :
- \(L(y, \hat{y}) \ge 0\) pour tout \(y, \hat{y} \in \mathcal{Y}\).
- \(L(y, \hat{y}) = 0\) si et seulement si \(\hat{y} = y\).
\(L(y, \hat{y})\) mesure le coût ou l’erreur commise lorsque la vraie valeur est \(y\) et que la valeur prédite est \(\hat{y} = g(x)\). Une perte nulle signifie une prédiction parfaite.
Exemples de fonctions de perte :
- En régression (\(\mathcal{Y} = \mathbb{R}\)):
- Perte quadratique (Squared Loss): \(L(y, \hat{y}) = (y - \hat{y})^2\). C’est la plus courante.
- Perte absolue (Absolute Loss): \(L(y, \hat{y}) = |y - \hat{y}|\). Moins sensible aux valeurs aberrantes que la perte quadratique.
- Perte de Huber: Un compromis entre la perte quadratique et la perte absolue.
- En classification (\(\mathcal{Y} = \{c_1, ..., c_K\}\)):
- Perte 0-1 (Zero-One Loss): \[L(y, \hat{y}) = \begin{cases} 0 & \text{si } y = \hat{y} \\ 1 & \text{si } y \neq \hat{y} \end{cases}\] Elle pénalise toutes les erreurs de classification de manière égale.
- Perte logistique (Log Loss / Cross-Entropy): Utilisée pour les modèles qui prédisent des probabilités d’appartenance aux classes. Pour une classification binaire (\(y \in \{0,1\}\) et \(\hat{p} = P(Y=1|X=x)\)): \[L(y, \hat{p}) = -[y \log(\hat{p}) + (1-y) \log(1-\hat{p})]\]
- Perte Hinge (Hinge Loss): Souvent utilisée avec les Machines à Vecteurs de Support (SVM). Pour \(y \in \{-1,1\}\) et \(\hat{y}\) le score brut du classifieur: \[L(y, \hat{y}) = \max(0, 1 - y\hat{y})\]
4.2 Risque (Erreur de Généralisation)
La performance d’un prédicteur \(g\) est mesurée par son risque \(R(g)\), également appelé erreur de généralisation. C’est l’espérance de la fonction de perte sur la distribution jointe inconnue \(p(x,y)\):
\[R(g) = E_{X,Y}[L(Y, g(X))] = \int_{\mathcal{X} \times \mathcal{Y}} L(y, g(x)) p(x,y) \,dx\,dy \tag{4}\] (ou une somme si les variables sont discrètes).
Le risque \(R(g)\) représente la perte moyenne que l’on s’attend à subir si l’on utilise le prédicteur \(g\) sur de nouvelles données tirées de la même distribution \(p(x,y)\). L’objectif fondamental de l’apprentissage supervisé est de trouver un prédicteur \(g^*\) qui minimise ce risque :
\[g^* = \arg\min_{g \in \mathcal{G}} R(g) \tag{5}\]
où \(\mathcal{G}\) est l’espace des fonctions candidates pour \(g\) (par exemple, l’ensemble des fonctions linéaires, des arbres de décision, des réseaux de neurones d’une certaine architecture, etc.).
4.3 Risques Usuels et Prédicteurs Cibles
Régression : Risque Quadratique
Si l’on utilise la perte quadratique \(L(Y, g(X)) = (Y - g(X))^2\), le risque est le Risque Quadratique Moyen (Mean Squared Error - MSE) :
\[R_2(g) = E_{X,Y}[(Y - g(X))^2] \tag{6}\]
Le prédicteur \(g_2^*\) qui minimise ce risque est la fonction d’espérance conditionnelle :
\[g_2^*(x) = E[Y|X=x] \tag{7}\]
Preuve (esquisse) : \(R_2(g) = E_X[E_Y[(Y - g(X))^2 | X=x]]\) Pour minimiser \(E_Y[(Y - c)^2 | X=x]\) par rapport à \(c=g(x)\), on dérive par rapport à \(c\) et on égale à zéro: \(2 E_Y[(Y - c)(-1) | X=x] = 0 \implies E_Y[Y|X=x] - c = 0 \implies c = E[Y|X=x]\).
Classification : Risque 0-1
Si l’on utilise la perte 0-1, \(L(Y, g(X)) = \mathbb{I}(Y \neq g(X))\) (où \(\mathbb{I}(\cdot)\) est la fonction indicatrice), le risque est la probabilité d’erreur de classification :
\[R_{0-1}(g) = P(Y \neq g(X)) = E_{X,Y}[\mathbb{I}(Y \neq g(X))] \tag{8}\]
Considérons le cas binaire \(\mathcal{Y}=\{0,1\}\). Le prédicteur \(g_{0-1}^*\) qui minimise ce risque est le classifieur de Bayes :
\[g_{0-1}^*(x) = \begin{cases} 1 & \text{si } P(Y=1|X=x) \ge 0.5 \\ 0 & \text{sinon} \end{cases} \tag{9}\]
Plus généralement, pour \(K\) classes, le classifieur de Bayes assigne à \(x\) la classe \(k\) qui maximise la probabilité a posteriori \(P(Y=k|X=x)\):
\[g_{0-1}^*(x) = \arg\max_{k \in \mathcal{Y}} P(Y=k|X=x)\]
Le classifieur de Bayes est le meilleur classifieur possible en termes de probabilité d’erreur. Son risque, \(R(g_{0-1}^*)\), est appelé le risque de Bayes.
5 Risque Empirique
En pratique, la distribution \(p(x,y)\) est inconnue, donc le vrai risque \(R(g)\) Equation 15 ne peut pas être calculé directement. On l’approxime en utilisant l’ensemble de données d’apprentissage \(\mathcal{D}_n\).
Le risque empirique \(R_{emp}(g)\) (ou erreur d’entraînement) est la perte moyenne calculée sur l’ensemble d’apprentissage \(\mathcal{D}_n\):
\[R_{emp}(g) = \frac{1}{n} \sum_{i=1}^n L(y_i, g(x_i)) \tag{10}\]
De nombreux algorithmes d’apprentissage fonctionnent en minimisant ce risque empirique (Empirical Risk Minimization - ERM):
\[\hat{g} = \arg\min_{g \in \mathcal{G}} R_{emp}(g)\]
Cependant, \(R_{emp}(\hat{g})\) est souvent une mesure optimiste de la performance réelle \(R(\hat{g})\) sur de nouvelles données. Un modèle peut très bien performer sur les données d’entraînement (faible \(R_{emp}\)) mais mal généraliser à de nouvelles données (fort \(R(\hat{g})\)). Ce phénomène est appelé surapprentissage (overfitting).
6 Estimation du Risque par Validation Croisée
Pour obtenir une estimation plus fiable du risque \(R(g)\) (l’erreur de généralisation), on utilise des techniques qui évaluent le modèle sur des données qu’il n’a pas vues pendant l’entraînement. La validation croisée (cross-validation) est une famille de méthodes populaires pour cela.
6.1 Principe de la Validation Croisée
L’idée générale est de diviser l’ensemble de données \(\mathcal{D}_n\) en plusieurs sous-ensembles (ou “plis”, folds). On entraîne le modèle sur certains plis et on l’évalue sur le(s) pli(s) restant(s). Ce processus est répété plusieurs fois.
6.2 Validation Croisée à K Plis (K-Fold Cross-Validation)
C’est la variante la plus courante :
- Diviser aléatoirement \(\mathcal{D}_n\) en \(K\) sous-ensembles (plis) de taille approximativement égale, \(\mathcal{D}_1, ..., \mathcal{D}_K\). Des valeurs typiques pour \(K\) sont 5 ou 10.
- Pour chaque pli \(k = 1, ..., K\):
- Entraîner le modèle \(g_k\) sur \(\mathcal{D}_n \setminus \mathcal{D}_k\) (toutes les données sauf le pli \(k\)).
- Calculer la perte moyenne du modèle \(g_k\) sur le pli de validation \(\mathcal{D}_k\): \(L_k = \frac{1}{|\mathcal{D}_k|} \sum_{(x_j, y_j) \in \mathcal{D}_k} L(y_j, g_k(x_j))\).
- L’estimation du risque par validation croisée est la moyenne des pertes \(L_k\):
\[R_{CV}(g) = \frac{1}{K} \sum_{k=1}^K L_k \tag{11}\]
Cette estimation \(R_{CV}(g)\) est généralement moins biaisée (plus proche du vrai risque \(R(g)\)) que le risque empirique \(R_{emp}(g)\).
6.3 Autres Variantes
- Leave-One-Out Cross-Validation (LOOCV): Un cas particulier de K-fold où \(K=n\). Chaque observation est utilisée une fois comme ensemble de validation, et le modèle est entraîné sur les \(n-1\) autres. Computationnellement coûteux si \(n\) est grand.
- Validation Croisée Stratifiée (Stratified Cross-Validation): Utilisée en classification lorsque les classes sont déséquilibrées. La stratification assure que chaque pli conserve approximativement la même proportion de chaque classe que l’ensemble de données original.
- Hold-Out (Ensemble de Validation Simple): Diviser \(\mathcal{D}_n\) en un ensemble d’entraînement et un ensemble de validation (par exemple, 80%-20%). Entraîner sur le premier, évaluer sur le second. Simple mais peut être sensible à la manière dont la division est faite, surtout si \(n\) est petit.
La validation croisée est cruciale non seulement pour estimer la performance d’un modèle final, mais aussi pour la sélection de modèle (choisir entre différents types de modèles ou algorithmes) et l’optimisation des hyperparamètres (choisir les meilleures valeurs pour les paramètres qui ne sont pas appris directement à partir des données, comme le \(K\) dans K-NN, la profondeur d’un arbre, etc.).
7 Conclusion
La formalisation de l’apprentissage supervisé fournit un cadre rigoureux pour comprendre comment les modèles sont construits et évalués. Les concepts de fonction de perte, de risque théorique, de risque empirique et de techniques d’estimation du risque comme la validation croisée sont essentiels pour développer des prédicteurs robustes et performants.
8 Quiz
8.1 Question
9 Introduction
L’apprentissage supervisé est un paradigme central de l’apprentissage automatique. Son objectif est d’apprendre une fonction de prédiction à partir d’un ensemble de données d’entraînement, où chaque exemple est constitué d’une entrée et d’une sortie désirée. Cette section formalise les concepts clés de ce processus.
10 Données d’Apprentissage et Modélisation Probabiliste
10.1 Données d’Apprentissage
Nous disposons d’un ensemble de données d’apprentissage, noté \(\mathcal{D}_n\):
\[\mathcal{D}_n = \left\{(x_i, y_i)\right\}_{i=1}^n \tag{12}\]
où : * \(x_i \in \mathcal{X}\) représente le vecteur des variables prédictives (ou caractéristiques, features) pour la \(i\)-ème observation. \(\mathcal{X}\) est l’espace des entrées, souvent \(\mathcal{X} \subseteq \mathbb{R}^p\) où \(p\) est le nombre de caractéristiques. * \(y_i \in \mathcal{Y}\) est la variable cible (ou réponse, label) pour la \(i\)-ème observation. \(\mathcal{Y}\) est l’espace des sorties. * Si \(\mathcal{Y} \subseteq \mathbb{R}\), le problème est une régression. * Si \(\mathcal{Y}\) est un ensemble fini de catégories (par exemple, \(\mathcal{Y} = \{0, 1\}\) ou \(\mathcal{Y} = \{c_1, ..., c_K\}\)), le problème est une classification. * \(n\) est le nombre d’observations dans l’ensemble d’apprentissage.
10.2 Modélisation Probabiliste
Nous modélisons les données d’apprentissage comme une suite de \(n\) réalisations de couples de variables aléatoires \((X_i, Y_i)\). Ces couples sont supposés indépendants et identiquement distribués (i.i.d.) selon une loi de probabilité jointe inconnue, celle d’un couple générique \((X, Y)\).
Soit \(p_{X,Y}\) la loi jointe du couple \((X,Y)\). Nous notons \(p(x,y)\) la fonction de masse (si \((X,Y)\) est discret) ou la densité de probabilité (si \((X,Y)\) est continu) associée à cette loi. Cette distribution \(p(x,y)\) régit la manière dont les données sont générées. L’objectif de l’apprentissage supervisé est d’inférer des propriétés de cette distribution (ou des fonctions qui en dépendent) à partir de l’échantillon \(\mathcal{D}_n\).
11 Prédicteur et Objectif de l’Apprentissage
L’objectif de l’apprentissage supervisé est de construire une application, appelée prédicteur (ou modèle, hypothèse), notée \(g\):
\[g: \mathcal{X} \rightarrow \mathcal{Y} \tag{13}\]
Cette fonction \(g\) prend en entrée un nouveau vecteur de caractéristiques \(x \in \mathcal{X}\) et retourne une prédiction \(\hat{y} = g(x)\) de la vraie sortie \(y \in \mathcal{Y}\). Le but est que \(g(x)\) soit “proche” de la vraie valeur \(Y\) associée à \(X=x\).
12 Fonction de Perte et Risque
Pour quantifier la “proximité” entre la prédiction \(\hat{y} = g(x)\) et la vraie valeur \(y\), on introduit une fonction de perte (ou fonction de coût, loss function).
12.1 Fonction de Perte
Une fonction de perte \(L\) est une application :
\[L: \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}_+ \tag{14}\] qui vérifie les propriétés suivantes :
- \(L(y, \hat{y}) \ge 0\) pour tout \(y, \hat{y} \in \mathcal{Y}\).
- \(L(y, \hat{y}) = 0\) si et seulement si \(\hat{y} = y\).
\(L(y, \hat{y})\) mesure le coût ou l’erreur commise lorsque la vraie valeur est \(y\) et que la valeur prédite est \(\hat{y} = g(x)\). Une perte nulle signifie une prédiction parfaite.
Exemples de fonctions de perte :
- En régression (\(\mathcal{Y} = \mathbb{R}\)):
- Perte quadratique (Squared Loss): \(L(y, \hat{y}) = (y - \hat{y})^2\). C’est la plus courante.
- Perte absolue (Absolute Loss): \(L(y, \hat{y}) = |y - \hat{y}|\). Moins sensible aux valeurs aberrantes que la perte quadratique.
- Perte de Huber: Un compromis entre la perte quadratique et la perte absolue.
- En classification (\(\mathcal{Y} = \{c_1, ..., c_K\}\)):
- Perte 0-1 (Zero-One Loss): \[L(y, \hat{y}) = \begin{cases} 0 & \text{si } y = \hat{y} \\ 1 & \text{si } y \neq \hat{y} \end{cases}\] Elle pénalise toutes les erreurs de classification de manière égale.
- Perte logistique (Log Loss / Cross-Entropy): Utilisée pour les modèles qui prédisent des probabilités d’appartenance aux classes. Pour une classification binaire (\(y \in \{0,1\}\) et \(\hat{p} = P(Y=1|X=x)\)): \[L(y, \hat{p}) = -[y \log(\hat{p}) + (1-y) \log(1-\hat{p})]\]
- Perte Hinge (Hinge Loss): Souvent utilisée avec les Machines à Vecteurs de Support (SVM). Pour \(y \in \{-1,1\}\) et \(\hat{y}\) le score brut du classifieur: \[L(y, \hat{y}) = \max(0, 1 - y\hat{y})\]
12.2 Risque (Erreur de Généralisation)
La performance d’un prédicteur \(g\) est mesurée par son risque \(R(g)\), également appelé erreur de généralisation. C’est l’espérance de la fonction de perte sur la distribution jointe inconnue \(p(x,y)\):
\[R(g) = E_{X,Y}[L(Y, g(X))] = \int_{\mathcal{X} \times \mathcal{Y}} L(y, g(x)) p(x,y) \,dx\,dy \tag{15}\] (ou une somme si les variables sont discrètes).
Le risque \(R(g)\) représente la perte moyenne que l’on s’attend à subir si l’on utilise le prédicteur \(g\) sur de nouvelles données tirées de la même distribution \(p(x,y)\). L’objectif fondamental de l’apprentissage supervisé est de trouver un prédicteur \(g^*\) qui minimise ce risque :
\[g^* = \arg\min_{g \in \mathcal{G}} R(g) \tag{16}\]
où \(\mathcal{G}\) est l’espace des fonctions candidates pour \(g\) (par exemple, l’ensemble des fonctions linéaires, des arbres de décision, des réseaux de neurones d’une certaine architecture, etc.).
12.3 Risques Usuels et Prédicteurs Cibles
Régression : Risque Quadratique
Si l’on utilise la perte quadratique \(L(Y, g(X)) = (Y - g(X))^2\), le risque est le Risque Quadratique Moyen (Mean Squared Error - MSE) :
\[R_2(g) = E_{X,Y}[(Y - g(X))^2] \tag{17}\]
Le prédicteur \(g_2^*\) qui minimise ce risque est la fonction d’espérance conditionnelle :
\[g_2^*(x) = E[Y|X=x] \tag{18}\]
Preuve (esquisse) : \(R_2(g) = E_X[E_Y[(Y - g(X))^2 | X=x]]\) Pour minimiser \(E_Y[(Y - c)^2 | X=x]\) par rapport à \(c=g(x)\), on dérive par rapport à \(c\) et on égale à zéro: \(2 E_Y[(Y - c)(-1) | X=x] = 0 \implies E_Y[Y|X=x] - c = 0 \implies c = E[Y|X=x]\).
Classification : Risque 0-1
Si l’on utilise la perte 0-1, \(L(Y, g(X)) = \mathbb{I}(Y \neq g(X))\) (où \(\mathbb{I}(\cdot)\) est la fonction indicatrice), le risque est la probabilité d’erreur de classification :
\[R_{0-1}(g) = P(Y \neq g(X)) = E_{X,Y}[\mathbb{I}(Y \neq g(X))] \tag{19}\]
Considérons le cas binaire \(\mathcal{Y}=\{0,1\}\). Le prédicteur \(g_{0-1}^*\) qui minimise ce risque est le classifieur de Bayes :
\[g_{0-1}^*(x) = \begin{cases} 1 & \text{si } P(Y=1|X=x) \ge 0.5 \\ 0 & \text{sinon} \end{cases} \tag{20}\]
Plus généralement, pour \(K\) classes, le classifieur de Bayes assigne à \(x\) la classe \(k\) qui maximise la probabilité a posteriori \(P(Y=k|X=x)\):
\[g_{0-1}^*(x) = \arg\max_{k \in \mathcal{Y}} P(Y=k|X=x)\]
Le classifieur de Bayes est le meilleur classifieur possible en termes de probabilité d’erreur. Son risque, \(R(g_{0-1}^*)\), est appelé le risque de Bayes.
13 Risque Empirique
En pratique, la distribution \(p(x,y)\) est inconnue, donc le vrai risque \(R(g)\) Equation 15 ne peut pas être calculé directement. On l’approxime en utilisant l’ensemble de données d’apprentissage \(\mathcal{D}_n\).
Le risque empirique \(R_{emp}(g)\) (ou erreur d’entraînement) est la perte moyenne calculée sur l’ensemble d’apprentissage \(\mathcal{D}_n\):
\[R_{emp}(g) = \frac{1}{n} \sum_{i=1}^n L(y_i, g(x_i)) \tag{21}\]
De nombreux algorithmes d’apprentissage fonctionnent en minimisant ce risque empirique (Empirical Risk Minimization - ERM):
\[\hat{g} = \arg\min_{g \in \mathcal{G}} R_{emp}(g)\]
Cependant, \(R_{emp}(\hat{g})\) est souvent une mesure optimiste de la performance réelle \(R(\hat{g})\) sur de nouvelles données. Un modèle peut très bien performer sur les données d’entraînement (faible \(R_{emp}\)) mais mal généraliser à de nouvelles données (fort \(R(\hat{g})\)). Ce phénomène est appelé surapprentissage (overfitting).
14 Estimation du Risque par Validation Croisée
Pour obtenir une estimation plus fiable du risque \(R(g)\) (l’erreur de généralisation), on utilise des techniques qui évaluent le modèle sur des données qu’il n’a pas vues pendant l’entraînement. La validation croisée (cross-validation) est une famille de méthodes populaires pour cela.
14.1 Principe de la Validation Croisée
L’idée générale est de diviser l’ensemble de données \(\mathcal{D}_n\) en plusieurs sous-ensembles (ou “plis”, folds). On entraîne le modèle sur certains plis et on l’évalue sur le(s) pli(s) restant(s). Ce processus est répété plusieurs fois.
14.2 Validation Croisée à K Plis (K-Fold Cross-Validation)
C’est la variante la plus courante :
- Diviser aléatoirement \(\mathcal{D}_n\) en \(K\) sous-ensembles (plis) de taille approximativement égale, \(\mathcal{D}_1, ..., \mathcal{D}_K\). Des valeurs typiques pour \(K\) sont 5 ou 10.
- Pour chaque pli \(k = 1, ..., K\):
- Entraîner le modèle \(g_k\) sur \(\mathcal{D}_n \setminus \mathcal{D}_k\) (toutes les données sauf le pli \(k\)).
- Calculer la perte moyenne du modèle \(g_k\) sur le pli de validation \(\mathcal{D}_k\): \(L_k = \frac{1}{|\mathcal{D}_k|} \sum_{(x_j, y_j) \in \mathcal{D}_k} L(y_j, g_k(x_j))\).
- L’estimation du risque par validation croisée est la moyenne des pertes \(L_k\):
\[R_{CV}(g) = \frac{1}{K} \sum_{k=1}^K L_k \tag{22}\]
Cette estimation \(R_{CV}(g)\) est généralement moins biaisée (plus proche du vrai risque \(R(g)\)) que le risque empirique \(R_{emp}(g)\).
14.3 Autres Variantes
- Leave-One-Out Cross-Validation (LOOCV): Un cas particulier de K-fold où \(K=n\). Chaque observation est utilisée une fois comme ensemble de validation, et le modèle est entraîné sur les \(n-1\) autres. Computationnellement coûteux si \(n\) est grand.
- Validation Croisée Stratifiée (Stratified Cross-Validation): Utilisée en classification lorsque les classes sont déséquilibrées. La stratification assure que chaque pli conserve approximativement la même proportion de chaque classe que l’ensemble de données original.
- Hold-Out (Ensemble de Validation Simple): Diviser \(\mathcal{D}_n\) en un ensemble d’entraînement et un ensemble de validation (par exemple, 80%-20%). Entraîner sur le premier, évaluer sur le second. Simple mais peut être sensible à la manière dont la division est faite, surtout si \(n\) est petit.
La validation croisée est cruciale non seulement pour estimer la performance d’un modèle final, mais aussi pour la sélection de modèle (choisir entre différents types de modèles ou algorithmes) et l’optimisation des hyperparamètres (choisir les meilleures valeurs pour les paramètres qui ne sont pas appris directement à partir des données, comme le \(K\) dans K-NN, la profondeur d’un arbre, etc.).
15 Conclusion
La formalisation de l’apprentissage supervisé fournit un cadre rigoureux pour comprendre comment les modèles sont construits et évalués. Les concepts de fonction de perte, de risque théorique, de risque empirique et de techniques d’estimation du risque comme la validation croisée sont essentiels pour développer des prédicteurs robustes et performants.
16 Quiz
16.1 Question 1
Quel est l’objectif principal de l’apprentissage supervisé?
16.2 Question 2
Dans la notation \(\mathcal{D}_n = \left\{(x_i, y_i)\right\}_{i=1}^n\), que représente \(y_i\) ?
16.3 Question 3
Comment définit-on un problème de régression par rapport à l’espace des sorties \(\mathcal{Y}\) ?
16.4 Question 4
Quelle est une propriété essentielle d’une fonction de perte \(L(y, \hat{y})\) ?
16.5 Question 5
Qu’est-ce que le risque \(R(g)\) (ou erreur de généralisation) d’un prédicteur \(g\) ?
16.6 Question 6
Quel prédicteur \(g_2^*(x)\) minimise le Risque Quadratique Moyen (MSE) en régression ?
16.7 Question 7
En classification avec la perte 0-1, que fait le classifieur de Bayes \(g_{0-1}^*(x)\) ?
16.8 Question 8
Quel est le principal inconvénient potentiel de la minimisation du risque empirique (ERM) ?
16.9 Question 9
Quel est l’objectif principal de la validation croisée à K plis (K-Fold Cross-Validation) ?
16.10 Question 10
Laquelle de ces affirmations décrit le mieux la méthode de Hold-Out pour l’estimation du risque ?