La Classification par k-Plus Proches Voisins (k-NN) : Décider par Similarité

1 Introduction : Apprendre sans Modèle

Dans les posts précédents, le classifieur estimé repose sur l’estimation d’un paramètre: ces modèles sont dit paramétriques.

Dans ce post, nous allons explorer une approche complètement différente : la classification par k-plus proches voisins (k-NN). C’est un modèle non-paramétrique et basé sur les instances (instance-based). On l’appelle parfois un “apprenant paresseux” (lazy learner), car il ne construit pas de modèle explicite pendant la phase d’entraînement. En fait, la phase d’entraînement consiste simplement à mémoriser toutes les données !

La prédiction se fait au dernier moment, en se basant sur un principe d’une simplicité et d’une intuition redoutables : la similarité.

2 L’Intuition : Le Vote du Voisinage

L’algorithme k-NN est basé sur l’adage “Dis-moi qui sont tes amis, je te dirai qui tu es”.

Pour classifier une nouvelle observation x_new dont on ne connaît pas l’étiquette :

Le modèle mesure la distance entre x_new et toutes les autres observations du jeu de données d’entraînement.
Il identifie les k observations les plus proches (ses “k plus proches voisins”).
Il organise un vote à la majorité : la classe la plus représentée parmi ces k voisins est assignée comme prédiction pour x_new.

3 La Mécanique du k-NN

3.1 La Mesure de Distance

La “proximité” est le plus souvent calculée à l’aide de la distance euclidienne, que vous connaissez bien : \[ d(a, b) = \sqrt{\sum_{i=1}^{p} (a_i - b_i)^2} \] Où \(p\) est le nombre de variables explicatives.

3.2 Prérequis Crucial : La Mise à l’Échelle des Variables

Puisque le k-NN est entièrement basé sur les distances, il est extrêmement sensible à l’échelle de vos variables. Une variable avec une grande échelle (ex: un salaire en dizaines de milliers) pèsera beaucoup plus lourd dans le calcul de la distance qu’une variable avec une petite échelle (ex: un âge en dizaines), même si cette dernière est plus importante.

Règle d’Or

Avant d’utiliser le k-NN, vous devez impérativement mettre vos variables numériques à la même échelle, par exemple en utilisant la standardisation (StandardScaler).

3.3 Le Choix de `k` : Le Compromis Biais-Variance

Comme pour la régression k-NN, le choix de l’hyperparamètre k est fondamental et contrôle le compromis biais-variance.

Si k est petit (ex: k=1) : Le modèle est très sensible au bruit. La frontière de décision sera très complexe et s’adaptera aux particularités locales des données d’entraînement. C’est le cas d’une variance élevée et d’un biais faible (surapprentissage).
Si k est grand : Le modèle devient plus lisse et moins sensible aux variations locales. La frontière de décision sera beaucoup plus simple. C’est le cas d’un biais élevé et d’une variance faible (sous-apprentissage).

Notre objectif est donc de trouver le k optimal qui équilibre ce compromis, généralement via une recherche sur grille avec validation croisée.

4 Atelier Pratique : Classifier les Fleurs d’Iris

Utilisons le jeu de données classique iris pour classifier les fleurs en trois espèces (setosa, versicolor, virginica) en fonction de la longueur et de la largeur de leurs sépales et pétales.

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# 1. Charger les données
iris = load_iris()
X, y = iris.data, iris.target
feature_names = iris.feature_names
target_names = iris.target_names

# 2. Diviser les données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# 3. Créer un Pipeline pour le pré-traitement et le modèle
# C'est la meilleure pratique : le pipeline s'assure que la mise à l'échelle
# est ajustée sur le train set et appliquée au test set, évitant les fuites de données.
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('knn', KNeighborsClassifier())
])

# 4. Mettre en place la recherche sur grille pour trouver le meilleur k
print("--- Lancement de la recherche du meilleur k via GridSearchCV ---")
# Définir la grille des valeurs de k à tester
# On préfixe le nom du paramètre par le nom de l'étape dans le pipeline ('knn__')
param_grid = {'knn__n_neighbors': np.arange(1, 26)}

# Configurer GridSearchCV avec 5-fold cross-validation
# Le score par défaut pour la classification est l'accuracy
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')

# 5. Lancer la recherche sur les données d'entraînement
grid_search.fit(X_train, y_train)

# 6. Afficher les meilleurs résultats
print("\n--- Résultats de la Recherche ---")
print(f"Meilleur paramètre k trouvé : {grid_search.best_params_}")
print(f"Meilleur score d'accuracy en validation croisée : {grid_search.best_score_:.4f}")

# 7. Évaluer le modèle final sur le jeu de test
print("\n--- Évaluation du Modèle Final sur le Jeu de Test ---")
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

print("--- Matrice de Confusion ---")
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=target_names)
disp.plot(cmap=plt.cm.Blues)
plt.show()

print("\n--- Rapport de Classification ---")
print(classification_report(y_test, y_pred, target_names=target_names))

--- Lancement de la recherche du meilleur k via GridSearchCV ---

--- Résultats de la Recherche ---
Meilleur paramètre k trouvé : {'knn__n_neighbors': 14}
Meilleur score d'accuracy en validation croisée : 0.9714

--- Évaluation du Modèle Final sur le Jeu de Test ---
--- Matrice de Confusion ---


--- Rapport de Classification ---
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        15
  versicolor       0.88      1.00      0.94        15
   virginica       1.00      0.87      0.93        15

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45

5 Conclusion et Limites

La classification k-NN est un excellent outil de base, facile à comprendre et souvent étonnamment efficace, surtout pour des problèmes avec des frontières de décision complexes et non-linéaires.

Avantages :

Très simple à implémenter et à interpréter.
Aucune phase d’entraînement (apprentissage “paresseux”).
Naturellement non-paramétrique, il peut s’adapter à n’importe quelle forme de distribution.

Inconvénients :

Coût de prédiction élevé : Il doit calculer les distances avec toutes les données d’entraînement pour chaque nouvelle prédiction, ce qui est très lent sur de grands jeux de données.
Sensible aux variables non pertinentes : Si vous avez de nombreuses variables inutiles, elles vont “polluer” le calcul de distance et dégrader la performance.
“Malédiction de la dimensionnalité” : Dans un espace à très haute dimension, la notion de “proximité” perd son sens, et les performances du k-NN s’effondrent.

Et maintenant ?

Nous avons vu un modèle qui apprend une équation (Régression Logistique) et un modèle qui apprend par similarité (k-NN). Dans notre prochain article, nous allons explorer une troisième voie, peut-être la plus intuitive de toutes : la classification par arbre de décision, qui apprend en posant une série de questions.

1 Introduction : Apprendre sans Modèle

2 L’Intuition : Le Vote du Voisinage

3 La Mécanique du k-NN

3.1 La Mesure de Distance

3.2 Prérequis Crucial : La Mise à l’Échelle des Variables

3.3 Le Choix de k : Le Compromis Biais-Variance

4 Atelier Pratique : Classifier les Fleurs d’Iris

5 Conclusion et Limites

6 Exercices

3.3 Le Choix de `k` : Le Compromis Biais-Variance