
1 Introduction
Ce questionnaire a pour but d’évaluer votre compréhension des concepts fondamentaux qui sous-tendent l’analyse de données et le Machine Learning. Pour chaque question, cochez la case correspondant à la réponse que vous estimez la plus correcte.
2 Questions
2.1 Partie 1 : Fondamentaux des Statistiques Inférentielles
Cette section porte sur les concepts clés qui nous permettent de tirer des conclusions sur une population à partir d’un échantillon.
Quelle est la principale différence entre les statistiques descriptives et les statistiques inférentielles ?
Dans un test d’hypothèse, qu’est-ce que la p-value représente ?
Quel est le message principal du Théorème Central Limite (TCL) ?
Vous réalisez un test statistique et obtenez une p-value de 0.03. Si votre seuil de significativité (alpha) est de 0.05, quelle est la conclusion correcte ?
Qu’est-ce qu’une “Erreur de Type I” dans un test d’hypothèse ?
En statistiques, qu’est-ce qui différencie un “paramètre” d’une “statistique” ?
Qu’est-ce que l’“Erreur Type” (Standard Error) d’une moyenne d’échantillon ?
Que représente un intervalle de confiance à 95% pour une moyenne ?
Le seuil de significativité (alpha), souvent fixé à 0.05, représente :
Un chercheur souhaite étudier les habitudes des étudiants de son université. Il interroge uniquement les étudiants présents à la bibliothèque un lundi matin. De quel type de biais d’échantillonnage s’agit-il principalement ?
2.2 Partie 2 : Fondamentaux du Machine Learning
Cette section évalue votre compréhension des concepts de base et des bonnes pratiques en Machine Learning.
Quelle est la différence fondamentale entre l’apprentissage supervisé et l’apprentissage non supervisé ?
À quoi sert principalement la division d’un jeu de données en un ensemble d’entraînement (train set) et un ensemble de test (test set) ?
En Machine Learning, que signifie le terme “surapprentissage” (overfitting) ?
Quel est le principal avantage d’utiliser un Pipeline Scikit-learn dans un projet de Machine Learning ?
En apprentissage supervisé, quelle est la différence entre un problème de régression et un problème de classification ?
Qu’est-ce qu’un “hyperparamètre” dans un modèle de Machine Learning ?
Quel est le but principal de la validation croisée (Cross-Validation) ?
Pourquoi la mise à l’échelle des données (Feature Scaling) est-elle cruciale pour des algorithmes comme k-NN ou les SVM ?
Quel est le rôle d’une fonction de perte (loss function) pendant l’entraînement d’un modèle ?
En quoi consiste le “Feature Engineering” ?