import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# Les outils statistiques
from scipy import stats
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.multicomp import pairwise_tukeyhsd
# Configuration des graphiques
sns.set_theme(style="whitegrid")
1 De la Théorie à la Pratique
Nous avons parcouru un long chemin, des principes fondamentaux des tests jusqu’aux modèles plus complexes comme l’ANOVA. Il est maintenant temps de mettre les mains dans le cambouis !
Cet atelier est conçu pour être un guide pratique. Nous allons prendre des jeux de données réels et célèbres, et appliquer la grille de lecture que nous avons développée :
- Quelle est ma question de recherche ?
- Quels sont les types de mes variables ?
- Quel est le test approprié ?
- Comment l’implémenter en Python et interpréter les résultats ?
Nous utiliserons les librairies pandas pour la manipulation de données, seaborn pour la visualisation, et scipy.stats et statsmodels pour les tests statistiques.
2 Préparation de l’Environnement
Commençons par importer tous les outils dont nous aurons besoin.
3 Cas 1 : t-test à un Échantillon
Contexte : Le jeu de données penguins de seaborn contient des mesures sur différentes espèces de manchots. Des études antérieures suggèrent que le poids moyen des manchots de l’espèce “Adelie” est d’environ 3700 grammes.
Question de recherche : Le poids moyen des manchots Adelie dans notre échantillon est-il significativement différent de la valeur de référence de 3700g ?
4 Cas 2 : t-test pour Échantillons Indépendants (avec Test de Levene)
Contexte : Le jeu de données iris est un classique. Il contient des mesures sur trois espèces d’iris.
Question de recherche : Y a-t-il une différence significative de longueur de pétale (petal_length) entre les espèces setosa et versicolor ?
5 Cas 3 : t-test pour Échantillons Appariés
Contexte : Pour illustrer ce cas, nous allons créer un petit jeu de données réaliste. Imaginons une étude mesurant le niveau de stress (sur une échelle de 10) de 15 employés avant et après un séminaire de relaxation.
Question de recherche : Le séminaire a-t-il eu un effet significatif sur le niveau de stress des employés ?
6 Cas 4 : ANOVA à un Facteur (avec Test Post-Hoc)
Contexte : Le jeu de données tips de seaborn enregistre des informations sur les pourboires laissés dans un restaurant.
Question de recherche : Le montant du pourboire (tip) diffère-t-il significativement selon le jour de la semaine (day) ?
7 Conclusion de l’Atelier
Vous avez appliqué avec succès les principaux tests statistiques sur des jeux de données réels. Vous avez vu comment la question de recherche et la nature des données dictent le choix du test, et comment la visualisation et la vérification des hypothèses sont des étapes cruciales d’une analyse rigoureuse.
Cette “grille de lecture” est votre meilleure alliée pour aborder vos propres projets d’analyse de données avec confiance et méthode.