Introduction à la Statistique Descriptive
La Statistique Descriptive est une branche de la Statistique qui vise à résumer et à décrire les caractéristiques essentielles d’un ensemble de données. Elle permet de mieux comprendre les données et de d’affiner les questions sur la population cible. Dans cette section, nous explorerons les concepts fondamentaux de la statistique descriptive.
1 Population - Individu - Échantillon
Lorsque nous effectuons une étude statistique, nous nous intéressons généralement à une certaine population.
Definition 1 (Population) Une population désigne un ensemble complet des individus, des objets ou des événements que nous souhaitons étudier.
Definition 2 (Individu) Le terme individu désigne toute unité d’une population cible.
Example 1 Si nous menons une étude sur la taille des élèves d’une école, la population serait l’ensemble de tous les élèves de cette école. Tout élève de l’école en question serait un individu.
Cependant, il est souvent difficile ou coûteux de collecter des données sur l’ensemble de la population. Dans de tels cas, nous utilisons un échantillon.
Definition 3 (Échantillon) En statistique, un échantillon est tout sous-ensemble d’individus sélectionnés (aléatoirement) de la population, sur lesquels les données sont recueillies.
L’analyse statistique est ensuite effectuée sur l’échantillon, et les résultats sont généralisés à la population.
Example 2 Nous pourrions sélectionner aléatoirement \(n=100\) élèves parmi tous les élèves de l’école pour constituer notre échantillon.
2 Variables - Caractères - Modalités
Lorsque nous étudions une population ou un échantillon, nous nous intéressons généralement à certaines variables encore appelées caractères. Par exemple, dans notre étude sur la taille des élèves d’une école, la taille est la variable ou le caractère d’intérêt.
Definition 4 (Variable ou Caractère) Une variable ou un Caractère est une application \(X\) définie de l’ensemble de la population \(\Omega\) dans un ensemble de valeurs \(\mathbb{V}\). On note \(x_i=X(i)\) la valeur prise par la variable \(X\) sur un individu \(i\).
Definition 5 (Modalité) On appelle modalité toute valeur possible d’une variable.
Les données statistiques sont les observations d’un certain nombre de variables d’intérêt sur un échantillon.
3 Les types de données
Les données peuvent être classées en quatre types principaux :
Données nominales (ou catégorielle, ou qualitative nominales) : Elles sont des catégories ou des étiquettes qui ne peuvent pas être ordonnés. Par exemple, le sexe d’une personne (homme/femme) est une donnée nominale.
Données ordinales (ou qualitatives ordinales) : Elles sont similaires aux données nominales, mais les modalités peuvent être ordonnées. Par exemple, l’évaluation d’un produit sur une échelle de 1 à 5 est une donnée ordinale.
Données quantitatives continues : Elles sont des variables numériques qui peuvent prendre une infinité de valeurs dans un intervalle donné. Par exemple, la taille d’une personne en centimètres est une donnée continue.
Données quantitatives discrètes : Elles sont également des variables numériques, mais elles ne peuvent prendre que des valeurs spécifiques ou dénombrables. Par exemple, le nombre de frères et sœurs d’une personne est une donnée discrète.
4 Mesures de tendance centrale
Les mesures de tendance centrale nous permettent de résumer la position centrale d’un ensemble de données. Les trois mesures de tendance centrale les plus couramment utilisées sont :
La moyenne : La moyenne est la somme de toutes les valeurs divisée par le nombre total de valeurs. Elle est sensible aux valeurs aberrantes et peut être influencée par des valeurs extrêmes.
La médiane : La médiane est la valeur du milieu lorsque les données sont triées par ordre croissant. Elle est moins sensible aux valeurs aberrantes que la moyenne et est souvent utilisée lorsque les données sont asymétriques.
Le mode : Le mode est la valeur qui apparaît le plus fréquemment dans un ensemble de données. Il peut y avoir plusieurs modes ou aucun mode du tout.
5 Mesures de dispersion
En plus des mesures de tendance centrale, nous utilisons également des mesures de dispersion pour évaluer la variation ou la dispersion des données. Les mesures de dispersion les plus couramment utilisées sont :
La variance : La variance mesure la dispersion des données par rapport à la moyenne. Une variance élevée indique une dispersion plus importante des données.
L’écart-type : L’écart-type est la racine carrée de la variance. Il est couramment utilisé car il a la même unité que les données originales.
L’étendue : L’étendue est la différence entre la valeur maximale et la valeur minimale dans un ensemble de données. Elle donne une indication de la plage totale des valeurs observées.
6 Conclusion
Ce premier chapitre a posé les bases de la statistique descriptive en introduisant les types de données et les mesures de tendance centrale et de dispersion. Dans les chapitres suivants, nous explorerons davantage ces concepts et nous plongerons dans des techniques plus avancées pour analyser et interpréter les données.
Prenez le temps de vous familiariser avec ces concepts avant de passer au chapitre suivant, où nous explorerons en détail la statistique descriptive univariée.
7 Exercices
Exercise 1 Voici une série de questions à choix multiples (QCM) pour consolider les notions abordées dans le premier chapitre de votre livre sur l’introduction à la statistique descriptive :
- Qu’est-ce qu’une donnée nominale ?
- Quelle mesure de tendance centrale est moins sensible aux valeurs aberrantes ?
- Quelle mesure de dispersion indique la différence entre la valeur maximale et la valeur minimale ?
- Qu’est-ce qu’une population dans le contexte statistique ?
- Que désigne le terme “caractère” en statistique ?
- Qu’est-ce qu’un échantillon dans le contexte statistique ?
- Quelle mesure de tendance centrale est utilisée pour représenter la valeur la plus fréquente dans un ensemble de données ?
- Quelle mesure de dispersion est utilisée pour quantifier la variabilité des données par rapport à la moyenne ?
- Quelle est la différence entre les données continues et les données discrètes ?
- Quel est le rôle de la statistique descriptive ?
- Quelle mesure de tendance centrale est affectée par les valeurs extrêmes ?
- Quelle mesure de dispersion fournit une estimation de la dispersion des données autour de la moyenne ?
- Qu’est-ce qu’une variable catégorielle ?
- Qu’est-ce qu’une variable numérique continue ?
- Qu’est-ce que l’échantillonnage aléatoire ?
- Qu’est-ce que la médiane d’un ensemble de données ?
- Qu’est-ce que l’écart-type ?
- Qu’est-ce que la variance ?
- Qu’est-ce que l’étendue d’un ensemble de données ?
- Qu’est-ce que le mode d’un ensemble de données ?