Une série qualitative est une série statistique dont les valeurs sont des catégories ou des modalités sans signification numérique. Les variables qualitatives peuvent être classées en deux types :
Variables qualitatives nominales : Les modalités n’ont pas d’ordre naturel.
Exemples : couleur des yeux, pays de résidence, genre.
Variables qualitatives ordinales : Les modalités peuvent être classées selon un ordre logique.
Soit une série qualitative prenant \(K\) modalités distinctes notées : \[ m_1, m_2, \dots, m_k, \dots, m_K. \]
Construction du tableau statistique
À partir des données brutes \(x_1, x_2, \dots, x_n\), on construit le tableau des effectifs et fréquences en suivant ces étapes :
Recenser toutes les modalités distinctes parmi les \(n\) observations.
Compter le nombre d’occurrences de chaque modalité \(m_k\) pour obtenir son effectif \(n_k\).
Calculer la fréquence de chaque modalité : \[ f_k = \dfrac{n_k}{n}, \quad \sum_{k=1}^{K} f_k = 1. \]
Modalité (\(m_k\))
Effectif (\(n_k\))
Fréquence (\(f_k\))
\(m_1\)
\(n_1\)
\(f_1 = \frac{n_1}{n}\)
\(m_2\)
\(n_2\)
\(f_2 = \frac{n_2}{n}\)
\(\vdots\)
\(\vdots\)
\(\vdots\)
\(m_K\)
\(n_K\)
\(f_K = \frac{n_K}{n}\)
Total
\(n\)
\(1\)
Example 1 Un sondage auprès de 30 personnes porte sur leur moyen de transport principal :
Moyen de transport
Effectif (\(n_k\))
Fréquence (\(f_k\))
Voiture
12
0.40
Vélo
8
0.27
Bus
6
0.20
Marche
4
0.13
Total
30
1.00
Mesure de tendance centrale : le mode
Le mode d’une série qualitative est la modalité ayant le plus grand effectif. Il permet d’identifier la catégorie dominante.
Example 2 Dans l’exemple précédent, la modalité ayant le plus grand effectif est “Voiture”, ce qui signifie que c’est le moyen de transport le plus utilisé.
Cas d’une variable qualitative ordinale
Lorsque la variable qualitative est ordinale, c’est-à-dire que ses modalités peuvent être classées dans un ordre logique, on peut analyser la distribution en tenant compte de cette hiérarchie.
Mesures spécifiques pour une variable ordinale
Médiane ordinale : Modalité centrale lorsque les modalités sont ordonnées.
Mode : Modalité ayant l’effectif le plus élevé.
Représentation graphique : L’ordre des modalités doit être respecté dans les diagrammes.
Example 3 Un sondage sur le niveau de satisfaction de 50 clients donne les résultats suivants :
Niveau de satisfaction
Effectif (\(n_k\))
Fréquence (\(f_k\))
Faible
10
0.20
Moyen
25
0.50
Élevé
15
0.30
Total
50
1.00
La médiane est Moyen, et le mode est également Moyen, car il a l’effectif le plus élevé.
Représentations graphiques
Diagramme en bâtons
Le diagramme en bâtons est utilisé pour représenter les fréquences des différentes modalités.
Code
library(ggplot2)data <-data.frame(Transport =c("Voiture", "Vélo", "Bus", "Marche"),Effectif =c(12, 8, 6, 4))ggplot(data, aes(x = Transport, y = Effectif)) +geom_bar(stat ="identity", fill ="steelblue") +labs(title ="Répartition des moyens de transport",x ="Moyen de transport",y ="Effectif") +theme_minimal()
Diagramme circulaire (camembert)
Un diagramme circulaire permet de visualiser la répartition des catégories sous forme de portions d’un disque.
Calcul des angles
L’angle associé à chaque modalité \(m_k\) est donné par la formule : \[
\theta_k = f_k \times 360^\circ=\dfrac{n_k}{n}\times 360^\circ.
\]
Example 4 Pour la modalité “Voiture” avec une fréquence de 0.40, l’angle est : \[
\theta_{\text{Voiture}} = 0.40 \times 360 = 144^\circ.
\]
Code
library(ggplot2)data$Frequence <- data$Effectif /sum(data$Effectif)ggplot(data, aes(x ="", y = Frequence, fill = Transport)) +geom_bar(width =1, stat ="identity") +coord_polar("y") +labs(title ="Répartition des moyens de transport (Camembert)") +theme_minimal()
Quel graphique choisir ?
Comparaison des effectifs entre catégories : Diagramme en bâtons.
Proportions globales des catégories : Diagramme circulaire.
Exercices
Exercise 1
Un sondage est réalisé sur 50 personnes pour connaître leur marque de téléphone préférée. Les résultats sont les suivants :
Apple : 20 personnes
Samsung : 15 personnes
Huawei : 10 personnes
Autres : 5 personnes
Construire le tableau statistique de cette série.
Quel est le mode de cette distribution ?
Représenter ces données sous forme d’un diagramme en bâtons et d’un diagramme circulaire.
Exercise 2 Un sondage est réalisé sur \(n=100\) personnes pour évaluer la qualité d’un service client avec les réponses : “Très insatisfait”, “Insatisfait”, “Neutre”, “Satisfait”, “Très satisfait”.
Construire le tableau statistique de cette série.
Déterminer le mode et la médiane.
Représenter ces données sous forme d’un diagramme en bâtons.
Exercise 3 (Groupes sanguins) Le tableau ci-dessous présente la répartition des groupes sanguins dans un échantillon de 40 personnes :
Groupe sanguin
Effectif
A
20
B
10
AB
\(n_3\)
O
5
Déterminer la valeur de \(n_3\).
Calculer les fréquences relatives de chaque groupe sanguin.
Représenter graphiquement la répartition des groupes sanguins à l’aide d’un diagramme en barres ou d’un diagramme circulaire.
Exercise 4 (Couleurs de voiture) Une enquête a été réalisée auprès de 100 propriétaires de voiture pour connaître la couleur de leur véhicule. Les résultats sont les suivants :
Couleur
Effectif
Noir
30
Blanc
25
Gris
20
Rouge
15
Autres
10
Calculer les fréquences relatives de chaque couleur.
Représenter graphiquement la répartition des couleurs à l’aide d’un diagramme en barres ou d’un diagramme circulaire.
Calculer le pourcentage de voitures qui ne sont ni noires ni blanches.
---title: Description d'une Série Qualitative---## Définition et types de variables qualitativesUne **série qualitative** est une série statistique dont les valeurs sont des **catégories** ou des **modalités** sans signification numérique. Les variables qualitatives peuvent être classées en deux types :- **Variables qualitatives nominales** : Les modalités **n'ont pas d'ordre naturel**. - Exemples : couleur des yeux, pays de résidence, genre.- **Variables qualitatives ordinales** : Les modalités peuvent être **classées selon un ordre logique**. - Exemples : niveau d’étude (primaire, secondaire, universitaire), satisfaction (faible, moyen, élevé).Soit une série qualitative prenant **$K$ modalités distinctes** notées :$$ m_1, m_2, \dots, m_k, \dots, m_K. $$## Construction du tableau statistiqueÀ partir des données brutes **$x_1, x_2, \dots, x_n$**, on construit le **tableau des effectifs et fréquences** en suivant ces étapes :1. **Recenser toutes les modalités distinctes** parmi les $n$ observations.2. **Compter le nombre d’occurrences** de chaque modalité $m_k$ pour obtenir son **effectif $n_k$**.3. **Calculer la fréquence** de chaque modalité : $$ f_k = \dfrac{n_k}{n}, \quad \sum_{k=1}^{K} f_k = 1. $$| Modalité ($m_k$) | Effectif ($n_k$) | Fréquence ($f_k$) ||-----------------|----------------|----------------|| $m_1$ | $n_1$ | $f_1 = \frac{n_1}{n}$ || $m_2$ | $n_2$ | $f_2 = \frac{n_2}{n}$ || $\vdots$ | $\vdots$ | $\vdots$ || $m_K$ | $n_K$ | $f_K = \frac{n_K}{n}$ || **Total** | **$n$** | **$1$** |::: {#exm-}Un sondage auprès de **30 personnes** porte sur leur moyen de transport principal :| Moyen de transport | Effectif ($n_k$) | Fréquence ($f_k$) ||-------------------|---------------|----------------|| Voiture | 12 | 0.40 || Vélo | 8 | 0.27 || Bus | 6 | 0.20 || Marche | 4 | 0.13 || **Total** | **30** | **1.00** |:::## Mesure de tendance centrale : le modeLe **mode** d’une série qualitative est **la modalité ayant le plus grand effectif**. Il permet d’identifier **la catégorie dominante**.::: {#exm-}Dans l’exemple précédent, la modalité ayant le plus grand effectif est **"Voiture"**, ce qui signifie que c'est le **moyen de transport le plus utilisé**.:::## Cas d’une variable qualitative ordinaleLorsque la variable qualitative est **ordinale**, c'est-à-dire que ses modalités peuvent être classées dans un ordre logique, on peut analyser la distribution en tenant compte de cette hiérarchie.### Mesures spécifiques pour une variable ordinale- **Médiane ordinale** : Modalité centrale lorsque les modalités sont ordonnées.- **Mode** : Modalité ayant l’effectif le plus élevé.- **Représentation graphique** : L’ordre des modalités doit être respecté dans les diagrammes.::: {#exm-}Un sondage sur **le niveau de satisfaction** de 50 clients donne les résultats suivants :| Niveau de satisfaction | Effectif ($n_k$) | Fréquence ($f_k$) ||-----------------------|----------------|----------------|| Faible | 10 | 0.20 || Moyen | 25 | 0.50 || Élevé | 15 | 0.30 || **Total** | **50** | **1.00** |La médiane est **Moyen**, et le mode est également **Moyen**, car il a l’effectif le plus élevé.:::## Représentations graphiques### Diagramme en bâtonsLe **diagramme en bâtons** est utilisé pour représenter **les fréquences** des différentes modalités.```{r}library(ggplot2)data <-data.frame(Transport =c("Voiture", "Vélo", "Bus", "Marche"),Effectif =c(12, 8, 6, 4))ggplot(data, aes(x = Transport, y = Effectif)) +geom_bar(stat ="identity", fill ="steelblue") +labs(title ="Répartition des moyens de transport",x ="Moyen de transport",y ="Effectif") +theme_minimal()```### Diagramme circulaire (camembert)Un **diagramme circulaire** permet de **visualiser la répartition des catégories** sous forme de portions d’un disque.**Calcul des angles**L’angle associé à chaque modalité $m_k$ est donné par la formule :$$\theta_k = f_k \times 360^\circ=\dfrac{n_k}{n}\times 360^\circ.$$::: {#exm-}Pour la modalité "Voiture" avec une fréquence de **0.40**, l’angle est :$$\theta_{\text{Voiture}} = 0.40 \times 360 = 144^\circ.$$:::```{r}library(ggplot2)data$Frequence <- data$Effectif /sum(data$Effectif)ggplot(data, aes(x ="", y = Frequence, fill = Transport)) +geom_bar(width =1, stat ="identity") +coord_polar("y") +labs(title ="Répartition des moyens de transport (Camembert)") +theme_minimal()```::: {.callout-}### Quel graphique choisir ?- **Comparaison des effectifs entre catégories** : Diagramme en bâtons.- **Proportions globales des catégories** : Diagramme circulaire.:::## Exercices::: {#exr-}1. Un sondage est réalisé sur **50 personnes** pour connaître leur marque de téléphone préférée. Les résultats sont les suivants : - Apple : 20 personnes - Samsung : 15 personnes - Huawei : 10 personnes - Autres : 5 personnes a) Construire le **tableau statistique** de cette série. b) Quel est le **mode** de cette distribution ? c) Représenter ces données sous forme **d’un diagramme en bâtons** et **d’un diagramme circulaire**.:::::: {#exr-}Un sondage est réalisé sur **$n=100$ personnes** pour évaluer la qualité d’un service client avec les réponses : "Très insatisfait", "Insatisfait", "Neutre", "Satisfait", "Très satisfait". a) Construire le **tableau statistique** de cette série. b) Déterminer le **mode et la médiane**. c) Représenter ces données sous forme **d’un diagramme en bâtons**.::::::{#exr-}## Groupes sanguinsLe tableau ci-dessous présente la répartition des groupes sanguins dans un échantillon de 40 personnes :| Groupe sanguin | Effectif ||---|---|| A | 20 || B | 10 || AB | $n_3$ || O | 5 |1. Déterminer la valeur de $n_3$.2. Calculer les fréquences relatives de chaque groupe sanguin.3. Représenter graphiquement la répartition des groupes sanguins à l'aide d'un diagramme en barres ou d'un diagramme circulaire.::::::{#exr-}## Couleurs de voitureUne enquête a été réalisée auprès de 100 propriétaires de voiture pour connaître la couleur de leur véhicule. Les résultats sont les suivants :| Couleur | Effectif ||---|---|| Noir | 30 || Blanc | 25 || Gris | 20 || Rouge | 15 || Autres | 10 |1. Calculer les fréquences relatives de chaque couleur.2. Représenter graphiquement la répartition des couleurs à l'aide d'un diagramme en barres ou d'un diagramme circulaire.3. Calculer le pourcentage de voitures qui ne sont ni noires ni blanches.:::