Description d’une Série Qualitative

Définition et types de variables qualitatives

Une série qualitative est une série statistique dont les valeurs sont des catégories ou des modalités sans signification numérique. Les variables qualitatives peuvent être classées en deux types :

  • Variables qualitatives nominales : Les modalités n’ont pas d’ordre naturel.
    • Exemples : couleur des yeux, pays de résidence, genre.
  • Variables qualitatives ordinales : Les modalités peuvent être classées selon un ordre logique.
    • Exemples : niveau d’étude (primaire, secondaire, universitaire), satisfaction (faible, moyen, élevé).

Soit une série qualitative prenant \(K\) modalités distinctes notées : \[ m_1, m_2, \dots, m_k, \dots, m_K. \]

Construction du tableau statistique

À partir des données brutes \(x_1, x_2, \dots, x_n\), on construit le tableau des effectifs et fréquences en suivant ces étapes :

  1. Recenser toutes les modalités distinctes parmi les \(n\) observations.
  2. Compter le nombre d’occurrences de chaque modalité \(m_k\) pour obtenir son effectif \(n_k\).
  3. Calculer la fréquence de chaque modalité : \[ f_k = \dfrac{n_k}{n}, \quad \sum_{k=1}^{K} f_k = 1. \]
Modalité (\(m_k\)) Effectif (\(n_k\)) Fréquence (\(f_k\))
\(m_1\) \(n_1\) \(f_1 = \frac{n_1}{n}\)
\(m_2\) \(n_2\) \(f_2 = \frac{n_2}{n}\)
\(\vdots\) \(\vdots\) \(\vdots\)
\(m_K\) \(n_K\) \(f_K = \frac{n_K}{n}\)
Total \(n\) \(1\)

Example 1 Un sondage auprès de 30 personnes porte sur leur moyen de transport principal :

Moyen de transport Effectif (\(n_k\)) Fréquence (\(f_k\))
Voiture 12 0.40
Vélo 8 0.27
Bus 6 0.20
Marche 4 0.13
Total 30 1.00

Mesure de tendance centrale : le mode

Le mode d’une série qualitative est la modalité ayant le plus grand effectif. Il permet d’identifier la catégorie dominante.

Example 2 Dans l’exemple précédent, la modalité ayant le plus grand effectif est “Voiture”, ce qui signifie que c’est le moyen de transport le plus utilisé.

Cas d’une variable qualitative ordinale

Lorsque la variable qualitative est ordinale, c’est-à-dire que ses modalités peuvent être classées dans un ordre logique, on peut analyser la distribution en tenant compte de cette hiérarchie.

Mesures spécifiques pour une variable ordinale

  • Médiane ordinale : Modalité centrale lorsque les modalités sont ordonnées.
  • Mode : Modalité ayant l’effectif le plus élevé.
  • Représentation graphique : L’ordre des modalités doit être respecté dans les diagrammes.

Example 3 Un sondage sur le niveau de satisfaction de 50 clients donne les résultats suivants :

Niveau de satisfaction Effectif (\(n_k\)) Fréquence (\(f_k\))
Faible 10 0.20
Moyen 25 0.50
Élevé 15 0.30
Total 50 1.00

La médiane est Moyen, et le mode est également Moyen, car il a l’effectif le plus élevé.

Représentations graphiques

Diagramme en bâtons

Le diagramme en bâtons est utilisé pour représenter les fréquences des différentes modalités.

Code
library(ggplot2)

data <- data.frame(
  Transport = c("Voiture", "Vélo", "Bus", "Marche"),
  Effectif = c(12, 8, 6, 4)
)

ggplot(data, aes(x = Transport, y = Effectif)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(title = "Répartition des moyens de transport",
       x = "Moyen de transport",
       y = "Effectif") +
  theme_minimal()

Diagramme circulaire (camembert)

Un diagramme circulaire permet de visualiser la répartition des catégories sous forme de portions d’un disque.

Calcul des angles

L’angle associé à chaque modalité \(m_k\) est donné par la formule : \[ \theta_k = f_k \times 360^\circ=\dfrac{n_k}{n}\times 360^\circ. \]

Example 4 Pour la modalité “Voiture” avec une fréquence de 0.40, l’angle est : \[ \theta_{\text{Voiture}} = 0.40 \times 360 = 144^\circ. \]

Code
library(ggplot2)

data$Frequence <- data$Effectif / sum(data$Effectif)

ggplot(data, aes(x = "", y = Frequence, fill = Transport)) +
  geom_bar(width = 1, stat = "identity") +
  coord_polar("y") +
  labs(title = "Répartition des moyens de transport (Camembert)") +
  theme_minimal()

Quel graphique choisir ?

  • Comparaison des effectifs entre catégories : Diagramme en bâtons.
  • Proportions globales des catégories : Diagramme circulaire.

Exercices

Exercise 1  

  1. Un sondage est réalisé sur 50 personnes pour connaître leur marque de téléphone préférée. Les résultats sont les suivants :
    • Apple : 20 personnes
    • Samsung : 15 personnes
    • Huawei : 10 personnes
    • Autres : 5 personnes
    1. Construire le tableau statistique de cette série.

    2. Quel est le mode de cette distribution ?

    3. Représenter ces données sous forme d’un diagramme en bâtons et d’un diagramme circulaire.

Exercise 2 Un sondage est réalisé sur \(n=100\) personnes pour évaluer la qualité d’un service client avec les réponses : “Très insatisfait”, “Insatisfait”, “Neutre”, “Satisfait”, “Très satisfait”.

  1. Construire le tableau statistique de cette série.

  2. Déterminer le mode et la médiane.

  3. Représenter ces données sous forme d’un diagramme en bâtons.

Exercise 3 (Groupes sanguins) Le tableau ci-dessous présente la répartition des groupes sanguins dans un échantillon de 40 personnes :

Groupe sanguin Effectif
A 20
B 10
AB \(n_3\)
O 5
  1. Déterminer la valeur de \(n_3\).
  2. Calculer les fréquences relatives de chaque groupe sanguin.
  3. Représenter graphiquement la répartition des groupes sanguins à l’aide d’un diagramme en barres ou d’un diagramme circulaire.

Exercise 4 (Couleurs de voiture) Une enquête a été réalisée auprès de 100 propriétaires de voiture pour connaître la couleur de leur véhicule. Les résultats sont les suivants :

Couleur Effectif
Noir 30
Blanc 25
Gris 20
Rouge 15
Autres 10
  1. Calculer les fréquences relatives de chaque couleur.
  2. Représenter graphiquement la répartition des couleurs à l’aide d’un diagramme en barres ou d’un diagramme circulaire.
  3. Calculer le pourcentage de voitures qui ne sont ni noires ni blanches.