Description d’une Série Quantitative

Soit une variable quantitative d’intérêt mesurée sur \(n\) individus. Les données observées sont notées :
\[ x_1, x_2, \dots, x_i, \dots, x_n, \quad x_i \in \mathbb{R}, \]
\(x_i\in\mathbb{R}\) est la donnée observée sur l’individu \(i\).

Paramètres de tendance centrale

Les paramètres de tendance centrale permettent de caractériser une série quantitative en fournissant une valeur représentative des données.

Les principales mesures de tendance centrale sont :

Moyenne arithmétique

La moyenne arithmétique est définie comme la somme des observations divisée par leur nombre : \[ \bar{x} = \dfrac{1}{n} \sum_{i=1}^{n} x_i. \] Elle représente le point d’équilibre des données et est très utilisée en analyse statistique.

Example 1 Un enseignant collecte les notes de 5 étudiants à un examen : \[ 12, 15, 14, 10, 18. \] La moyenne est calculée comme suit : \[ \bar{x} = \dfrac{1}{5}\left(12 + 15 + 14 + 10 + 18\right) = \dfrac{69}{5} = 13.8. \]

Moyenne pondérée

La moyenne pondérée est utilisée lorsque certaines observations ont plus d’importance que d’autres.
Elle est définie par : \[ \bar{x}_p = \sum_{i=1}^{n} w_i x_i \] où les \(w_i>0\) sont les poids associés aux observations, avec \(\sum_{i=1}^nw_i=1\).

Cette moyenne est particulièrement utile dans les cas suivants :

  • Calcul de notes (avec des coefficients différents pour chaque épreuve).
  • Indicateurs économiques (par exemple, le PIB ajusté par la population).

Example 2 Un étudiant passe trois épreuves avec des coefficients différents :

  • Mathématiques (coefficient 3) : 14
  • Physique (coefficient 2) : 16
  • Français (coefficient 1) : 12

La moyenne pondérée est : \[ \bar{x}_p = \dfrac{(3 \times 14) + (2 \times 16) + (1 \times 12)}{3 + 2 + 1} = \frac{42 + 32 + 12}{6} = 14.33. \]

Moyenne géométrique

La moyenne géométrique est utilisée lorsqu’on travaille avec des taux de croissance ou des ratios, et est définie par : \[ \bar{x}_g = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}. \] Remarque

\[ \ln \bar{x}_g=\dfrac{1}{n}\sum_{i=1}^n\ln x_i \]

Elle est particulièrement utile pour :

  • Calculer une croissance moyenne sur plusieurs années.
  • Agréger des ratios ou indices financiers.

Example 3 Un investissement a des taux de rendement annuels successifs de 5%, 10% et 15%.
Les valeurs relatives sont \(1.05, 1.10, 1.15\), donc la moyenne géométrique est : \[ \bar{x}_g = \left(1.05 \times 1.10 \times 1.15\right)^{\frac{1}{3}} \approx 1.096. \] Le rendement moyen est donc 9.6%.

Moyenne harmonique

La moyenne harmonique est utilisée pour calculer des moyennes de vitesses ou de ratios inverses, et est définie par : \[ \bar{x}_h = \dfrac{n}{\sum_{i=1}^{n} \dfrac{1}{x_i}}. \] Remarque

Il s’agit de l’inverse de la moyenne des inverses.

Elle est utile dans :

  • La moyenne des vitesses (ex. vitesse moyenne sur un trajet).
  • L’analyse économique (moyenne des prix unitaires).

Example 4 Un véhicule parcourt 100 km à 60 km/h puis 100 km à 100 km/h.
La vitesse moyenne n’est pas la moyenne arithmétique mais la moyenne harmonique : \[ \bar{x}_h = \dfrac{2}{\dfrac{1}{60} + \dfrac{1}{100}} = \dfrac{2}{\dfrac{10}{600}} = 75 \text{ km/h}. \]

Moyenne quadratique

La moyenne quadratique est définie par : \[ \bar{x}_q = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_i^2}. \] Elle est utilisée en traitement du signal et en statistique des erreurs.

Example 5 Les tensions électriques mesurées sont 3V, 4V et 5V.
La moyenne quadratique est : \[ \bar{x}_q = \sqrt{\frac{3^2 + 4^2 + 5^2}{3}} = \sqrt{\frac{9 + 16 + 25}{3}} = \sqrt{16.67} \approx 4.08. \]

Médiane

La médiane est la valeur qui partage la série en deux parties égales :

  • Si \(n\) est impair, la médiane est l’élément central.
  • Si \(n\) est pair, la médiane est la moyenne des deux valeurs centrales.

La médiane est moins sensible aux valeurs extrêmes que la moyenne.

Example 6 Soit la série triée \(8, 10, 12, 15, 18\).
- \(n=5\) (impair) → médiane = 12.

Si la série est \(8, 10, 12, 15, 18, 20\) (\(n=6\), pair), la médiane est : \[ \dfrac{12 + 15}{2} = 13.5. \]

Note
  • De façon plus formelle, la médiane est tout réel \(q_{\frac{1}{2}}\) tel que \[ \left\{ \begin{array}{lll} \dfrac{1}{n}\sum_{i=1}^n1_{[x_i\leq q_{\frac{1}{2}}]}&\geq&\dfrac{1}{2}\\ \dfrac{1}{n}\sum_{i=1}^n1_{[x_i\geq q_{\frac{1}{2}}]}&\geq&\dfrac{1}{2}\\ \end{array} \right. \]
  • Ainsi, une série statistique peut avoir plusieurs médiane. C’est en général le cas lorsque \(n\) est pair.

Mode

On appelle mode toute modalité d’effectif ou de fréquente maximale.

  • Une série peut être unimodale (un seul mode) ou multimodale (plusieurs modes).
  • Si toutes les valeurs sont uniques, il n’y a pas de mode.

Example 7 Dans la série \(12, 15, 14, 10, 15, 18, 15\), le mode est \(15\) car c’est la valeur la plus fréquente.

Remarque sur les mesures de tendance centrale

  • La moyenne est influencée par les valeurs extrêmes, contrairement à la médiane.
  • La médiane est plus robuste dans les distributions asymétriques.
  • Le mode est surtout utilisé pour des données discrètes ou lorsque l’on cherche une catégorie dominante.
Choisir la bonne mesure
  • Moyenne arithmétique : pour des données homogènes.
  • Médiane : en cas de valeurs extrêmes.
  • Moyennes géométrique, harmonique, quadratique : pour des cas spécifiques.
  • Mode : utile pour identifier les valeurs les plus courantes.

Paramètres de dispersion

Les paramètres de dispersion permettent de mesurer la variabilité des données autour d’une valeur centrale (comme la moyenne). Ils indiquent dans quelle mesure les valeurs sont dispersées et aident à interpréter la distribution d’une variable.

Les principaux indicateurs de dispersion sont :

Étendue

L’étendue est la différence entre la plus grande et la plus petite valeur d’un ensemble de données : \[ E = x_{\max} - x_{\min}. \] Elle donne une indication rapide sur l’amplitude des valeurs, mais elle est très sensible aux valeurs extrêmes.

Example 8 Soit la série \(5, 8, 12, 15, 20\).
L’étendue est : \[ E = 20 - 5 = 15. \]

Variance

La variance mesure la moyenne des carrés des écarts à la moyenne : \[ S^2 = \dfrac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2. \] Elle est exprimée dans le carré de l’unité des données (ex. : si \(x_i\) est en cm, \(S^2\) est en cm²).

Example 9 Pour les données \(5, 8, 12, 15, 20\), on calcule d’abord la moyenne : \[ \bar{x} = \dfrac{5 + 8 + 12 + 15 + 20}{5} = 12. \] Puis, la variance : \[ S^2 = \frac{(5-12)^2 + (8-12)^2 + (12-12)^2 + (15-12)^2 + (20-12)^2}{5}. \] \[ S^2 = \frac{49 + 16 + 0 + 9 + 64}{5} = \frac{138}{5} = 27.6. \]

Proposition 1 \[ S^2=\dfrac{1}{n}\sum_{i=1}^nx_i^2-\bar{x}^2. \]

Pour les données pondérées

Lorsque les données sont pondérées par les poids \(w_i\), on a: \[ S^2 = \sum_{i=1}^nw_i\left(x_i-\bar{x}\right)^2. \]

Écart-type

L’écart-type est la racine carrée de la variance, il s’exprime dans la même unité que les données : \[ S = \sqrt{S^2}. \] Il permet d’interpréter plus facilement la dispersion des valeurs.

Coefficient de variation

Le coefficient de variation (CV) permet de comparer la dispersion entre deux séries de données de nature différente : \[ CV = \dfrac{S}{\bar{x}} \times 100. \] Il est exprimé en pourcentage et indique le degré relatif de dispersion.

Example 10  

  • Série A : \(\bar{x} = 50\), \(S = 5 \Rightarrow CV = \dfrac{5}{50} \times 100 = 10\%\).
  • Série B : \(\bar{x} = 200\), \(S = 25 \Rightarrow CV = \dfrac{25}{200} \times 100 = 12.5\%\).

Bien que l’écart-type de la série B soit plus grand, son CV est plus faible, ce qui signifie que les valeurs sont moins dispersées par rapport à la moyenne.

Intervalle interquartile et écart interquartile

Definition 1 (Quantile d’ordre \(\alpha\)) Pour tout \(\alpha\in]0,1[\), on appelle quantile d’ordre \(\alpha\) tout réel \(q_{\alpha}\) qui vérifie \[ \left\{ \begin{array}{lll} \dfrac{1}{n}\sum_{i=1}^n1_{\left[x_i\leq q_{\alpha}\right]}&\geq&\alpha\\ \dfrac{1}{n}\sum_{i=1}^n1_{\left[x_i\geq q_{\alpha}\right]}&\geq&1-\alpha\\ \end{array} \right. \]

Note

Dans la pratique, pour déterminer \(q_{\alpha}\), on procède comme suit:

  1. Déterminer les statistiques d’ordre (ranger les données dans l’ordre croisant): \[x_{(1)}\leq x_{(2)}\leq\cdots\leq x_{(n)}.\]

  2. Déterminer le plus petit \(n_g\) tel que \[ \left\{ \begin{array}{lll} \dfrac{1}{n}\sum_{i=1}^n1_{\left[x_i\leq x_{(n_g)}\right]}&\geq&\alpha\\ \dfrac{1}{n}\sum_{i=1}^n1_{\left[x_i\geq x_{(n_g)}\right]}&\geq&1-\alpha\\ \end{array} \right. \]

  3. Déterminer le plus grand \(n_d\) tel que \[ \left\{ \begin{array}{lll} \dfrac{1}{n}\sum_{i=1}^n1_{\left[x_i\leq x_{(n_d)}\right]}&\geq&\alpha\\ \dfrac{1}{n}\sum_{i=1}^n1_{\left[x_i\geq x_{(n_d)}\right]}&\geq&1-\alpha\\ \end{array} \right. \]

  4. Prendre \(q_{\alpha}=x_{(n_g)}+\alpha\left(x_{(n_d)}-x_{(n_g)}\right)\)

Definition 2 (Les quartiles)  

  • Premier quartile: \(q_{\frac{1}{4}}\)

  • Deuxième quartile (médiane): \(q_{\frac{1}{2}}\)

  • Troisième quartile: \(q_{\frac{3}{4}}\)

Note
  • \(q_{\dfrac{1}{4}}\) (1er quartile) : Valeur sous laquelle se trouvent 25% des observations.
  • \(q_{\dfrac{3}{4}}\) (3e quartile) : Valeur sous laquelle se trouvent 75% des observations.

Example 11 Déterminer les quartiles de la série précédente.

Definition 3 (Intervalle inter-quartile) L’intervalle inter-quartile est la plage contenant les 50% des valeurs centrales d’une distribution : \[ IIQ = q_{\frac{3}{4}} - q_{\frac{1}{4}}. \]

Cet indicateur est robuste aux valeurs extrêmes et permet de mieux comprendre la dispersion dans la zone centrale des données.

Example 12 Série : \(5, 8, 10, 12, 15, 18, 20\) (triée).

  • \(q_{\frac{1}{4}}\) = 8, \(q_{\frac{3}{4}}\) = 18
  • Intervalle interquartile :

\[ IIQ = 18 - 8 = 10. \]

Note
  • Posons \[ \left\{ \begin{array}{lll} b_-&=&q_{\frac{1}{4}}-1.5\times IIQ\\ b_+&=&q_{\frac{3}{4}}+1.5\times IIQ\\ \end{array} \right. \]

  • Les données \(x_i\notin\left[b_-,b_+\right]\) sont en générale considérées comme atypiques, et sont parfois être retirées de l’étude.

Résumé des indicateurs

Indicateur Formule Interprétation
Étendue \(E = x_{\max} - x_{\min}\) Indique la dispersion globale, très sensible aux valeurs extrêmes.
Variance \(S^2 = \dfrac{1}{n} \sum (x_i - \bar{x})^2\) Mesure la dispersion moyenne, exprimée au carré des unités des données.
Écart-type \(S = \sqrt{S^2}\) Indique la dispersion absolue, dans la même unité que les données.
Coefficient de variation \(CV = \dfrac{S}{\bar{x}} \times 100\) Permet de comparer la dispersion relative entre différentes séries.
Intervalle interquartile \(IIQ = q_{\frac{3}{4}} - q_{\frac1{4}}\) Indique la dispersion centrale, moins sensible aux valeurs extrêmes.
Remarque sur l’interprétation des indicateurs
  • Plus l’écart-type est grand, plus les données sont dispersées autour de la moyenne.
  • Un coefficient de variation élevé indique une forte variabilité par rapport à la moyenne.
  • L’intervalle interquartile est plus robuste que l’écart-type en présence de valeurs aberrantes.
Choisir le bon indicateur
  • Écart-type / Variance : pertinents pour des données sans valeurs extrêmes.
  • Intervalle interquartile : recommandé pour des distributions asymétriques ou avec valeurs aberrantes.
  • Coefficient de variation : utile pour comparer des distributions de natures différentes.

Tableau statistique d’une série quantitative discrète

Définition et intérêt

Lorsqu’on dispose d’une série quantitative discrète, il est souvent utile de regrouper les valeurs sous forme d’un tableau statistique. Celui-ci permet de résumer les données, d’en faciliter l’analyse et de calculer des indicateurs statistiques.

Soit une série de \(n\) individus pour lesquels on mesure une variable quantitative discrète \(X\), prenant \(K\) valeurs distinctes \(x_1, x_2, \dots, x_K\) (les modalités).

Le tableau statistique associe à chaque valeur \(x_k\) son effectif et sa fréquence :

Valeur \(x_i\) Effectif \(n_i\) Fréquence \(f_i\)
\(x_1\) \(n_1\) \(f_1 = \frac{n_1}{n}\)
\(x_2\) \(n_2\) \(f_2 = \frac{n_2}{n}\)
\(\vdots\) \(\vdots\) \(\vdots\)
\(x_K\) \(n_K\) \(f_K = \frac{n_k}{n}\)
Total \(n\) \(1\)
  • \(n_k\) est l’effectif de la modalité \(x_k\)
  • L’effectif total est \(n=\sum_{k=1}^Kn_k\)
  • \(f_k=\dfrac{n_k}{n}\) est la proportion de la modalité \(x_k\)

Example 13 Un enseignant note 10 élèves sur 20 points et obtient la série :
\[ 12, 15, 14, 12, 10, 15, 12, 16, 14, 15. \]

On regroupe les valeurs dans un tableau :

Valeur \(x_i\) Effectif \(n_i\) Fréquence \(f_i\)
\(10\) \(1\) \(0.10\)
\(12\) \(3\) \(0.30\)
\(14\) \(2\) \(0.20\)
\(15\) \(3\) \(0.30\)
\(16\) \(1\) \(0.10\)
Total 10 1.00

On peut observer que la note la plus fréquente est 12 et 15, avec une fréquence de 30%.

Interprétation du tableau

Un tableau statistique permet de :

  1. Visualiser les valeurs les plus fréquentes (mode de la distribution).
  2. Faciliter les calculs de moyenne et de variance en ajoutant une colonne \(n_k\times x_k\).
  3. Identifier la distribution des données (répartition uniforme ou non).

Ajout des effectifs cumulés

Il peut être utile d’ajouter une colonne des effectifs cumulés croissants pour mieux analyser la distribution :

Valeur \(x_i\) Effectif \(n_k\) Fréquence \(f_k\) Effectif cumulé \(N_k\)
\(10\) \(1\) \(0.10\) \(1\)
\(12\) \(3\) \(0.30\) \(1 + 3 = 4\)
\(14\) \(2\) \(0.20\) \(4 + 2 = 6\)
\(15\) \(3\) \(0.30\) \(6 + 3 = 9\)
\(16\) \(1\) \(0.10\) \(9 + 1 = 10\)
Total 10 1.00 10

Les effectifs cumulés permettent de répondre rapidement aux questions comme :
“Combien d’élèves ont une note inférieure ou égale à 14 ?”6 élèves.

Note

Un tableau statistique est un outil fondamental pour analyser une série quantitative discrète.
Il permet de structurer les données, d’en faciliter la compréhension et sert de base pour les calculs statistiques (moyenne, médiane, variance, etc.).

Représentations graphiques

L’analyse graphique d’une série quantitative permet d’obtenir une vue d’ensemble des données et de repérer des tendances ou anomalies. Différents types de graphiques peuvent être utilisés selon le type de données (discrètes ou continues) et l’objectif de l’analyse.

Diagramme en bâtons

Le diagramme en bâtons est adapté aux données discrètes. Il représente chaque valeur \(x_k\) par une barre verticale dont la hauteur est proportionnelle à son effectif \(n_k\) ou sa fréquence \(f_k\).

Note
  • En abscisse : les valeurs de la variable.
  • En ordonnée : les effectifs ou fréquences.
  • Les bâtons ne sont pas collés (contrairement à l’histogramme).

Example 14 Un enseignant note 10 élèves et obtient la distribution suivante :

Note (\(x_k\)) Effectif (\(n_k\))
10 1
12 3
14 2
15 3
16 1

Le diagramme en bâtons permet de visualiser les valeurs les plus fréquentes.

Code
library(ggplot2)

data <- data.frame(
  Note = c(10, 12, 14, 15, 16),
  Effectif = c(1, 3, 2, 3, 1)
)

ggplot(data, aes(x = factor(Note), y = Effectif)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(title = "Diagramme en bâtons des notes",
       x = "Notes",
       y = "Effectifs") +
  theme_minimal()

Histogramme

L’histogramme est adapté aux données continues regroupées en classes.

Construction :

  • En abscisse : les classes.
  • En ordonnée : la densité d’effectif (effectif divisé par l’amplitude de la classe).
  • Les barres sont collées pour indiquer la continuité des données.
  • La surface d’une barre est proportionnelle à son effectif (ou fréquence).

Example 15 Soit une étude des salaires en euros avec les classes suivantes :

Classe (en euros) Effectif
[1000 - 2000[ 5
[2000 - 3000[ 8
[3000 - 4000[ 6
[4000 - 5000[ 3

L’histogramme permet de visualiser la répartition des salaires et de repérer les classes les plus fréquentes.

Code
library(ggplot2)

data <- data.frame(
  Classe = factor(c("1000-2000", "2000-3000", "3000-4000", "4000-5000"),
                  levels = c("1000-2000", "2000-3000", "3000-4000", "4000-5000")),
  Effectif = c(5, 8, 6, 3)
)

ggplot(data, aes(x = Classe, y = Effectif)) +
  geom_histogram(stat = "identity", fill = "steelblue") +
  labs(title = "Histogramme des salaires",
       x = "Classe de salaire (euros)",
       y = "Effectif") +
  theme_minimal()
Warning in geom_histogram(stat = "identity", fill = "steelblue"): Ignoring
unknown parameters: `binwidth`, `bins`, and `pad`

Polygone des fréquences

Le polygone des fréquences relie les milieux des classes d’un histogramme par des segments.

Utilité :

  • Permet une visualisation fluide de la distribution.
  • Met en évidence les tendances générales.

Exercise 1  

Code
library(ggplot2)

data <- data.frame(
  Milieu = c(1500, 2500, 3500, 4500),
  Effectif = c(5, 8, 6, 3)
)

ggplot(data, aes(x = Milieu, y = Effectif)) +
  geom_line(group = 1, color = "blue", size = 1) +
  geom_point(color = "red", size = 3) +
  labs(title = "Polygone des fréquences",
       x = "Milieu de classe (euros)",
       y = "Effectif") +
  theme_minimal()
Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
ℹ Please use `linewidth` instead.

Boîte à moustaches (Boxplot)

La boîte à moustaches est un graphique adapté pour visualiser la dispersion des données et détecter les valeurs extrêmes.

Note
  • La boîte est délimitée par le 1er quartile (\(Q_1\)) et le 3e quartile (\(Q_3\)).
  • La médiane est représentée à l’intérieur de la boîte.
  • Les moustaches s’étendent jusqu’aux valeurs extrêmes non aberrantes.
  • Les valeurs aberrantes sont indiquées par des points isolés.

Example 16 Un boxplot appliqué à des temps de course en secondes (\(n = 10\)) :

Temps (s) 45 47 48 50 52 53 55 60 65 80

Le boxplot permet d’identifier rapidement la médiane, la dispersion et les valeurs extrêmes.

Code
library(ggplot2)

data <- data.frame(
  Temps = c(45, 47, 48, 50, 52, 53, 55, 60, 65, 80)
)

ggplot(data, aes(y = Temps)) +
  geom_boxplot(fill = "lightblue") +
  labs(title = "Boxplot des temps de course",
       y = "Temps (s)") +
  theme_minimal()

Fonction de répartition

Definition 4 (Fonction de répartition) La fonction de répartition, notée \(F_{x_{1:n}}\), est un outil essentiel en statistique descriptive pour analyser la distribution d’un échantillon \(x_1, \ldots, x_n\). Elle indique pour tout réel \(x\), la proportion d’observations de l’échantillon qui sont inférieures ou égales à \(x\). Cette fonction est définie pour tout réel \(x\) par :

\[ F_{x_{1:n}}(x) = \dfrac{\text{Nombre d'observations} \leq x}{n} = \dfrac{1}{n}\sum_{i=1}^n1_{[x_i\leq x]}. \]

Proposition 2 (Fonction de répartition)  

  • Criossante : Si \(x \leq y\), alors \(F_{x_{1:n}}(x) \leq F_{x_{1:n}}(y)\).
  • Limites : \(\lim_{x \to -\infty} F_{x_{1:n}}(x) = 0\) et \(\lim_{x \to +\infty} F_{x_{1:n}}(x) = 1\).
  • Continuité à droite : \(F_{x_{1:n}}\) est continue à droite en tout point \(x\).

Example 17 Considérons un échantillon de valeurs \(x_1, \ldots, x_n\) et calculons sa fonction de répartition. Voici comment cette fonction peut être estimée et représentée en R pour un échantillon hypothétique :

Code
# Échantillon hypothétique
x <- c(2, 3, 5, 6, 7, 8, 9, 10, 11, 12)

# Calcul de la fonction de répartition
Fx <- ecdf(x)

# Représentation graphique de la fonction de répartition
plot(Fx, xlab="x", ylab="F(x)")

Remarque

Quel graphique choisir ?
  • Données discrètes : Diagramme en bâtons.
  • Données continues : Histogramme.
  • Comparaison de distributions : Polygone des fréquences.
  • Détection des valeurs extrêmes : Boîte à moustaches.

Exercices

Exercise 2 Vrai ou Faux :

  1. Une “variable” est tout caractère étudié dans une étude statistique.
  2. La statistique descriptive recueille les données.
  3. Elle résume les données via des tableaux, graphiques et indicateurs.
  4. Une variable quantitative mesure une qualité.
  5. Elle peut prendre des valeurs dans \(\mathbb{N}\).
  6. La variance donne une idée de la valeur moyenne étudiée.
  7. L’écart-type s’exprime dans l’unité de la variable étudiée.
  8. Le mode est la modalité la moins fréquente.
  9. La moyenne arithmétique d’une variable qualitative est la modalité la plus fréquente.

Exercise 3 Pour les sujets d’étude qui suivent, spécifier : l’unité statistique, la variable étuduée et son type,

  1. Étude du temps de validité des lampes électriques.
  2. Étude de l’absentéisme des ouvriers, en jours, dans une usine.
  3. Répartition des étudiants d’une promotion selon la mention obtenue sur le diplôme du Bac.
  4. On cherche à modéliser^1 le nombre de collisions impliquant deux voitures sur un ensemble de 100 intersections routières choisies au hasard dans une ville. Les données sont collectées sur une période d’un an et le nombre d’accidents pour chaque intersection est ainsi mesuré.

Exercise 4 On considère une série statistique représentant les revenus mensuels (en euros) de 20 individus dans une ville donnée :

\[ \begin{array}{l} 1200, 1500, 1350, 1800, 2000, 2500, 1600, 1700, 1550, 1400, \\ 2100, 2200, 2300, 1900, 1950, 1750, 1850, 2600, 2700, 2800\\ \end{array} \]

  1. Calcul des indicateurs de tendance centrale :
    1. Déterminer la moyenne arithmétique de cette série.
    2. Calculer la médiane et interpréter sa signification.
    3. Trouver le mode de la distribution (si applicable).
  2. Mesures de dispersion :
    1. Calculer l’étendue de la série.
    2. Déterminer la variance et l’écart-type.
    3. Calculer le coefficient de variation et interpréter la dispersion des revenus.
  3. Étude de la fonction de répartition :
    1. Construire la fonction de répartition empirique \(F(x)\).
    2. Représenter graphiquement \(F(x)\) et expliquer son comportement.
    3. Déterminer les quartiles de la distribution et les représenter sur la courbe de \(F(x)\).
  4. Interprétation des résultats :
    • Comparer la moyenne et la médiane : que peut-on dire sur la symétrie de la distribution des revenus ?
    • Comment la dispersion des revenus influence-t-elle l’interprétation de la moyenne ?
    • Quel est l’intérêt de la fonction de répartition pour la prise de décision en économie ou en gestion des revenus ?

Exercise 5 Les données ci-dessous représentent le tableau des effectifs du nombre de pièces par appartement.

NbreDePieces 1 2 3 4 5 6 7
NbreAppartements 48 72 96 64 39 25 3
  1. Tracer les diagrammes en bâtons des effectifs et des effectifs cumulés.
  2. Déterminer le mode, la moyenne, l’étendue, la variance et l’écart-type.
  3. Déterminer les quartiles.
  4. Tracer la boîte à moustaches.
  5. Définir et tracer la fonction de répartition.

Exercise 6  

Code
NbreVoitures = 1:12
NbreObservations = c(2, 8, 14 , 20 , 19 , 15 , 9 , 6 , 2 , 3 , 1 , 1)
df = data.frame(NbreVoitures, NbreObservations)
print(df)
   NbreVoitures NbreObservations
1             1                2
2             2                8
3             3               14
4             4               20
5             5               19
6             6               15
7             7                9
8             8                6
9             9                2
10           10                3
11           11                1
12           12                1
  1. Table des fréquences et diagramme en bâtons.
  2. Calcul de la moyenne et écart-type.
  3. Médiane, quartiles, box-plot.
  4. Étude de la symétrie.

Exercise 7 Le gérant d’un magasin vendant des articles de consommation courante a relevé pour un article particulier qui semble connaître une très forte popularité, le nombre d’articles vendus par jour. Son relevé a porté sur les ventes des mois de Mars et Avril, ce qui correspond à \(52\) jours de vente. Le relevé des observations se présente comme suit :

\[\begin{eqnarray*} 7, & 13, & 8, & 10, & 9, & 12, & 10, & 8, & 9, & 10, \\ 6, & 14, & 7, & 15, & 9, & 11, & 12, & 11, & 12, & 5,\\ 14, & 11, & 8, & 10, & 14, & 12, & 8, & 5, & 7, & 13, \\ 12, & 16, & 11, & 9, & 11, & 11, & 12, & 12, & 15, & 14, \\ 5, & 14, & 9, & 9, & 14, & 13, & 11, & 10, & 11, & 12, \\ 9, & 15, & & & & & & & & \\ \end{eqnarray*}\]

Analyser le nombre d’articles vendus par jour sur \(52\) jours.

Exercise 8 Les données ci-dessous sont les poids (en \(kg\)) de \(n=50\) individus.

\[ \begin{array}{rrrrr} 43 & 43 & 43 & 47 & 48\\ 48 & 48 & 48 & 49 & 49\\ 49 & 50 & 50 & 51 & 51\\ 52 & 53 & 53 & 53 & 54\\ 54 & 56 & 56 & 56 & 57\\ 59 & 59 & 59 & 62 & 62\\ 63 & 63 & 65 & 65 & 67\\ 67 & 68 & 70 & 70 & 70\\ 72 & 72 & 73 & 77 & 77\\ 81 & 83 & 86 & 92 & 93\\ \end{array} \]

  1. Type de la variable poids.
  2. Moyenne, variance, écart-type.
  3. Tableau statistique avec classes spécifiées.
  4. Histogramme des effectifs, fonction de répartition.
  5. Quartiles et boîte à moustaches.