Méthodes d’Estimation Ponctuelle

Objectifs du Chapitre

Ce chapitre introduit les principales méthodes d’estimation ponctuelle, qui permettent de construire des estimateurs à partir d’un échantillon. Ces méthodes sont essentielles pour obtenir des estimations robustes et précises des paramètres inconnus d’une distribution.

À la fin de ce chapitre, vous serez capable de :

Comprendre les différentes approches d’estimation ponctuelle, notamment la méthode des moments, la méthode du maximum de vraisemblance (EMV) et la méthode des moindres carrés.
Appliquer la méthode des moments pour estimer les paramètres d’une distribution à partir des moments empiriques.
Utiliser l’EMV pour trouver les estimateurs les plus probables, en maximisant la vraisemblance.
Maîtriser la méthode des moindres carrés pour ajuster des modèles linéaires aux données.
Comparer les différentes méthodes d’estimation et évaluer leurs avantages et inconvénients en termes de biais, consistance et efficacité.
Appliquer ces méthodes dans un contexte pratique, notamment en actuariat et en modélisation du risque.

Ce chapitre servira de base pratique pour l’analyse des estimateurs et leur utilisation en inférence statistique.

Méthode des Moments

Introduction à la Méthode des Moments

La méthode des moments est l’une des premières approches utilisées en estimation ponctuelle. Elle repose sur l’idée que les moments théoriques d’une distribution peuvent être approximés par leurs moments empiriques obtenus à partir d’un échantillon.

L’objectif est de trouver un estimateur du paramètre \(\theta\) en égalant un certain nombre de moments empiriques à leur équivalent théorique.

Définition et Principe Général

Soit \(X_1, X_2, \dots, X_n\) un échantillon de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) provenant d’une distribution de paramètre \(\theta\).

Le moment d’ordre \(k\) d’une variable aléatoire \(X\) est défini par :

\[ \mu_k(\theta)=E[X^k] . \]

Dans un échantillon de taille \(n\), le moment empirique d’ordre \(k\) est donné par :

\[ \hat{\mu}_k = \dfrac{1}{n} \sum_{i=1}^{n} X_i^k. \]

L’idée de la méthode des moments est alors d’estimer les paramètres inconnus en résolvant l’équation :

\[ \hat{\mu}_k = \mu_k(\theta). \]

Si le modèle statistique contient \(k\) paramètres \(\theta_1, \dots, \theta_k\), alors on utilise les \(k\) premiers moments pour résoudre le système :

\[ \left\{ \begin{aligned} \hat{\mu}_1 &= \mu_1(\theta_1, \dots, \theta_k)\\ \hat{\mu}_2 &= \mu_2(\theta_1, \dots, \theta_k)\\ \vdots & \\ \hat{\mu}_k &= \mu_k(\theta_1, \dots, \theta_k)\\ \end{aligned} \right. \]

Exemples d’Application

Loi Exponentielle \(Exp(\lambda)\)

Soit \(X \sim Exp(\lambda)\), dont la densité est :

\[ f(x) = \lambda e^{-\lambda x}, \quad x > 0. \]

L’espérance théorique est :

\[ E[X] = \frac{1}{\lambda}. \]

L’estimateur des moments pour \(\lambda\) est donc obtenu en égalant l’espérance théorique à la moyenne empirique :

\[ \frac{1}{\lambda} = \frac{1}{n} \sum_{i=1}^{n} X_i. \]

D’où :

\[ \hat{\lambda} = \frac{1}{\overline{X}_n}. \]

Loi de Pareto (actuariat)

En actuariat, les sinistres sont souvent modélisés par une loi de Pareto :

\[ f(x; \alpha, x_m) = \frac{\alpha x_m^\alpha}{x^{\alpha+1}}, \quad x \geq x_m, \quad \alpha > 1. \]

L’espérance est donnée par :

\[ E[X] = \frac{\alpha x_m}{\alpha - 1}, \quad \text{pour } \alpha > 1. \]

On obtient l’estimateur de \(\alpha\) en égalant cette expression à la moyenne empirique \(\overline{X}_n\) :

\[ \frac{\alpha x_m}{\alpha - 1} = \overline{X}_n. \]

En résolvant pour \(\alpha\) :

\[ \hat{\alpha} = \frac{x_m \overline{X}_n}{\overline{X}_n - x_m}. \]

Propriétés des Estimateurs par la Méthode des Moments

Les estimateurs obtenus par la méthode des moments possèdent certaines propriétés :

Simplicité : Facile à mettre en œuvre, surtout pour des distributions classiques.
Consistance : Sous certaines conditions, les estimateurs convergent vers la vraie valeur du paramètre.
Biais : L’estimateur des moments peut être biaisé, notamment pour des distributions asymétriques.
Moins efficace que l’estimateur du maximum de vraisemblance (EMV) en général.

Note

La méthode des moments est une approche simple et intuitive pour estimer les paramètres d’une distribution. Cependant, elle peut manquer d’efficacité par rapport à l’EMV, que nous verrons dans la prochaine section.

Méthode du Maximum de Vraisemblance (MV)

Introduction à la Méthode du Maximum de Vraisemblance

La méthode du maximum de vraisemblance (MV) est une technique d’estimation qui cherche à trouver les valeurs des paramètres qui rendent l’échantillon observé le plus probable.

L’idée centrale est de maximiser la fonction de vraisemblance, qui exprime la probabilité d’observer les données en fonction du paramètre inconnu.

Définition et Principe Général

Soit \(X_1, X_2, ..., X_n\) un échantillon i.i.d. tiré d’une loi de densité (ou de masse) \(f(X; \theta)\), où \(\theta\) est un paramètre inconnu.

La fonction de vraisemblance est définie comme :

\[ L(\theta;\, X_1,\cdots,X_n) = P(X_1, X_2, ..., X_n | \theta) = \prod_{i=1}^{n} f(X_i; \theta). \]

L’estimateur du maximum de vraisemblance (EMV) est la valeur \(\hat{\theta}\) qui maximise cette fonction :

\[ \hat{\theta} = \arg \max_{\theta} L(\theta;\, X_1,\cdots,X_n). \]

En pratique, on maximise souvent la log-vraisemblance :

\[ \ln L(\theta;\,X_1,\cdots,X_n) = \ln L(\theta;\,X_1,\cdots,X_n) = \sum_{i=1}^{n} \ln f(X_i; \theta), \]

car elle est plus simple à manipuler mathématiquement.

Exemples d’Application

Loi Exponentielle \(Exp(\lambda)\)

Soit \(X_1, ..., X_n \sim Exp(\lambda)\), avec densité :

\[ f(x; \lambda) = \lambda e^{-\lambda x}, \quad x > 0. \]

La log-vraisemblance est :

\[ \ln L(\lambda;\, X_1,\cdots,X_n) = \sum_{i=1}^{n} \ln (\lambda e^{-\lambda X_i}). \]

En simplifiant :

\[ \ln L(\lambda) = n \ln \lambda - \lambda \sum_{i=1}^{n} X_i. \]

On maximise cette expression en dérivant par rapport à \(\lambda\) et en annulant la dérivée :

\[ \frac{\partial \ell}{\partial \lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} X_i = 0. \]

Ce qui donne l’estimateur de \(\lambda\) :

\[ \hat{\lambda} = \frac{n}{\sum_{i=1}^{n} X_i} = \frac{1}{\overline{X}_n}. \]

Loi Normale \(\mathcal{N}(\mu, \sigma^2)\)

Soit \(X_1, ..., X_n \sim \mathcal{N}(\mu, \sigma^2)\), avec densité :

\[ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}. \]

La log-vraisemblance est :

\[ \ln L(\mu, \sigma^2) = -\frac{n}{2} \ln (2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (X_i - \mu)^2. \]

Maximisation par rapport à \(\mu\) :

\[ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^{n} (X_i - \mu) = 0. \]

Ce qui donne :

\[ \hat{\mu} = \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i. \]

Maximisation par rapport à \(\sigma^2\) :

\[ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^{n} (X_i - \mu)^2 = 0. \]

Ce qui donne :

\[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X}_n)^2. \]

Remarque : \(\hat{\sigma}^2\) est biaisé ; un estimateur sans biais est donné par :

\[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X}_n)^2. \]

Propriétés des Estimateurs EMV

Les estimateurs obtenus par maximum de vraisemblance possèdent généralement des bonnes propriétés asymptotiques :

Consistance : \(\hat{\theta}\) converge en probabilité vers \(\theta\).
Asymptotiquement normal :

\[ \sqrt{n} (\hat{\theta} - \theta) \xrightarrow{d} \mathcal{N}(0, I(\theta)^{-1}). \]

Efficacité asymptotique : Lorsque l’échantillon est grand, l’EMV atteint la borne de Cramér-Rao.
Peut être biaisé pour petits échantillons.
Peut être difficile à calculer pour certaines distributions complexes.

Comparaison avec la Méthode des Moments

Critère Méthode des Moments Maximum de Vraisemblance
Principe Approximation des moments Maximisation de la vraisemblance
Facilité de calcul Facile (équations analytiques) Parfois difficile (optimisation numérique)
Biais Peut être biaisé Peut être biaisé
Efficacité Pas toujours optimale Asymptotiquement efficace
Convergence Converge sous certaines conditions Converge généralement vers \(\theta\)
Note

La méthode du maximum de vraisemblance est une technique puissante et largement utilisée pour estimer les paramètres d’une distribution.
Elle offre des garanties asymptotiques solides, bien qu’elle puisse être difficile à résoudre analytiquement dans certains cas.

Dans la prochaine section, nous explorerons la méthode des moindres carrés, utilisée notamment en régression linéaire.

Méthode des Moindres Carrés

Introduction à la Méthode des Moindres Carrés (MMC)

La méthode des moindres carrés (MMC) est une technique d’estimation qui vise à minimiser la somme des carrés des écarts entre les valeurs observées et les valeurs prédites par un modèle.

Elle est particulièrement utilisée dans :

  • La régression linéaire, où l’objectif est d’estimer les coefficients d’une relation linéaire entre une variable dépendante et une ou plusieurs variables explicatives.
  • L’analyse des erreurs d’estimation, où elle permet d’obtenir des estimateurs minimisant la dispersion autour des valeurs théoriques.

L’idée principale est de trouver les paramètres qui minimisent la somme des carrés des différences entre les données observées et les valeurs ajustées par le modèle.

Principe Général en Régression

Soit un modèle paramétrique défini par une relation fonctionnelle :

\[ Y_i = f(X_i, \theta) + \varepsilon_i, \quad i = 1, \dots, n. \]

où :

  • \(Y_i\) représente les observations,
  • \(X_i\) est un vecteur de variables explicatives,
  • \(\theta\) est un vecteur de paramètres à estimer,
  • \(\varepsilon_i\) est une erreur aléatoire.

La méthode des moindres carrés cherche à minimiser la somme des carrés des erreurs :

\[ RSS(\theta) = \sum_{i=1}^{n} \left( Y_i - f(X_i, \theta) \right)^2. \]

L’estimateur des moindres carrés \(\hat{\theta}\) est donc défini par :

\[ \hat{\theta} = \arg \min_{\theta} RSS(\theta). \]

Application : Régression Linéaire

Un cas particulier important de la méthode des moindres carrés est la régression linéaire, où l’on suppose une relation linéaire entre \(Y\) et \(X\) :

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i. \]

L’objectif est d’estimer les coefficients \(\beta_0\) et \(\beta_1\) en minimisant :

\[ RSS(\beta_0, \beta_1) = \sum_{i=1}^{n} (Y_i - (\beta_0 + \beta_1 X_i))^2. \]

Les dérivées partielles de \(S\) par rapport à \(\beta_0\) et \(\beta_1\) donnent le système des équations normales :

\[ \begin{cases} \sum Y_i = n \beta_0 + \beta_1 \sum X_i, \\ \sum X_i Y_i = \beta_0 \sum X_i + \beta_1 \sum X_i^2. \end{cases} \]

Les solutions sont :

\[ \hat{\beta}_1 = \frac{\sum (X_i - \overline{X})(Y_i - \overline{Y})}{\sum (X_i - \overline{X})^2}, \]

\[ \hat{\beta}_0 = \overline{Y} - \hat{\beta}_1 \overline{X}. \]

\(\overline{X}\) et \(\overline{Y}\) sont les moyennes des observations.

La droite de régression estimée est donc :

\[ \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i. \]

Propriétés des Estimateurs des Moindres Carrés

Les estimateurs obtenus par moindres carrés ordinaires (MCO) possèdent plusieurs propriétés sous certaines conditions :

Non-biaisé : \(E[\hat{\beta}_1] = \beta_1\) et \(E[\hat{\beta}_0] = \beta_0\).
Consistance : \(\hat{\beta}_1\) et \(\hat{\beta}_0\) convergent en probabilité vers les vraies valeurs lorsque \(n \to \infty\).
Efficacité : Sous l’hypothèse de normalité des erreurs, les estimateurs atteignent la borne de Cramér-Rao et sont les meilleurs estimateurs sans biais.
Sensibilité aux valeurs extrêmes (outliers) : Les moindres carrés minimisent les écarts quadratiques, donc un outlier peut fortement influencer l’estimation.

Les hypothèses de Gauss-Markov garantissent que les estimateurs MCO sont les meilleurs estimateurs linéaires sans biais (BLUE - Best Linear Unbiased Estimators) sous les conditions suivantes : - Erreurs centrées : \(E[\varepsilon_i] = 0\). - Erreurs homoscédastiques : \(Var(\varepsilon_i) = \sigma^2\). - Erreurs non autocorrélées : \(Cov(\varepsilon_i, \varepsilon_j) = 0\) pour \(i \neq j\).

Application en Actuariat : Modélisation des Sinistres

En assurance automobile, on peut modéliser le montant moyen des sinistres \(Y\) en fonction de caractéristiques du conducteur (\(X_1\) = âge) et du véhicule (\(X_2\) = puissance du moteur).

Un modèle de régression linéaire multiple peut être utilisé :

\[ Y_i = \beta_0 + \beta_1 X_{i,1} + \beta_2 X_{i,2} + \varepsilon_i. \]

L’objectif est d’estimer les paramètres \(\beta_0, \beta_1, \beta_2\) pour évaluer l’impact des variables sur le montant des sinistres.

L’équation matricielle s’écrit :

\[ \mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}. \]

Les estimateurs MCO sont obtenus par :

\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{Y}. \]

Ce modèle permet d’anticiper les coûts d’assurance et d’adapter les primes en fonction des caractéristiques du client.

Comparaison avec d’Autres Méthodes d’Estimation

Méthode Principe Avantages Inconvénients
Méthode des Moments Égalisation moments empiriques et théoriques Simple, rapide Moins efficace en général
Maximum de Vraisemblance (EMV) Maximisation de la vraisemblance Asymptotiquement efficace Calculs parfois complexes
Moindres Carrés Minimisation des erreurs quadratiques Interprétation simple, utile en régression Sensible aux outliers
Note

La méthode des moindres carrés est un outil fondamental en statistique et en apprentissage automatique.
Elle offre une estimation simple et efficace dans de nombreux cas pratiques, notamment en régression linéaire et en modélisation actuarielle.

Exercices

Cette section propose des exercices pour appliquer les méthodes d’estimation ponctuelle, notamment la méthode des moments, le maximum de vraisemblance et les moindres carrés.
Certains exercices sont spécifiquement orientés vers l’actuariat, en lien avec la modélisation des sinistres et des primes d’assurance.

Exercices sur la Méthode des Moments

Exercise 1 (Estimation du paramètre d’une loi Gamma en actuariat) En assurance, la distribution des montants des sinistres est souvent modélisée par une loi Gamma :

\[ f(x; \alpha, \lambda) = \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\lambda x}, \quad x > 0. \]

\(\alpha\) est le paramètre de forme et \(\lambda\) le paramètre d’échelle.

  1. Rappeler l’espérance et la variance de la loi Gamma.
  2. Déterminer les estimateurs des moments \(\hat{\alpha}\) et \(\hat{\lambda}\) en fonction de la moyenne empirique \(\overline{X}_n\) et de la variance empirique \(S_n^2\).
  3. Simuler sous Python ou R un échantillon de sinistres suivant une loi Gamma \((\alpha = 3, \lambda = 2)\) et comparer les estimations obtenues aux valeurs réelles.

Exercise 2 (Estimation du paramètre de la loi de Pareto en assurance) Les grands sinistres en assurance sont souvent modélisés par une loi de Pareto :

\[ f(x; \alpha, x_m) = \frac{\alpha x_m^\alpha}{x^{\alpha+1}}, \quad x \geq x_m, \quad \alpha > 1. \]

\(x_m\) est le seuil minimal.

  1. Rappeler l’espérance de la loi de Pareto.
  2. En utilisant la méthode des moments, trouver un estimateur de \(\alpha\) en fonction de \(\overline{X}_n\).
  3. Simuler une série de sinistres sous Python/R, estimer \(\alpha\) et comparer avec l’EMV.

Exercices sur le Maximum de Vraisemblance

Exercise 3 (Estimation du paramètre d’une loi exponentielle (assurance vie)) La durée de vie résiduelle d’un assuré est souvent modélisée par une loi exponentielle :

\[ f(x; \lambda) = \lambda e^{-\lambda x}, \quad x > 0. \]

  1. Écrire la fonction de vraisemblance \(L(\lambda)\) pour un échantillon \(X_1, ..., X_n\).
  2. Déterminer l’estimateur du maximum de vraisemblance (EMV) de \(\lambda\).
  3. Montrer que cet estimateur est sans biais et consistant.
  4. Simuler une série de durées de vie sous Python/R, estimer \(\lambda\) et visualiser la distribution des estimations.

Exercise 4 (Estimation du paramètre de la loi Gamma par EMV) On reprend la loi Gamma introduite dans l’Exercice 3.1.

  1. Écrire la fonction de log-vraisemblance \(\ell(\alpha, \lambda)\).
  2. Déterminer les équations du maximum de vraisemblance.
  3. Implémenter une méthode numérique (Newton-Raphson ou gradient) pour estimer \(\alpha\) et \(\lambda\) à partir d’un échantillon simulé.

Exercices sur les Moindres Carrés

Exercise 5 (Modélisation du montant des sinistres en assurance automobile) On souhaite modéliser le montant moyen des sinistres \(Y\) en fonction :

  • de l’âge du conducteur \(X_1\),
  • de la puissance du véhicule \(X_2\).

On propose le modèle de régression linéaire multiple :

\[ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \varepsilon_i. \]

  1. Simuler un jeu de données de 100 contrats en générant \(Y\), \(X_1\) et \(X_2\).
  2. Estimer les coefficients \(\beta_0, \beta_1, \beta_2\) par la méthode des moindres carrés.
  3. Vérifier si les estimateurs sont statistiquement significatifs à l’aide d’un test \(t\).
  4. Interpréter les résultats et donner une conclusion actuarielle sur l’impact de \(X_1\) et \(X_2\).

Exercise 6 (Prédiction de la prime d’assurance en régression linéaire) On dispose d’un échantillon de 500 assurés avec les variables suivantes :

  • \(Y\) : Prime annuelle payée (en euros),
  • \(X_1\) : Âge de l’assuré,
  • \(X_2\) : Nombre d’accidents sur 5 ans,
  • \(X_3\) : Puissance du véhicule.
  1. Construire un modèle de régression linéaire multiple pour expliquer \(Y\) en fonction de \(X_1, X_2, X_3\).
  2. Estimer les paramètres et vérifier leur significativité.
  3. Calculer l’erreur quadratique moyenne pour évaluer la qualité du modèle.
  4. Faire une prédiction de la prime pour un assuré de 40 ans, 2 accidents, voiture de 110 chevaux.

Exercices Avancés et Simulation Monte Carlo

Exercise 7 (Comparaison des Méthodes d’Estimation sur un Modèle de Sinistre) On dispose d’un jeu de 1000 sinistres suivant une loi Gamma \((\alpha, \lambda)\).

  1. Estimer les paramètres \(\alpha\) et \(\lambda\) avec :

    • La méthode des moments,
    • L’EMV.
  2. Comparer les performances des deux méthodes en simulant 1000 échantillons et en calculant l’erreur quadratique moyenne (EQM).

  3. Conclure sur l’efficacité des estimateurs et leur biais éventuel.

Exercise 8 (Simulation de la normalité asymptotique des estimateurs) On veut vérifier expérimentalement la normalité asymptotique d’un estimateur. Soit \(X_1, ..., X_n\) un échantillon de loi \(\mathcal{N}(\mu, \sigma^2)\).

  1. Simuler 10 000 échantillons de taille 30 et estimer \(\mu\) à chaque répétition.
  2. Construire l’histogramme des estimations de \(\hat{\mu}\) et comparer avec la densité théorique \(\mathcal{N}(\mu, \sigma^2/n)\).
  3. Vérifier empiriquement que \(\sqrt{n}(\hat{\mu} - \mu)\) suit bien une loi normale.