Exercice 1 : Election 2ème tour Max

Entre les deux tours d'une élection présidentielle, un candidat, Max, souhaiterait ``rapidement'' avoir un a priori sur la proportion d'intentions de vote en sa faveur. On notera $\pmb{\mathcal{Y}}^{ Max}=\left( \mathcal{Y}_1^{Max},\ldots, \mathcal{Y}_N^{Max}\right)$ l'ensemble des réponses des $N$ électeurs (où $\mathcal{Y}_i^{Max}$ vaut 1 si l'individu $i$ a l'intention de voter pour Max et 0 sinon).
(1) Déterminez en fonction de $\pmb{\mathcal{Y}}^{ Max}$, le nombre puis la proportion d'intentions de vote en faveur de Max, notée respectivement $N^{Max}$ et $p^{Max}$.
Réponse
  1. $N^{Max}:= \displaystyle \sum_{i=1}^N \mathcal{Y}_i^{Max}$
  2. $p^{Max}:= \frac{N^{Max}}N = \displaystyle \frac1N \sum_{i=1}^N \mathcal{Y}_i^{Max}=:\overline{\mathcal{Y^{Max}}}$
Puisque la taille de la population est grande, $p^{Max}$ est un paramètre d'intérêt quasiment impossible à évaluer en pratique. Dans ce cours, un paramètre d'intérêt est généralement supposé INCONNU.

(2) $N$ étant très grand, quelle serait une solution réalisable permettant d'obtenir un remplaçant (i.e. estimation) de $p^{Max}$. Proposez les notations adéquates.
Réponse
Une solution consiste à interroger un nombre $n << N$ d'individus. Ce jeu de données pourrait être noté ${\mathbf{ y^{Max} }}$ et le remplaçant de $p^{Max}$ pourrait alors être calculé par $\widehat{ p^{Max} }\left({\mathbf{ { y^{Max} } }}\right):=\displaystyle \frac1n \sum_{i=1}^n y_i^{Max}=\overline{y^{Max}}$.

(3) Deux personnes se proposent d'interroger chacun $n=1000$ électeurs. On notera ${\mathbf{ y_{[1]} }}$ et ${\mathbf{ y_{[2]} }}$ ces deux jeux de données recueillis. Les estimations correspondantes sont respectivement de $47\%$ et $52\%$. Comment interpréter la différence des résultats qui, si on leur fait une confiance aveugle, conduit à deux conclusions différentes?
Réponse
La différence des résultats peut s'expliquer par le fait qu'un échantillon de taille $n$ ne constitue qu'une sous-information de la population de taille $N$.

(4)Connaissez-vous d'autres applications nécessitant une estimation d'un paramètre inconnu ?
Réponse
normes de production, normes écologiques, ...

Exercice 2 : Présentation des problématiques des produits A et B

Un industriel veut lancer sur le marché deux produits que l'on nommera Produit $A$ et Produit $B$. Le Produit $A$ est acheté au plus une fois par mois tandis que le Produit $B$ peut être acheté autant de fois que désiré. Après une étude financière, les services comptables indiquent à cet industriel que pour que le lancement de chacun de ces produits soit rentable, il faut qu'il soit vendu à plus de 300000 exemplaires par mois. La population ciblée par l'industriel est une population de taille $N=2000000$. L'industriel se demande s'il doit ou non lancer le(s) \textit{Produit(s) A et/ou B}.
Commençons par introduire quelques notations permettant de décrire le choix d'achat des individus de la population totale (ciblée par l'industriel). Les deux études des Produit $A$ et Produit $B$ étant plutôt similaires, nous noterons donc dans un cadre général $\bullet$ aussi bien à la place de $A$ ou $B$. Ainsi $\mathcal{Y}^{\bullet}_i$ représente le nombre de produit(s) $\bullet$ acheté(s) par le $i^{\grave eme}$ ($i=1,\cdots,N$) individu de la population totale. L'ensemble des choix d'achat des $N$ individus $\left(\mathcal{Y}_i\right)_{i=1,\cdots,N}$ sera noté $\pmb{\mathcal{Y}}^{ \bullet}$. $N^{\bullet}$ désignera le nombre d'exemplaires de Produit $\bullet$ achetés par les N individus de la population.
(1) Exprimez $N^A$ (resp. $N^B$) en fonction des $\pmb{\mathcal{Y}}^{ A}$ (resp. $\pmb{\mathcal{Y}}^{ B}$). Exprimez la rentabilité du Produit $A$ (resp. Produit $B$) en fonction du nombre total $N^A$ (resp. $N^B$) d'exemplaires du Produit $A$ (resp. Produit $B$) vendus.
Réponse
Le produit $\bullet$ est rentable si $N^\bullet:=\displaystyle\sum_{i=1}^N \mathcal{Y}_i^\bullet > 300000$.

(2) Même question mais en fonction du nombre moyen (par individu de la population) $\mu^A$ (resp. $\mu^B$) d'exemplaires du Produit $A$ (resp. Produit $B$) en ayant au préalable établi la relation entre $\mu^A$ et $N^A$ (resp. $\mu^B$ et $N^B$) et ainsi entre $\mu^A$ et $\pmb{\mathcal{Y}}^{ A}$ (resp. $\mu^B$ et $\pmb{\mathcal{Y}}^{ B}$). Quelle relation y a-t-il donc entre $\mu^A$ et $\overline{\mathcal{Y}^A}$ (resp. entre $\mu^B$ et $\overline{\mathcal{Y}^B}$) ?
Les quantités $\mu^A$ et $\mu^B$ seront appelées paramètres d'intérêt.
Réponse
Le produit $\bullet$ est rentable si $\mu^\bullet:=\displaystyle\frac1N\sum_{i=1}^N \mathcal{Y}_i^\bullet = \overline{\mathcal{Y^\bullet}} > \frac{300000}{2000000}=0.15$.

(3) Est-il possible pour l'industriel de ne pas se tromper dans sa décision quant au lancement de chaque produit ? Si oui, comment doit-il procéder ? Cette solution est-elle réalisable ?
Réponse
Pour ne pas se tromper, il lui faut recueillir les intentions des $N$ individus ce qui paraît peu réalisable.

(4) Est-il alors possible d'évaluer (exactement) les paramètres d'intérêt ? Comment les qualifieriez-vous par la suite ?
Réponse
Les paramètres d'intérêt ne peuvent donc pas être évalués et sont donc considérés comme INCONNUS.

(5) Une solution réalisable est alors de n'interroger qu'une sous-population de taille raisonnable $n << N$ (ex $n=1000$). On notera alors ${\mathbf{ y }}^\bullet$ le jeu de données (appelé aussi échantillon), i.e. le vecteur des $n$ nombres d'achat $\left(y_i^\bullet\right)_{i=1,\cdots,n}$ du produit $\bullet$ des $n$ ($n << N$) individus interrogés.
Cet unique jeu de données ${\mathbf{ y \bullet }}$ sera créé un jour particulier, le jour J. Ce jour là (et seulement ce jour là) nous pourrons décider ou pas de lancer le produit $\bullet$ sur le marché.
Chronologiquement, tous les raisonnements qui se situeront avant le jour J seront consacrés à la mise en place de l'outil d'aide à la décision. Comment l'industriel pourra-t-il évaluer un remplaçant de $\mu^\bullet$ à partir de son échantillon ${\mathbf{ y }}^\bullet$ ?
Cette quantité désomais notée $\widehat{ \mu^{\bullet} }\left({\mathbf{ { y^{\bullet} } }}\right)$ se traduit littéralement par ``remplaçant" de $\mu^\bullet$ obtenu à partir du vecteur des données ${\mathbf{ y }}$ ( convention: le symbole accent circonflexe sur un paramètre signifie estimation ou ``remplaçant" de celui-ci et les symboles parenthèses contiennent les informations nécessaires pour son obtention).
(quelle est la relation entre $\overline{y^\bullet}$, représentant la moyenne empirique des $\left(y_i^\bullet\right)_{i=1,\ldots,n}$, et l'estimation $\widehat{ \mu^{\bullet} }\left({\mathbf{ { y^{\bullet} } }}\right)$ ?)
Réponse
En évaluant la moyenne sur l'échantillon observé, i.e. en calculant $\widehat{ \mu^{\bullet} }\left({\mathbf{ { y^{\bullet} } }}\right)=\displaystyle\frac1n \sum_{i=1}^n y_i^\bullet=\overline{y^\bullet}$.

(6) Quelle est la nature du paramètre d'intérêt $\mu^A$ dans le cas où les données ne sont que des 0 et 1 ? Désormais cette moyenne, puisqu'elle bénéficiera d'un traitement particulier, sera notée $p^A=\mu^A$.
Réponse
Une moyenne de 0 et de 1 correspond à une proportion.

Exercice 3 : Procédé de construction d'échantillon

Dans le but d'estimer un paramètre d'intérêt inconnu, on dispose d'un échantillon. Nous nous proposons maintenant de préciser plus en détail son procédé de construction.
(1) Proposez des critères de qualité d'un tel échantillon.
(2) A quoi correspond la notion de représentativité ?
Réponse
à essayer de faire "ressembler" l'échantillon à la population totale.

(3) Est-il possible de construire un échantillon représentatif d'une (ou plusieurs) caractéristique(s) donnée(s) ?
Réponse
oui par exemple en tentant de respecter la proportion de femmes dans la population totale avec la proportion de femmes présentes dans l'échantillon.

(4) Même question sans aucun a priori (i.e. aucune caractéristique fixée).
(5) Proposez un critère de qualité qui permettra de construire un échantillon le plus représentatif sans aucun a priori.
Réponse
voir réponse ci-après.

(6) Fournissez un (ou plusieurs) procédé(s) d'échantillonnage satisfaisant au critère suivant de représentativité (maximale) sans a priori (RSAP) :
Tous les individus de la population totale ont la même chance d'être choisi dans l'échantillon.
Réponse
Selon ce critère, on pourrait choisir $n$ individus au hasard au sein de la population avec remise et sans remise. Notons qu'étant donné les ordres de grandeurs, $n=1000$ et $N=2000000$ ces deux procédés sont quasiment équivalents.

(7) Si on répète le procédé d'échantillonnage suivant le critère RSAP et que pour chaque échantillon on évalue l'estimation du paramètre d'intérêt, pensez-vous que les résultats seront toujours les mêmes ? Comment qualifie-t-on alors la nature du procédé d'échantillonnage ?
Réponse
L'échantillonnage est dit aléatoire.

Exercice 4 : Outil d'estimation par Intervalle de Confiance (IC) pour la problématique des élections

On se propose d'estimer le paramètre d'intérêt en fournissant un intervalle (ou fourchette, encadrement) obtenu à partir des données. Cet intervalle, appelé intervalle de confiance, est centré en la valeur de l'estimation et sa largeur dépend d'un niveau de confiance que l'on se fixe (généralement plutôt grand, par exemple, $95\%$).
(1) Pensez-vous qu'il soit possible qu'une estimation $\widehat{ p }\left({\mathbf{ { y } }}\right)$ soit égale au paramètre d'intérêt (à estimer) ? Pouvez-vous savoir l'ordre de grandeur de l'écart entre l'estimation et le paramètre inconnu? Quel niveau de confiance accordez-vous à la valeur d'une estimation (dans notre exemple, $47\%$ et $52\%$ sur deux échantillons)?
Réponse
Excepté dans de très rares contextes, une estimation ne peut pas correspondre à la vraie valeur du paramètre inconu. Il n'y a aucun moyen de mesurer avec certitude l'écart entre l'estimation et le paramètre. Cependant, on peut seulement espérer qu'ils ne sont pas très éloignés. Compte tenu ce ces réponses, il est alors difficile de répondre à la dernière question autrement que de proposer un avis personnel plutôt arbitraire.

(2) Si on vous annonce qu'un statisticien sait généralement fournir en plus de l'estimation du paramètre, l'estimation de sa fiabilité mesurée en terme de variabilité attendue, quel est la mission principale d'un intervalle de confiance ? Quelles sont les qualités souhaitées d'un intervalle de bonne confiance ($95\%$ par exemple) du paramètre d'intérêt (inconnu) ?
Réponse
L'objectif est d'intégrer dans le procédé d'estimation du paramètre sa fiabilité (voir énoncé) afin de fournir un intervalle plus ou moins large selon le niveau de confiance fixé. La qualité attendue est que cet intervalle ait de bonnes chances (traduites par le niveau de confiance) de contenir le paramètre d'intérêt inconnu. En outre, on peut espérer obtenir un intervalle de longueur raisonnablement faible pour que l'estimation soit suffisamment informative (bien que l'on ne peut en être assuré en général).

(3) Compléter les phrases suivantes :
  1. PLUS le niveau de confiance est fort, ....MOINS l'intervalle de confiance est petit.
  2. Vue comme un intervalle de confiance de largeur 0, une estimation peut donc être associé à un niveau de confiance ....$0\%$ .

(4) Un statisticien construit les intervalles à $95\%$ de confiance (via une formule d'obtention étudiée plus tard dans le cours ne faisant pas l'objet) et informe le candidat que les intervalles associés aux estimations $47\%$ et $52\%$ sont respectivement $[43.90655\%,50.09345\%]$ et $[48.90345\%,55.09655\%]$. Les élections effectuées, on évalue $p^{Max}=51.69\%$, qu'en pensez-vous ?
Réponse
Il semble qu'il soit difficile d'affirmer que le candidat sera élu.

(5) Si vous avez des difficultés à traduire ce que signifie le niveau de confiance d'un intervalle, comparez-le avec celui que vous accorderiez à une personne qui serait censée dire la vérité avec un niveau de confiance fixé à $95\%$. Dans le cas de cette personne, comment traduiriez-vous (ou expliqueriez-vous) le concept de niveau de confiance ?
Réponse
Parmi toutes les assertions énoncées par cette personne (dont on peut vérifier la véracité ou fiabilité), $95\%$ (en moyenne) seraient censées être justes ou fiables.
Cet exemple nous aide à appréhender la notion de niveau de confiance ou plus généralement de probabilité d'un événement en l'exprimant comme la proportion parmi toutes (en théorie, on peut imaginer en faire une infinité) réalisations de l'expérience (a priori supposée aléatoire) qui conduisent à ce que l'événement soit vérifié. Ceci nous conduit naturellement vers la notion d'Approche Expérimentale des Probabilités qui sera présentée dans la fiche de Td suivante en complément de l'Approche Mathématique des Probabilités (qui est classiquement présentée dans les cours de Probabilités et Statistique).

Exercice 5 : Outil d'aide à la décision pour la problématique de l'industriel

Pour achever cette présentation des outils proposés dans ce cours cette année, proposons la mise en pratique de l'outil d'aide à la décision pour la problématique de l'industriel. Mettons-nous dans la peau de l'industriel, nous sommes le jour J et les jeux de données ${\mathbf{ y^A }}$ et ${\mathbf{ y^B }}$ ont été collectés et on obtient :
R> c(length(yA),length(yB))
[1] 1000 1000
R> mean(yA)
[1] 0.204
R> c(mean(yB),sd(yB))
[1] 0.1720000 0.5610087


(1) Êtes-vous en mesure avec ces informations de prendre votre décision quant aux lancements des produits A et B ?
Réponse
Les estimations sont bien supérieures au seuil de rentabilité $0.15$. Pour autant, elles ne sont obtenues que sur des échantiilons, ici de taille $n=1000$. Bien que ces échantillons soient plutôt de grande taille, ils restent de tailles relativement petites devant celle de la population des acheteurs potentiels N=2000000. En l'état, il est alors difficile de prendre une décision n'ayant pas véritablement de notion des risques encourus.

(2) L'industriel demande alors conseil à un expert en statisque inférentielle (que vous deviendrez en suivant ce cours si vous le souhaitez). Ce dernier, en utilisant son logiciel préféré R, lui propose les calculs en R des p-valeurs (dont on ne cherchera pas à en comprendre le sens car ces formules ne seront compréhensibles que dans 2 ou 3 cours) :
R> # p-valeur pour le produit A
R> 1-pnorm((mean(yA)-0.15)/sqrt((0.15*0.85)/length(yA)))
[1] 8.66416e-07
R> # p-valeur pour le produit B
R> 1-pnorm((mean(yB)-0.15)/seMean(yB))
[1] 0.1074711

et lui dit que la valeur d'une p-valeur (à convertir de préférence en pourcentage) nous fournit le risque de se tromper au vu du jeu de donnée s'il décide de lancer le produit sur le marché.
Êtes-vous maintenant en mesure avec ces informations de prendre votre décision quant aux lancements des produits A et B ?
Réponse
Les p-valeurs nous fornissent la notion de risques encourus que nous ne disposions pas à la question précédente. Il est alors direct de prendre sa décision quant aux lancements des produits A et B en définissant ce qui est un risque raisonnablement faible. Ici, c'est l'industriel qui prend véritablement le risque (ici de devenir pauvre comme on le verra en poursuivant le cours). Soulignons toutefois qu'en général, le risque encouru est pris par tout le monde et dans ce cas on s'entend sur un consensus stipulant qu'un risque raisonnable est égal à 5% (voire 1% ou 1O% selon la dangerosité/importance du contexte). Comme vous êtes à la place de l'industriel, libre à vous de prendre la décision selon votre votre ressenti de ce qu'est un risque raisonnablement petit.