Introduction à la théorie des sondages - Cours 2

Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Introduction `a la th´eorie des sondages Cours 2
Antoine Rebecq
antoine.rebecq@insee.fr
INSEE, direction de la m´
ethodologie
17 mars 2015
1 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Sommaire I
1
Correction du QCM
2
Strat´egie d’estimation
L’estimateur de Horvitz-Thompson pour un total ou une
moyenne
L’estimateur de H´ajek
Recherche d’un estimateur optimal
3
Sondage al´eatoire simple
D´efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation sur un domaine
Estimation d’un ratio
2 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Sommaire II
´
Echantillonnage
dans le temps
Conclusion sur le SAS
3 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Chapitre 1
Correction du QCM
4 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Rappel sur les πk
πk = P(k ∈ S) = P(δk = 1) =
X
p(s)
s3k
πkl = P(k, l ∈ S) = P(δk δl = 1) =
X
p(s)
s3k,l
(o`
u δk est l’indicatrice d’appartenance de k `a S, appel´ee aussi
variable de Cornfield)
5 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Rappel sur les estimateurs pond´er´es
Estimateur pond´er´e :
ˆ=
Φ
X
wk yk
k∈s
Estimateur pond´er´e de la moyenne :
X
ˆ= 1
Φ
wk yk
N
k∈s
6 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Chapitre 2
Strat´egie d’estimation
7 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Plan de sondage sans remise - d´efinition
On note S l’ensemble des parties de U.
Le plan de sondage p est une loi de probabilit´e sur S tel que :
∀s ∈ S, p(s) ≥ 0
X
p(s) = 1
s∈S
8 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Exemple
Soit U = {1, 2, 3}. On a alors :
S = {{1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}
On peut d´efinir un plan de sondage p par :
p({1}) = 0
p({1, 2}) =
1
2
p({2}) = 0
p({1, 3}) =
1
3
p({3}) = 0
p({2, 3}) =
1
6
p({1, 2, 3}) = 0
9 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Exemple d’estimation
Avec ce plan de sondage, on tente d’estimer le revenu moyen `a
l’aide de la moyenne dans l’´echantillon (estimation plugin). Le
revenu dans la population est :
Y1 = 1000
Y2 = 2000
Y3 = 3000
On a donc :
Y¯ = 2000
10 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Exemple d’estimation
ˆ :
Loi de l’estimateur Φ
1
ˆ 1 = 1000 + 2000 = 1500 , probabilit´
Φ
e
2
2
1000
+
3000
1
ˆ2 =
Φ
= 2000 , probabilit´
e
2
3
2000
+
3000
1
ˆ3 =
Φ
= 2500 , probabilit´
e
2
6
11 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Exemple d’estimation
L’esp´erance de l’estimateur est donc :
1
1
1
· 1500 + · 2000 + · 2500
2
3
6
≈ 1833
6= Y¯ = 2000
ˆ =
E[Φ]
ˆ est donc biais´e (ce n’est pas une surprise !)
Φ
12 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Esp´erance
ˆ =
E(Φ)
X
ˆ
p(s) · Φ(s)
s
ˆ obtenue avec le plan de sondage
C’est la valeur moyenne de Φ
consid´er´e sur tous les ´
echantillons possibles.
13 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Partie 1
L’estimateur de Horvitz-Thompson pour un total ou une
moyenne
14 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
D´efinition
D´efinition
L’estimateur d’Horvitz-Thompson (ou π-estimateur) est d´efini :
pour un total : Tˆy π =
pour une moyenne : yˆ
¯π =
X yk
πk
k∈s
1 X yk
N
k∈s
πk
C’est donc un estimateur pond´
er´
e utilisant les poids wk =
1
πk
15 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Estimation sans biais
Th´eor`eme
Si ∀k ∈ U, πk > 0, alors l’estimateur d’Horvitz-Thompson est sans
biais pour le total et la moyenne.
16 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Estimation sans biais
D´emonstration.
"
#
X yk
E[Tˆy π ] = E
πk
k∈s
"
#
X yk δk
=E
πk
k∈U
X yk E[δk ]
=
πk
k∈U
X
=
yk
k∈U
= T (y )
17 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Exemple
On reprend le plan de la slide 9. Le plan est de taille fixe 2 et :
5
6
2
π2 =
3
1
π3 =
2
π1 =
18 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Exemple
La loi de l’estimateur d’Horvitz-Thompson ΦHT est donc :
3
1
6
ΦˆHT 1 = · 1000 + · 2000 = 4200 , probabilit´
e
5
2
2
6
1
ˆ
ΦHT 2 = · 1000 + 2 · 3000 = 7200 , probabilit´
e
5
3
3
1
ΦˆHT 3 = · 2000 + 2 · 3000 = 9000 , probabilit´
e
2
6
19 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Exemple d’estimation
L’esp´erance de l’estimateur est donc :
1
1
1
· 4200 + · 7200 + · 9000
2
3
6
= 6000 = Y
E[ΦˆHT ] =
Et :
1
· ΦˆHT
3
= 2000 = Y¯
¯HT ] =
E[Yˆ
... ce qui permet de v´erifier que ΦˆHT est sans biais.
20 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Variance de l’estimateur de Horvitz-Thompson
Propri´et´e
La variance de l’estimateur de Horvitz-Thompson s’´ecrit :
ˆ yπ ] =
Var[T
X X yk yl
∆kl
πk πl
k∈U l∈U
(o`
u : ∆kl = πkl − πk πl )
21 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Variance de l’estimateur de Horvitz-Thompson
D´emonstration.
Var(ˆtyπ ) = Var(
X yk
δk )
πk
k∈U
X y2
X X yk yl
k
=
Var(δ
)
+
Cov(δk , δl )
k
πk πl
πk2
k∈U
k∈U l∈U,l6=k
X y2
X X yk yl
k
=
π
·
(1
−
π
)
+
(πkl − πk πl )
k
k
πk πl
π2
k∈U k
k∈U l∈U,l6=k
X yk yl
=
∆kl
πk πl
k,l∈U
22 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Variance pour un plan de taille fixe
Propri´et´e
Si le plan de sondage est de taille fixe (formule de Yates-Grundy) :
1
Var(ˆtyπ ) = −
2
X X
k∈U l∈U,l6=k
(
yk
yl
− )2 ∆kl
πk πl
23 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Variance de l’estimateur de Horvitz-Thompson
D´emonstration.
D´ecoule de la formule de Horwitz-Thompson quand le plan de sondage est de
taille fixe. Pour d´emontrer la formule, il vaut mieux proc´eder `
a rebours :
−
yl
1 X X yk
(
− )2 ∆kl
2
πk
πl
k∈U l∈U,l6=k
1 X X yk
yl
=
(
− )2 (πk πl − πkl )
2
πk
πl
k∈U l∈U,l6=k
=
1 X X yk2
y2
yk yl
( 2 + l2 − 2
)(πk πl − πkl )
2
πk πl
π
π
k
l
k∈U l∈U,l6=k
=
X X y2
X X
πkl
k
(πk πl − πkl ) −
yk yl (1 −
)
2
π
π
k πl
k∈U l∈U,l6=k k
k∈U l∈U,l6=k
=
X y2 X
X X
1 yk2
πkl
k
(
πl −
πkl ) −
yk yl (1 −
)
πk
πk πk
πk πl
k∈U
l∈U,l6=k
k∈U l∈U,l6=k
24 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Variance de l’estimateur de Horvitz-Thompson
D´emonstration.
···
P
Or, d’apr`es le cours 1, on a dans le cas taille fixe : k∈U πk = n et
P
l∈U,l6=k πkl = πk (n − 1), cela donne :
−
1 X X yk
yl
(
− )2 ∆kl
2
πk
πl
k∈U l∈U,l6=k
X X
X y2
πk (n − 1)
πkl
k
=
(n − πk −
)−
yk yl (1 −
)
πk
πk
πk πl
k∈U
k∈U l∈U,l6=k
X y2
X X yk yl
k
=
π (1 − πk ) −
(πk πl − πkl )
2 k
πk πl
π
k∈U k
k∈U l∈U,l6=k
X yk yl
=
∆kl
πk πl
k,l∈U
Et on retombe bien sur la formule d’Horvitz-Thompson.
25 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Exercice
Exercice : calculer la variance de l’estimateur d’Horvitz-Thompson
dans le cas de la slide 9, et v´erifier les formules de Yates-Grundy et
de Horvitz-Thompson dans ce cas.
26 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Estimation de variance
Les quantit´es pr´ec´edentes sont les vraies variances. On peut
utiliser les estimateurs suivants, qui sont sans biais d`es lors que
∀k, l, πkl > 0 :
ˆ tˆy π ) =
Var(
X X
X y2
yk yl
k
(1
−
π
)
−
(πk πl − πkl )
k
2
πk πl πkl
πk
k∈s l∈s,l6=k
k∈s
Pour un plan de taille fixe :
ˆ tˆy π ) = − 1
Var(
2
X X
k∈s l∈s,l6=k
(
yk
yl πk πl − πkl
− )2
πk
πl
πkl
27 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Construction d’un intervalle de confiance
ˆ
On fait l’hypoth`
ese : Φ(s)
∼ N (Φ, Var(Φ))
L’intervalle de confiance `a 95% est d´efini par :
h
i
ˆ − 2σ(Φ);
ˆ Φ
ˆ + 2σ(Φ)
ˆ
IC95% = Φ
L’intervalle de confiance estim´
e est d´efini par :
h
i
ˆ 95% = Φ
ˆ − 2ˆ
ˆ Φ
ˆ + 2ˆ
ˆ
IC
σ (Φ);
σ (Φ)
28 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Remarque
Remarque : si le plan de sondage ne v´erifie pas :
∀k 6= l ∈ U, πkl − πk πl ≥ 0
(condition de Sen-Yates-Grundy), ces estimateurs de variance
peuvent prendre des valeurs n´egatives.
29 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Partie 2
L’estimateur de H´ajek
30 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
D´efinition
L’estimateur de Horvitz-Thompson de la moyenne n´ecessite la
connaissance de N, la taille de la population. On peut utiliser dans
ce cas l’estimateur :
X yk
πk
k∈s
yˆ
¯H = X
1
k∈s
πk
31 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Propri´et´e
L’estimateur de H´ajek est biais´e, mais en g´en´eral, le biais est
n´egligeable.
32 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Estimateur de H´ajek du total
L’estimateur de H´ajek peut ˆetre utilis´e pour estimer un total :
X yk
πk
ˆ ) = N · k∈s
T (Y
X 1
H
πk
k∈s
... mais cela impose de connaˆıtre N.
33 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Partie 3
Recherche d’un estimateur optimal
34 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Estimateur de Horvitz-Thompson
L’estimateur de Horvitz-Thompson constitue le fondement de
l’estimation par sondage (mˆeme si d’autres estimateurs peuvent
ˆetre utilis´es, la logique de construction d´ecoule souvent de celle de
Horvitz-Thompson, voir cours suivants)
35 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Estimateur de Horvitz-Thompson
L’estimateur de Horvitz-Thompson n’est pas le seul estimateur
sans biais.
36 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Recherche d’optimalit´e
Existe-t-il un estimateur optimal en sondages ?
Question centrale pour les th´eoriciens des sondages dans les ann´ees
1950 `a 1970 : Godambe, Hanurav, Basu, etc.
37 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Recherche d’optimalit´e
Th´eor`eme (Godambe, 1955)
Dans la classe des estimateurs sans biais, pour un plan sans remise
avec n < N tel que ∀k ∈ U, πk > 0, il n’existe pas d’estimateur
optimal de y¯
38 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Recherche d’optimalit´e
D´emonstration.
Si les ∀k ∈ U , πk > 0, alors il existe toujours au moins un estimateur sans
biais : l’estimateur d’Horvitz-Thompson. Mais on peut ´egalement d´efinir :
yˆ
¯2 = yˆ
¯π + x¯ − xˆ
¯π
, o`
u x est un total suppos´e connu sur la population. yˆ
¯2 est la somme
d’estimateurs sans biais, il est donc ´egalement sans biais. De plus, si
∀k, xk = yk , alors :
EQM(yˆ
¯2 ) = EQM(¯
x) = 0
Ainsi, un estimateur optimal doit avoir une variance inf´erieure ou ´egale `
a 0, ce
qui n’est possible que par recensement.
39 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Admissibilit´e
D´efinition (Admissibilit´e)
ˆ est dit admissible si et
Pour un plan donn´e p, un estimateur Φ
ˆ pour toute
seulement s’il n’existe pas d’estimateur meilleur que Φ
valeur de y
40 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Admissibilit´e
D´ecoule sur des r´esultats assez pauvres : beaucoup d’estimateurs
sont admissibles (Horvitz-Thomspon, diff´erence, etc.)
41 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Admissibilit´e
D´efinition (Hyperadmissibilit´e)
Un estimateur est dit hyperadmissible s’il est admissible pour
tout domaine non-vide de U
42 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Admissibilit´e
L’estimateur d’Horvitz-Thompson est le seul estimateur sans biais
hyperadmissible.
Mais ce r´esultat n’est pas si int´eressant en soi ! (voir ´el´ephants de
Basu)
43 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
L’estimateur de Horvitz-Thompson pour un total ou une moyenne
L’estimateur de H´
ajek
Recherche d’un estimateur optimal
Estimation sans biais
L’estimation par un estimateur sans biais est un choix, qui peut
parfois ne pas ˆetre judicieux.
Lien int´eressant `a ce sujet :
http://www.johndcook.com/blog/bias_consistency/
44 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Chapitre 3
Sondage al´eatoire simple
45 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Partie 1
D´efinitions
46 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
D´efinition
Sondage al´eatoire simple sans remise (SAS) de taille n : plan de
sondage sans remise de taille fixe n tel que tous les ´echantillons de
taille n ont la mˆeme probabilit´e d’ˆetre tir´es. Cette probabilit´e vaut :
p(s) =
1
n
N
si |s| = n
=0
On note le taux de sondage : f =
sinon.
n
N
47 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Probabilit´es d’inclusion
n
=f
N
n(n − 1)
= P(k ∧ l ∈ s) =
N(N − 1)
∀k ∈ U, πk = P(k ∈ s) =
∀k 6= l ∈ U, πk,l
48 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Notations
On note, dans la population :
Total : T (Y ) =
X
Yk
k∈U
1X
Moyenne : Y¯ =
Yk
N
k∈U
2
1 X
Variance : S 2 =
Yk − Y¯
N −1
k∈U
49 / 95
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Notations
On note, dans l’´
echantillon s :
Total : n¯
y=
X
yk
k∈s
Moyenne : y¯ =
Variance : s 2 =
1X
yk
n
k∈s
1 X
n−1
(yk − y¯)2
k∈s
50 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Partie 2
Estimation
51 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimateur d’Horvitz-Thompson
L’estimateur d’Horvitz-Thompson pour le total et la moyenne
s’´ecrit :
X 1
NX
yk =
yk = N y¯
πk
n
k∈s
k∈s
1X 1
Yˆ¯ =
yk = y¯
N
πk
ˆ )=
T (Y
k∈s
52 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Poids de sondage
Les poids pour l’estimation par Horvitz-Thompson sont :
wk =
1
N
=
πk
n
N
On peut dire que l’individu k “repr´esente” wk =
individus de la
n
population U.
Attention, wk n’est pas un effectif (en particulier, wk n’est pas
forc´ement entier !)
53 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Pr´ecision
Th´eor`eme
En utilisant la formule de Yates-Grundy, la vraie variance des
estimateurs d’Horvitz-Thompson s’´ecrit :
Var(¯
y) = (1 − f )
S2
n
2
S
ˆ
Var(T(Y))
= N 2 (1 − f )
n
54 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Pr´ecision
D´emonstration.
1
ˆ
Var[T(Y)]
N2
yk
yl 2
−1 X X
−
=
∆kl
2N 2 k∈U l∈U ,l6=k πk
πl
1 X X
yk N
yl N 2 n(N − n)
=
−
2N 2 k∈U l∈U ,l6=k
n
n
N 2 (N − 1)
ˆ
¯ =
Var[Y]
=
X X
1
N −n
(yk − yl )2
nN 2N(N − 1) k∈U l∈U ,l6=k
N −n 2
S
nN
S2
= (1 − f )
n
=
55 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation de la pr´ecision
Th´eor`eme
La variance empirique (ou dispersion) dans l’´echantillon
1 X
s2 =
(yk − y¯)2 est un estimateur sans biais de
n−1
k∈s
2
1 X
2
S =
Yk − Y¯
N −1
k∈U
56 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation de la pr´ecision
D´emonstration.

2
E[s ] = E 

= E

1 X
2
(yk − y¯)
n − 1 k∈s

X X
1
2
(yk − yl )
2n(n − 1) k∈s l∈s,l6=k
=
X X
1
(yk − yl )2 E(δk δl )
2n(n − 1) k∈U l∈U ,l6=k
=
X X
1
n(n − 1)
(yk − yl )2
2n(n − 1) k∈U l∈U ,l6=k
N(N − 1)
=
X X
1
(yk − yl )2
2N(N − 1) k∈U l∈U ,l6=k
= S2
57 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation de la pr´ecision
On peut estimer sans biais la variance de l’estimateur
d’Horvitz-Thompson par :
2
ˆ y ) = (1 − f ) s
Var(¯
n
2
ˆ )) = N 2 (1 − f ) s
ˆ T (Y
Var(
n
58 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Partie 3
Estimation d’une proportion
59 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation d’une proportion
On cherche `a estimer P la proportion d’individus portant une
caract´eristique dans la population U.
p, la proportion dans s d’individus portant la caract´eristique, est
un estimateur sans biais de P.
60 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Variance
N P(1 − P)
N −1
n
p(1
−
p)
ˆ
Var(p)
= (1 − f )
n−1
Var(p) = (1 − f )
61 / 95
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Pr´ecision
Demi-longueur de l’intervalle de confiance :
r
L=2
p(1 − p)
n−1
Coefficient de variation estim´e :
ˆ (p) =
CV
q
ˆ
Var(p)
p
s
=
(1 − f )
1 1−p
n−1 p
62 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Taille pour une pr´ecision absolue donn´ee
On fixe L (“pr´ecision absolue”). Si f ≈ 0, on a :
n≈
4p(1 − p)
L2
Cas g´en´eral (f pas forc´ement petit, et niveau de confiance z,
α
quantile d’ordre 1 − de la loi N (0, 1)) :
2
1 + n0
n0
1+
N
z 2 p(1 − p)
avec : n0 =
L2
n=
63 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Taille pour une pr´ecision relative donn´ee
On se fixe une pr´ecision relative δ, d´efinie par le rapport de la
demi-longueur de l’intervalle de confiance `a l’estimation :
δ=
2ˆ
σ
p
64 / 95
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Taille pour une pr´ecision relative donn´ee
De mani`ere ´equivalente, on peut fixer le coefficient de variation :
ˆ (p) = δ =
CV
2
s
(1 − f )
1−p
p(n − 1)
Si f ≈ 0 :
n≈
1−p
ˆ (p))2
p(CV
65 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Taille pour une pr´ecision relative donn´ee
Taille de l’´echantillon pour une pr´ecision relative de ±δ% selon la
valeur de la proportion recherch´ee :
1%
2%
3%
4%
5%
10 %
0,05
760000
190000
84444
47500
30400
7600
0,10
360000
90000
40000
22500
14400
3600
0,20
160000
40000
17778
10000
6400
1600
0,30
93333
23333
10370
5833
3733
933
0,40
60000
15000
6667
3750
2400
600
0,50
40000
10000
4444
2500
1600
400
66 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Exercice : surface cultiv´ee
Exemple d’application : la l´egislation sur la m´ethode des quotas, en
France.
http://www.commission-des-sondages.fr/oblig/
instituts.htm
http://www.ipsos.fr/faq
http://www.20minutes.fr/politique/
1567767-20150320-elections-departementales-ump-udi-30-
67 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Partie 4
Exercice
68 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Exercice : surface cultiv´ee
On veut estimer la surface moyenne cultiv´ee dans les fermes d’un
canton rural. Sur N = 2010 fermes que comprend ce canton, on en
tire 100 par sondage al´eatoire simple. On mesure yk la surface
cultiv´ee dans la ferme k (en hectares), et on trouve :
X
yk = 2907 ha
k∈s
X
yk2 = 154593 ha2
k∈s
1
Donner un estimateur sans biais pour la moyenne
2
Donner un intervalle de confiance `a 95% pour cet estimateur
69 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Partie 5
Autres estimations
70 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Paragraphe 1
Estimation sur un domaine
71 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Notations
Ud ⊂ U = sous-population d’int´erˆet
Nd = taille de Ud (connue ou inconnue)
Nd
= taille relative de Ud
Pd =
N
Qd = 1 − Pd
sd = s ∩ U d
nd = taille de sd
nd
pd =
= taille relative de sd
n
qd = 1 − pd
72 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation de la taille d’un domaine
On d´efinit sur U la variable Z indicatrice d’appartenance au
domaine :
Zk = 1 si k ∈ Ud
Zk = 0 sinon
73 / 95
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
Estimation de la taille d’un domaine
Alors :
T (Z ) =
X
Zk = N d
k∈U
Nd
= Pd
Z¯ =
N
1X
z¯ =
z k = pd
n
k∈s
N
Pd Qd
N −1
n
s2 =
pd qd
n−1
S2 =
74 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation de la taille d’un domaine
Th´eor`eme
nd
Nˆd = N · pd = N ·
est un estimateur sans biais de Nd
n
Pˆd = pd est un estimateur sans biais de Pd
75 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation de la taille d’un domaine
D´emonstration.
Toutes ces quantit´es s’´ecrivent sous la forme d’un total (via Z ) et
correspondent `a l’estimateur d’Horvitz-Thompson, qui est sans
biais.
76 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation de la taille d’un domaine
On a aussi :
N Pd Qd
Var(Nˆd ) = N 2 (1 − f )
N −1 n
N Pd Qd
Var(Pˆd ) = Var(pd ) = (1 − f)
N−1 n
ˆ Nˆd ) = N 2 (1 − f ) pd qd
Var(
n−1
ˆ Pˆd ) = Var(p
ˆ d ) = (1 − f ) pd qd
Var(
n−1
77 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation d’un total sur un domaine
On veut estimer le total TUd (Y ) d’une variable Y sur le domaine
Ud . On d´efinit sur U la variable Y d par :
Ykd = Yk si k ∈ Ud
Ykd = 0 sinon
Alors le total `a estimer s’´ecrit :
X
X
T (Y d ) =
Ykd =
Yk = TUd (Y )
k∈U
k∈Ud
78 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation d’un total sur un domaine
Un estimateur sans biais de TUd (Y ) est :
nd
TˆUd (Y ) =
N y¯d
n
1 X
o`
u : y¯d =
yk
nd
k∈sd
79 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation d’un total sur un domaine
Et pour ce qui est de la pr´ecision :
ˆ U (Y)) = N 2 (1 − f )
Var(T
d
SY2 d
1 X
avec SY2 d =
(Ykd − Y¯d )2
n
N −1
k∈U
ˆ TˆU (Y )) = N 2 (1 − f )
Var(
d
sY2 d
n
avec sY2 d
1 X d
=
(yk − y¯d )2
n−1
k∈s
avec :
Y¯d = moyenne de Y d sur U
y¯d = moyenne de Y d sur s
80 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation d’un total sur un domaine
Remarque sur la pr´ecision : Si on pose :
1 X
Y¯d =
Yk = moyenne de Y sur Ud
Nd
k∈Ud
X
1
S¯d2 =
(Yk − Y¯d )2 = dispersion de Y sur Ud
Nd − 1
k∈Ud
alors on a :
ˆ U (Y)) ∼ N2
Var(T
d
d
1
1
−
E(nd ) Nd
"
1
Nd
− N1
1−
1
N − Nd ¯ 2
S2d +
Yd
N−1
#
C’est donc la taille (attendue) de l’´echantillon dans le domaine qui
est d´eterminante et non n.
81 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimateur alternatif pour le total
Si on connaˆıt la taille du domaine Nd , un autre estimateur
“naturel” de TUd (Y ) est :
TˆUaltd (Y ) = Nd y¯d
C’est-`a-dire que l’on remplace un estimateur sans biais de Nd :
nd
Nˆd =
N par Nd . En g´en´eral, TˆUaltd (Y ) est pr´ef´erable `a TˆUd (Y ).
n
82 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation de la moyenne sur un domaine
TUd (Y )
On veut estimer : Y¯d =
. On peut utiliser :
Nd
TˆUd (Y )
Yˆ¯d =
si on connaˆıt Nd
Nd
TˆUaltd (Y )
= y¯d que l’on connaisse Nd ou non !
Yˆ¯dalt =
Nd
Ce dernier estimateur est assez intuitif (plugin !), et est en g´en´eral
meilleur que le premier.
83 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Paragraphe 2
Estimation d’un ratio
84 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation d’un ratio
On cherche `a estimer le rapport des totaux (ou des moyennes) de
deux variables X et Y :
R=
X¯
T (X )
= ¯
T (Y )
Y
Attention ! L’estimateur d’Horvitz-Thompson est sans biais quand
on estime un total ou une moyenne.
85 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Estimation d’un ratio
On peut utiliser l’estimateur :
ˆ
ˆ )
¯
T (X
X
x¯
Rˆ =
=
=
ˆ
ˆ
y¯
T (Y )
Y¯
Son biais s’´ecrit :
2
ˆ ≈ − 1 (1 − f ) SXY − RSX
B(R)
n
X¯ 2
1 X
o`
u : SXY =
(yk − y¯)(xk − x¯)
N −1
k∈U
86 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Pr´ecision de l’estimateur du ratio
Son ´ecart quadratique moyen et l’EQM estim´e s’´ecrivent :
1−f 2
(S + R 2 SX2 − 2RSXY )
nX¯ 2 Y
ˆ R)
ˆ = 1 − f (s 2 + Rˆ 2 s 2 − 2Rs
ˆ XY )
EQM(
X
n¯
x2 Y
ˆ =
EQM(R)
87 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Paragraphe 3
´
Echantillonnage
dans le temps
88 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Probl`eme
On veut estimer l’´evolution de la moyenne d’une variable Y entre
deux dates 1 et 2 : ∆Y = Y¯1 − Y¯2
89 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
M´ethode 1
M´
ethode 1 : On tire deux ´echantillons ind´ependants aux dates 1
et 2, selon un sondage al´eatoire simple.
ˆ = y¯2 − y¯1 un estimateur sans biais de ∆Y , de
On a alors : ∆Y
variance :
ˆ = Var(y¯1 ) + Var(y¯2 )
Var(∆Y)
90 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
M´ethode 2 : panel
M´
ethode 2 : On utilise un panel, c’est-`a-dire que l’on tire un
´echantillon en date 1, et on le r´einterroge `a la date 2. On a alors :
ˆ = y¯2 − y¯1 un estimateur sans biais de ∆Y , de variance :
∆Y
ˆ = Var(y¯1 ) + Var(y¯2 ) − 2Cov(y¯1 , y¯2 )
Var(∆Y)
S12
o`
u : Cov(y¯1 , y¯2 ) = (1 − f )
n
1 X
et : S12 =
(Y1k − Y¯1 )(Y2k − Y¯2 )
N −1
k∈U
91 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
M´ethode 2 : panel
Dans les bons cas, on a : S12 > 0, d’o`
u:
ˆ < Var(y¯1 ) + Var(y¯2 )
Var(∆Y)
92 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Exemple : enquˆete emploi `a l’INSEE
Ann´ee
n
n+1
Trimestre
T1
T2
T3
T4
T1
T2
T3
T4
6
→7
8
9
10
11
12
13
5
6
7
8
9
10
11
12
Sous-´echantillons
4
3
5
4
6
5
7
6
8
7
9
8
10
9
11
10
2
3
4
5
6
7
8
9
1→
2
3
4
5
6
7
8
93 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Paragraphe 4
Conclusion sur le SAS
94 / 95
Correction du QCM
Strat´
egie d’estimation
Sondage al´
eatoire simple
D´
efinitions
Estimation
Estimation d’une proportion
Exercice
Autres estimations
Conclusion sur le SAS
Les estimateurs ont une forme simple
Ne n´ecesssite aucune information sur les individus de la base
de sondage
Est essentiel pour comprendre les plans de sondage plus
complexes
Peut permettre d’approximer les plans de sondage plus
complexes
95 / 95