Statistique descriptive. (1)

STATISTIQUES DESCRIPTIVES - PROPOSITION DE CORRIGÉ
OLIVIER COLLIER
Exercice 1
Partie A : Statistique descriptive.
(1) La population est constituée de 4 912 vaches, dont le caractère étudié est la quantité de
lait, en gallon par semaine. Il s’agit d’un caractère quantitatif.
(2)
(3) La moyenne x
¯ est donnée par
1
· (123 × 10 + 726 × 14 + 1636 × 17 + 1530 × 20 + 821 × 24 + 76 × 30)
x
¯=
4912
≈ 18, 69 à 10−2 près,
et l’écart-type est donné par
1
s2 =
· 123 × (10 − x
¯)2 + 726 × (14 − x
¯)2 + 1636 × (17 − x
¯ )2
4912
+ 1530 × (20 − x
¯)2 + 821 × (24 − x
¯)2 + 76 × (30 − x
¯)2 ,
d’où s ≈ 3, 65 à 10−2 près.
(4) (a) Le premier quartile correspond à la 1 228ième vache, donc à l’intervalle de production
[15, 5 18, 5[, qui lui correspond concerne les vaches de la 848ième à la 2 485ième . Par
interpolation linéaire, on en déduit que la 1 228ième vache produit la quantité de lait
18, 5 − 15, 5
Q1 = 15, 5 +
· (1228 − 849) ≈ 16, 19 gallons de lait par semaine, à 10−2 près.
2485 − 849
(b) Ce diagramme indique que la production de lait est fortement concentrée autour de
la médiane.
Exercice 2
(1) Il y avait 103 élèves dans la filière A. La médiane est donc la note du 52ième élève. Par
6
interpolation linéaire, on trouve 52 × 53
≈ 5, 887. De même, la médiane pour la filière B
4
est 6 + 1 × 30 ≈ 6, 133. L’écart entre la médiane et la note moyenne est plus important
pour la filière A, qui est donc plus hétérogène.
(2) En notant respectivement m, mA et mB les moyennes globale, dans la filière A et dans la
filière B, on a
103
97
m=
mA +
mB ≈ 6, 880.
103 + 97
103 + 97
1
2
OLIVIER COLLIER
(a) En notant respectivement VA et VB les variances dans la filière A et B, la moyenne
des variances conditionnelles est
103
97
Vα =
VA +
VB ≈ 20, 774.
103 + 97
103 + 97
(b) Si Vα = 0, alors VA = VB = 0, donc les données sont constantes au sein de chaque
filière.
(c) La variance des moyennes conditionnelles est
103
97
Vs =
(mA − m)2 +
(mB −m )2 ≈ 0, 041.
103 + 97
103 + 97
(d) Quand Vs = 0, les moyennes conditionnelles sont identiques.
(3) La variance est égale à la somme Vα + Vs ≈ 20, 815.
(4) La moyenne augmentera d’un point, mais la variance restera identique.
(5) (a) Un test d’hypothèse est une démarche consistant à rejeter ou à ne pas rejeter (rarement
accepter) une hypothèse statistique, appelée hypothèse nulle, en fonction d’un jeu de
données, ou échantillon (cf. Wikipédia).
(b) Comme 0, 40 < 3, 84, on accepte l’hypothèse d’égalité des moyennes au seuil d’erreur
de 5%.
Exercice 3
(1) Le salaire moyen m des employés est donné par
1
(300 × 1250 + 55 × 1750 + 35 × 2750 + 10 × 4000) = 1518, 75 (euros).
m=
400
(2) L’écart-type s de la série est donné par
i
1 h
300 × (1250 − m)2 + 55 ∗ (1750 − m)2 + 35 × (2750 − m)2 + 10 × (4000 − m)2 ,
s2 =
400
d’où s ≈ 589, 99 (euros, à un centime près). Le coefficient de variation est s/m ≈ 0, 39 (à
10−2 près). Le coefficient de variation est une mesure absolue de la dispersion de la série,
tandis que l’écart-type dépend de la nature des données.
(3) La médiane de la série est le 200ième salaire, il est donc dans la première tranche. Si on le
note med, on a alors
1500 − 1000
med = 1000 +
(200 − 0) ≈ 1 333e à 1 euro près.
300 − 0