STATISTIQUES DESCRIPTIVES - PROPOSITION DE CORRIGÉ OLIVIER COLLIER Exercice 1 Partie A : Statistique descriptive. (1) La population est constituée de 4 912 vaches, dont le caractère étudié est la quantité de lait, en gallon par semaine. Il s’agit d’un caractère quantitatif. (2) (3) La moyenne x ¯ est donnée par 1 · (123 × 10 + 726 × 14 + 1636 × 17 + 1530 × 20 + 821 × 24 + 76 × 30) x ¯= 4912 ≈ 18, 69 à 10−2 près, et l’écart-type est donné par 1 s2 = · 123 × (10 − x ¯)2 + 726 × (14 − x ¯)2 + 1636 × (17 − x ¯ )2 4912 + 1530 × (20 − x ¯)2 + 821 × (24 − x ¯)2 + 76 × (30 − x ¯)2 , d’où s ≈ 3, 65 à 10−2 près. (4) (a) Le premier quartile correspond à la 1 228ième vache, donc à l’intervalle de production [15, 5 18, 5[, qui lui correspond concerne les vaches de la 848ième à la 2 485ième . Par interpolation linéaire, on en déduit que la 1 228ième vache produit la quantité de lait 18, 5 − 15, 5 Q1 = 15, 5 + · (1228 − 849) ≈ 16, 19 gallons de lait par semaine, à 10−2 près. 2485 − 849 (b) Ce diagramme indique que la production de lait est fortement concentrée autour de la médiane. Exercice 2 (1) Il y avait 103 élèves dans la filière A. La médiane est donc la note du 52ième élève. Par 6 interpolation linéaire, on trouve 52 × 53 ≈ 5, 887. De même, la médiane pour la filière B 4 est 6 + 1 × 30 ≈ 6, 133. L’écart entre la médiane et la note moyenne est plus important pour la filière A, qui est donc plus hétérogène. (2) En notant respectivement m, mA et mB les moyennes globale, dans la filière A et dans la filière B, on a 103 97 m= mA + mB ≈ 6, 880. 103 + 97 103 + 97 1 2 OLIVIER COLLIER (a) En notant respectivement VA et VB les variances dans la filière A et B, la moyenne des variances conditionnelles est 103 97 Vα = VA + VB ≈ 20, 774. 103 + 97 103 + 97 (b) Si Vα = 0, alors VA = VB = 0, donc les données sont constantes au sein de chaque filière. (c) La variance des moyennes conditionnelles est 103 97 Vs = (mA − m)2 + (mB −m )2 ≈ 0, 041. 103 + 97 103 + 97 (d) Quand Vs = 0, les moyennes conditionnelles sont identiques. (3) La variance est égale à la somme Vα + Vs ≈ 20, 815. (4) La moyenne augmentera d’un point, mais la variance restera identique. (5) (a) Un test d’hypothèse est une démarche consistant à rejeter ou à ne pas rejeter (rarement accepter) une hypothèse statistique, appelée hypothèse nulle, en fonction d’un jeu de données, ou échantillon (cf. Wikipédia). (b) Comme 0, 40 < 3, 84, on accepte l’hypothèse d’égalité des moyennes au seuil d’erreur de 5%. Exercice 3 (1) Le salaire moyen m des employés est donné par 1 (300 × 1250 + 55 × 1750 + 35 × 2750 + 10 × 4000) = 1518, 75 (euros). m= 400 (2) L’écart-type s de la série est donné par i 1 h 300 × (1250 − m)2 + 55 ∗ (1750 − m)2 + 35 × (2750 − m)2 + 10 × (4000 − m)2 , s2 = 400 d’où s ≈ 589, 99 (euros, à un centime près). Le coefficient de variation est s/m ≈ 0, 39 (à 10−2 près). Le coefficient de variation est une mesure absolue de la dispersion de la série, tandis que l’écart-type dépend de la nature des données. (3) La médiane de la série est le 200ième salaire, il est donc dans la première tranche. Si on le note med, on a alors 1500 − 1000 med = 1000 + (200 − 0) ≈ 1 333e à 1 euro près. 300 − 0
© Copyright 2024