STATISTIKA 1. OSNOVNI POJMI

1. OSNOVNI POJMI
Definicija 1:
Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov v
določenem prostoru in času.
STATISTIKA
Množičen pojav:
ocenjevanje dijakov
merjenje višin dijakov
branje knjig dijakov
smučanje v Sloveniji
merjenje krvnega tlaka
promet skozi določeno križišče
mesečne plače zaposlenih
serijska proizvodnja določenega izdelka
2
1
Osnovne naloge statistike:
zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje)
razvrščanje podatkov,
Definicija 2:
Populacija je množica, ki jo želimo statistično proučiti. Statistična enota
je en element populacije.
Populacijo lahko sestavljajo živa bitja, predmeti, dogodki.
urejanje in grafično prikazovanje podatkov,
povzemanje in sprejemanje zaključkev (odkrivanje lastnosti in
zakonitosti populacije in napovedovanje vrednosti).
Opredelitev populacije:
stvarno (kdo ali kaj spada v populacijo in kdo ne)
geografsko (kje je populacija opazovana)
časovno (kdaj je zajeta)
3
4
Definicija 3:
Vzorec je podmnožica (del) populacije. Vzorec je slučajen, če imajo vse
enote populacije enako možnost (enako verjetnost) biti izbrane v vzorec.
Slučajni vzorec predstavlja (reprezentira) celotno populacijo.
Enostavno slučajno vzorčenje: žrebanje (loterijski način)
vzorci s ponavljanjem (enota, ki je bila že izbrana v vzorec, je
ponovno izbrana),
vzorci brez ponavljanja (enota, ki je bila že izbrana v vzorec, ne more
biti ponovno izbrana).
Definicija 4:
Preučevano lastnost (značilnost) enote imenujemo statistična
spremenljivka. Vrednost statistične spremenljivke je lastnost ene
opazovane enote in jo imenujemo podatek.
PRIMER 1
Statistične spremenljivke: višina dijaka, ocena dijaka.
Definicija 5:
Parameter je statistična karakteristika populacije.
PRIMER 2
Parametri: povprečna višina dijakov, povprečna ocena dijakov.
Število enot populacije označimo z N.
6
5
Glede na način izražanja podatke ločimo na:
opisne (ali kvalitativne): vrednosti le opišemo z besedami in jih ne
moremo ovrednotiti numerično (npr. spol, kraj bivanja, barva
avtomobila),
vrstne (ali ordinalne): vrednosti lahko uredimo le po velikosti,
njihova razmerja pa nimajo pomena (npr. šolska ocena, doseženo
mesto na tekmi, zadovoljstvo z malico),
številske (ali kvantitativne): vrednosti izrazimo numerično oz.
številsko. Ločimo diskretne in zvezne številske podatke.
Nezvezne (ali diskretne): zaloga vrednosti končna ali neskončna
množica realnih števil (npr. število prometnih nesreč, št. prebranih
knjig, št. dijakov v razredu).
Zvezne: zavzamejo lahko vsako vrednost iz nekega intervala (npr.
višina ali teža dijaka, višina žepnine, cena knjig).
PRIMER 3
V tabeli so zbrani nekateri podatki o podnebju v Sloveniji v letu 2007:
Zap.št.
1.
2.
3.
4.
5.
6.
7.
8.
..
.
Kraj
Bilje
Bovec
Letal. J.P.LJ
Celje
Črnomelj
Ilirska Bistr.
Kočevje
Kredarica
..
.
Pov. temp. (◦ C)
13,4
10,7
10,1
11,2
12
10,8
9,7
-0,3
..
.
Vir: Statistični urad Republike Slovenije
7
8
Pov. vlaž. (%)
71
74
80
75
77
76
79
77
..
.
Št. dni z dežjem
129
...
113
130
142
...
143
77
..
.
Odgovorite na naslednja vprašanja:
1
Kaj je v tem primeru populacija? S katerimi pogoji je opredeljena
(stvarno, časovno, krajevno)?
2
Kaj je statistična enota?
3
Katere statistične spremenljivke so predstavljene v tabeli?
4
Kakšna je posamezna spremenljivka glede na način izražanja?
5
Katere parametre populacije bi lahko določili?
PRIMER 4
Izvedeti želimo, kakšno je mnenje dijakov na ŠC Novo mesto o malici v
šol. letu 2008/2009. Ker je število dijakov okoli 3000, ne moremo vprašati
vsakega, zato se odločimo, da bomo oblikovali vzorec velikosti 200 dijakov,
ki bo dobro predstavljal celo populacijo. Ali bi bil v ta namen ustrezen
vzorec, ki bi zajemal prvih 200 dijakov, ki pridejo v torek zjutraj v šolo?
9
10
2. UREJANJE PODATKOV
Kdo zbira podatke?
šole
bolnišnice
podjetja
..
.
Spoznali bomo:
SURS (uradna statistika)
ranžirno vrsto
EUROSTAT (evropska statistika)
grupiranje podatkov
EPICENTER, NINAMEDIA (javnomnenjske raziskave)
..
.
Programski paketi za obdelavo podatkov:
Excel, SPSS, SAS, Minitab, Mathlab, S-Plus, . . .
11
12
RANŽIRNA VRSTA
Ranžirno vrsto predstavljajo po velikosti urejeni številski podatki.
Uporabljamo jo za urejanje majhnega števila številskih podatkov.
Vsakemu podatku določimo zaporedno mesto v ranžirni vrsti, ki ga
imenujemo rang.
Enaki podatki stojijo v ranžirni vrsti skupaj in imajo enak rang.
Izračunamo ga kot povprečje rangov, ki bi jih podatki imeli, če bi bili
različni med seboj.
PRIMER 5
Število potnikov. Na avtobusu, ki vozi vsak dan ob delovnikih ob 14.45
iz Novega mesta v Ljubljano, so 12 dni zapored opazovali število potnikov.
Rezultati so
20, 38, 28, 35, 30, 40, 22, 32, 35, 32, 45, 35.
Zapišite podatke v ranžirno vrsto in jim določite rang.
Rešitev:
št. potnikov
rang
20
22
28
30
13
32
32
35
35
35
38
40
45
14
GRUPIRANJE PODATKOV
Grupiranje: združevanje podatkov v skupine (razrede):
PRIMER 6
Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mleka
so porabili v prejšnjem tednu. Zbrani podatki v litrih so:
najprej določimo skupne lastnosti enot v posameznih razredih (od 5
do 20 razredov),
1,1 1,7 1 0,5 0,9 2,1 2,3 2,3 2,6 3,1 3,7 3,9 3,1 2,5 3,3 3,3 3,9 3,8 4,1 4
4,3 4,4 4,4 5,1 5,9 5,3 5,2 5,7 4,7 4,3 4,2 4,3 4,7 4,2 7,1 7,2 7,5 7,5 7,6
6,3 6,2 6,1 6,9 8,1 8,2 8,5 9,3 9,2 9,1 9,8
vsaka enota mora biti v natanko enem razredu (ne sme se zgoditi, da
bi ista enota ustrezala lastnostim dveh razredov ali pa da za kakšno
enoto ne bi obstajal razred, v katerega bi jo uvrstili).
enote porazdelimo po razredih,
Ali so podatki dovolj pregledni, da lahko povemo kaj o porabi mleka?
15
16
I. Grupiranje številskih spremenljivk v r razredov:
Najmanjša vrednost, ki še sodi v i-ti razred: xi,min
Največja vrednost, ki še sodi v i-ti razred: xi,max
(Absolutna) frekvenca razreda fi : število enot v i-tem razredu
Frekvenčna tabela ali frekvenčna porazdelitev: predstavitev razredov in
pripadajočih frekvenc:
razred
1.
2.
..
.
vrednost spr.
x1,min − x1,max
x2,min − x2,max
fi
f1
f2
..
.
r.
Σ
xr ,min − xr ,max
/
fr
N
PRIMER 7
Poraba mleka - nadaljevanje. Zbrane podatke grupiraj in vsakemu
razredu določi frekvenco.
Frekvenčna porazdelitev številske spremenljivke
17
18
Kaj lahko izračunamo za grupirane podatke?
Relativna frekvenca fi ◦ : delež enot v i-tem razredu glede na število vseh
enot N, ki smo jih opazovali:
fi ◦ =
fi
N
Strukturni odstotek fi %: relativna frekvenca fi ◦ pomnožena s 100 %:
fi % = fi ◦ · 100 %
19
Kumulativna frekvenca Fi : število enot, ki imajo manjše vrednosti od
spodnje meje i-tega razreda:
F1 = 0 in Fi = Fi−1 + fi−1 (za i > 1)
Relativna kumulativna frekvenca Fi◦ : delež vseh opazovanih enot, ki
imajo manjše vrednosti od spodnje meje i-tega razreda:
Fi◦ =
20
Fi
N
Spodnja meja xi,s in zgornja meja xi,z razreda: zgornja meja razreda
i-tega razreda enaka spodnji meji (i + 1)-vega razreda:
Širina razreda di : razlika med zgornjo in spodnjo mejo razreda
di = xi,z − xi,s
xi,z = xi+1,s
Sredina razreda xi : aritmetična sredina spodnje in zgornje meje razreda:
Zvezna spremenljivka: xi,s = xi,min in xi,z = xi,max
Celoštevilska spremenljivka(dve zaporedni celi števili se razlikujeta za
1 - enotski razmik):
xi,s = xi,min − 0, 5
xi,z = xi,max + 0.5
21
poraba mleka v l
0−pod 2
2−pod 4
4−pod 6
6−pod 8
8−pod 10
/
xi,s + xi,z
2
Z grupiranjem enot v frekvenčne razrede dodelimo vsem enotam v i-tem
razredu isto vrednost xi , s čimer izgubimo nekaj natančnosti pri obdelavi
podatkov.
22
PRIMER 8
Poraba mleka - nadaljevanje. Za grupirane podatke iz primera o porabi
mleka izračunajte fi ◦ , fi %, Fi , Fi◦ , xi,s , xi,z , di , xi .
razred
1.
2.
3.
4.
5.
Σ
xi =
fi
5
13
16
9
7
50
PRIMER 9
Starost oseb. V okulistični ambulanti so včeraj pregledali 45 oseb.
Njihove starosti v letih so:
33 32 34 37 18 12 36 38 22 24 27 27 28 29 21 24 25 27 23 15 3 4 16 13
15 41 17 19 8 44 45 6 2 7 38 26 25 47 42 25 48 31 35 35 33
Podatke grupirajte v razrede, nato pa za vsak razred izračunajte
fi ◦ , fi %, Fi , Fi◦ , xi,s , xi,z , di , xi .
Excel: grupiranje: FREQUENCY, nato CTRL-SHIFT-ENTER
23
24
II. Grupiranje opisnih podatkov
Za vsak razred lahko določimo le relativno frekvenco in strukturni odstotek
vsakega razreda.
razred
1.
2.
..
.
lastnost spr.
lastnost 1
lastnost 2
fi
f1
f2
..
.
r.
Σ
lastnost r
/
fr
N
fi ◦
f1◦
f2◦
..
.
fr◦
1
fi %
f1 %
f2 %
..
.
fr %
100
Frekvenčna porazdelitev opisne spremenljivke
PRIMER 10
Potniki na vlaku. Na vlaku so želeli ugotoviti strukturo potnikov.
Razdelili so jih na dijake, študente, delavce, brezposelne in upokojence.
Zbrani podatki so:
dijak dijak dijak delavec brezposelen brezposelen brezposelen upokojenec
upokojenec dijak dijak dijak dijak dijak dijak dijak študent študent študent
študent delavec delavec delavec delavec dijak dijak dijak dijak dijak dijak
študent študent študent študent študent študent dijak dijak dijak dijak
dijak študent študent študent delavec delavec dijak dijak dijak dijak
delavec delavec delavec delavec delavec delavec brezposelen brezposelen
brezposelen študent študent študent delavec delavec delavec upokojenec
upokojenec brezposelen brezposelen študent študent študent upokojenec
upokojenec delavec upokojenec upokojenec študent študent študent
študent dijak dijak dijak dijak dijak upokojenec upokojenec upokojenec
upokojenec
Oblikujte frekvenčno porazdelitev podatkov, nato pa za vsak razred
izračunajte fi ◦ in fi %. Excel: COUNTIF (pogoj je posamezna kategorija)
25
3. GRAFIČNO PRIKAZOVANJE PODATKOV
18
16
14
12
10
8
6
4
2
0
Frekvenčni poligon je linijski poligon v pravokotnem koordinatnem
sistemu, ki povezuje točke, katerih abscise so enake sredinam frekvenčnih
razredov, ordinate pa frekvencam: (xi , fi ). Da grafikon povežemo z
abscisno osjo, dodamo še točki (x0 , 0) in (xr +1 , 0).
16
13
Št. družin
Št. družin
Histogram je prikaz grupiranih številskih podatkov v pravokotnem
koordinatnem sistemu s stolpci, kjer vsak stolpec ustreza enemu razredu.
Če so razredi enako široki, so višine stolpcev premosorazmerne s
frekvencami razredov.
26
9
7
5
18
16
14
12
10
8
6
4
2
0
16
13
9
7
5
0
-1
0-2
2-4
4-6
6-8
8 - 10
0
1
3
5
7
9
11
Poraba mleka v l
Poraba mleka v l
Excel: Črtni diagram (primeren za prikaz številskih podatkov)
Excel: Stolpični diagram (zmanjšamo presledke med stolpci, primeren za
prikaz številskih podatkov)
27
28
Strukturni stolpec uporabljamo za prikaz strukturnih odstotkov.
Narišemo stolpec poljubne širine in poljubne višine. Višino stolpca
proglasimo za 100 %, nato pa jo razdelimo v razmerju strukturnih
odstotkov. Posamezne dele stolpca ponavadi šrafiramo ali pobarvamo z
različnimi barvami, zato za pojasnitev dodamo legendo.
100%
90%
7
80%
9
70%
60%
50%
20%
10%
0%
0-2
10%
8 - 10
14%
8 - 10
6-8
4-6
2-4
0-2
16
40%
30%
Tudi strukturni krog uporabljamo za prikaz strukturnih odstotkov. Delež
enot v posameznem razredu je prikazan s krožnim izsekom. Velikost
središčnega kota za vsak razred izračunamo kot odstotek polnega kota:
fi % · 360◦ . Tudi strukturni krog opremimo z legendo.
6-8
18%
2-4
26%
13
5
Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov)
29
Prikaz s stolpci je podoben histogramu, uporabljamo pa ga lahko za
prikaz grupiranih opisnih ali številskih podatkov. Širina stolpca je
poljubna, višina stolpca pa je premosorazmerna s frekvenco razreda.
4-6
32%
Excel: Tortni diagram (primeren za prikaz
vrstnih in opisnih podatkov)
30
PRIMER 11
Spodnji grafikon prikazuje zaslužke dijaka preko študentskega servisa v
enem letu. Primerjajte zaslužke dijaka po mesecih.
Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov)
31
32
4. SREDNJE VREDNOSTI
PRIMER 12
Spodnji grafikon prikazuje iste zaslužke dijaka preko študentskega servisa v
enem letu kot prejšnji grafikon. V čem je razlika? Kaj lahko zdaj povemo
o višinah zaslužkov dijaka po mesecih?
Srednja vrednost je mera za osredinjenost podatkov. Pove, kje se
nahajajo podatki. Obravanali bomo tri srednje vrednosti:
mediana
modus
aritmetična sredina (povprečje)
34
33
MEDIANA
Definicija 6:
Mediana (ali središčnica) je srednja vrednost, od katere ima polovica
enot manjše ali enake vrednosti, polovica pa večje ali enake. Označili jo
bomo z Me.
Mediano za majhno število podatkov najhitreje določimo tako, da podatke
najprej uredimo po velikosti v ranžirno vrsto, nato izračunamo mesto, na
katerem se nahaja mediana: N+1
2 . Če ta vrednost ni celo število, je
mediana povprečje sosednjih dveh vrednosti.
PRIMER 13
Določite mediano zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min.
Rezultat komentirajte.
PRIMER 14
Določite mediano zamud avtobusa v šestih dneh: 2, 2, 6, 7, 10, 15 min.
Rezultat komentirajte.
Mediana je določena z mestom v ranžirni vrsti, zato ekstremno veliki (ali
majhni) podatki ne vplivajo na njeno vrednost.
Excel: MEDIAN
35
36
MODUS
ARITMETIČNA SREDINA
Definicija 7:
Modus (ali gostiščnica) je srednja vrednost, ki je enaka tisti vrednosti
spremenljivke, ki se najpogosteje pojavlja. Označili ga bomo z Mo.
PRIMER 15
Določite modus zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultat
komentirajte.
Med podatki je lahko tudi več modusov (tiste vrednosti, ki se
enakomnogokrat pojavljajo največkrat).
Definicija 8:
Aritmetična sredina (povprečje) je srednja vrednost, ki jo dobimo tako,
da vsoto vseh vrednosti spremenljivke delimo s številom enot v populaciji
N. Označili jo bomo z µ:
µ=
Σ N xi
x 1 + x 2 + · · · + xN
ali µ = i=1
N
N
Excel: AVERAGE
Excel: MODE
37
38
Lastnosti aritmetične sredine:
PRIMER 16
Izračunajte aritmetično sredino zamud avtobusa v petih dneh: 2, 2, 6, 7,
10 min.
Če vsakemu podatku prištejemo isto vrednost a, se tudi aritmetična
sredina poveča za a.
1
Rezultat komentirajte.
Če vsak podatek nadmestimo z aritmetično sredino, ostane vsota
podatkov nespremenjena.
2
Kako bi se spremenila aritmetična sredina, če bi vsaki vrednosti
prišteli 5 min?
Če od vsakega podatka odštejemo aritmetično sredino (izračunamo
odklon od aritmetične sredine), je vsota vseh odklonov enaka 0.
3
Kolišna bi bila vsota podatkov, če bi vsakega nadomestili z
aritmetično sredino?
4
Od vsakega podatka odštejte aritmetično sredino. Kolikšna je vsota
teh vrednosti?
39
PRIMER 17
Ali je smiselno izračunati aritmetično sredino spremenljivke spol ali pa
spremenljivke kraj bivanja? Odgovor obrazloži.
40
5. RAZPRŠENOST PODATKOV
PRIMER 18
V skupini je 5 dijakov. Njihova povprečna starost je 15 let. Kaj lahko
sklepamo?
1
Da je največ dijakov starih 15 let.
2
Da so vsi dijaki stari približno 15 let.
3
Da so vsi dijaki stari 15 let.
4
Da je polovica dijakov starih manj kot 15 let, polovica pa več kot 15
let.
5
Da je vsota starosti vseh otrok v skupini 75 let.
Razpršenost (ali variabilnost) je lastnost podatkov, da lahko zavzamejo
različne vrednosti. Podatki so lahko bolj ali manj razpršeni, kar je videti na
sliki:
Obravnavali bomo naslednje mere za razpršenost:
PRIMER 19
Povprečna ocena pisne naloge iz matematike petih dijakov je 3,2. Kaj
lahko poveš o ocenah pisne naloge posameznih dijakov?
variacijski razmik
standardni odklon (standardna deviacija)
medčetrtinski razmik
41
42
VARIACIJSKI RAZMIK
STANDARDNI ODKLON
Definicija 9:
Variacijski razmik je razlika med največjo in najmanjšo vrednostjo v
populaciji. Označimo ga z VR.
Definicija 10:
Standardni odklon (ali standardna deviacija) je enaka korenu povprečja
kvadratov odklonov vrednosti od aritmetične sredine. Označimo ga s σ:
VR = xmax − xmin
PRIMER 20
Izračunajte variacijski razmik zamud avtobusa v petih dneh: 2, 2, 6, 7, 10
min. Rezultat komentirajte.
Excel: VR = MAX - MIN (izračunamo, ker ni posebnega ukaza)
43
σ=
2
ΣN
i=1 (xi − µ)
N
Za uporabo je bolj preprosta formula:
2
ΣN
i=1 xi
− µ2
σ=
N
Dokaz.
44
PRIMER 21
Izračunaj standardni odklon zamud avtobusa v petih dneh: 2,2,6,7,10 min.
Rezultat komentiraj. Kaj bi se zgodilo s standardnim odklonom, če bi
vsem vrednostim prišteli 5 min?
Kaj pove standardni odklon?
Če je porazdelitev spremenljivke simetrična (lahko pogledamo histogram),
se približno 23 vrednosti spremenljivke nahaja na intervalu [µ − σ, µ + σ].
Excel:
standardni odklon: STDEVP
ARITMETIČNA SREDINA IN STANDARDNI ODKLON
GRUPIRANIH PODATKOV
PRIMER 22
Dijaki v T1A, T1B in T1C so pisali pisno nalogo iz matematike.
Povprečna ocena dijakov iz T1A je 3,4, povprečna ocena v T1B je 3,2, v
T1C pa 2,9. Kolikšna je povprečna ocena dijakov vseh treh razredov?
45
Aritmetična sredina (povprečje) grupiranih podatkov
(tudi tehtana aritmetična sredina):
µ=
Σr fi xi
f1 xi + f2 x2 + · · · + fr xr
ali µ = i=1
N
N
Standardni odklon grupiranih podatkov:
Σri=1 fi xi2
σ=
− µ2
N
47
46
Pri izračunu si pomagamo z razširjeno frekvenčno porazdelitvijo:
razred
1.
2.
..
.
vrednost
x1,min − x1,max
x2,min − x2,max
fi
f1
f2
..
.
xi
x1
x2
..
.
fi xi
f1 x1
f2 x2
..
.
r.
Σ
xr ,min − xr ,max
/
fr
N
xr
/
fr xr
Σri=1 fi xi
48
fi xi2
f1 x12
f2 x22
..
.
fr xr2
r
Σi=1 fi xi2
PRIMER 23
Poraba mleka - nadaljevanje primera. Izračunajte aritmetično sredino in
standardni odklon porabe mleka 50 slovenskih družin prejšnji teden v neki
vasi.
razred
1.
2.
3.
4.
5.
Σ
poraba mleka v l
0−pod 2
2−pod 4
4−pod 6
6−pod 8
8−pod 10
/
fi
5
13
16
9
7
50
xi
1
3
5
7
9
/
49
6. KVARTILI IN ŠKATLA Z BRKI
Definicija 11:
Trije kvartili razdelijo številske podatke v ranžirni vrsti v štiri skupine:
PRIMER 24
Starost oseb - nadaljevanje primera Izračunajte aritmetično sredino in
standardni odklon starosti oseb, ki so bile včeraj pregledane v okulistični
ambulanti.
razred
1.
2.
3.
4.
5.
Σ
starost
1−10
11−20
21−30
31−40
41−50
/
fi
6
8
14
11
6
45
xi
5,5
15,5
25,5
35,5
45,5
/
50
S pomočjo kvartilov lahko nazorno pokažemo razpršenost podatkov tako,
da narišemo škatlo z brki, za katero potrebujemo poleg kvartilov še
najmanjšo in največjo vrednost med podatki.
prvi kvartil Q1 je tista vrednost, od katere je 25 % podatov manjših
(ali enakih) in 75 % podatkov večjih (ali enakih) - nahaja se na
N+1
4 -tem mestu
drugi kvartil Q2 je tista vrednost, od katere je 50 % podatov manjših
(ali enakih) in 50 % podatkov večjih (ali enakih) (tudi mediana) -tem mestu
nahaja se na 2(N+1)
4
tretji kvartil Q3 je tista vrednost, od katere je 75 % podatov manjših
(ali enakih) in 25 % podatkov večjih (ali enakih) - nahaja se na
3(N+1)
- tem mestu
4
2(N+1)
in 3(N+1)
niso celoštevilske, vzamemo za kvartil
Če vrednosti N+1
4 ,
4
4
povprečje sosednjih vrednosti.
51
Škatlo z brki imenujemo tudi okvir z ročaji ali grafikon kvartilov (ang.
box-and-whiskers plot ali box-plot).
Definicija 12:
Medčertinski razmik Q je razlika med tretjim in prvim kvartilom. (Med
Q1 in Q3 se nahaja 50 % podatkov.)
52
PRIMER 25
V T1A so dijaki zbrali podatke o številu ur, ki so jih prejšnji teden preživeli
za računalnikom. Zbrani podatki so:
PRIMER 26
Na zdravniškem pregledu so stehtali 17 dijakov manjšega razreda. Njihove
teže v kg so:
2, 2, 3, 4, 5, 6, 6, 7, 7, 8, 9, 10, 11, 11, 12, 12, 15, 15, 16, 17, 18, 21, 21,
21, 22, 24, 25, 28, 30, 30, 34
50, 52, 53, 55, 56, 56, 60, 61, 64, 64, 65, 67, 71, 72, 73, 73, 80
1
Izračunajte vse tri kvartile in jih obrazložite.
2
Izračunajte medčetrtinski razmik.
3
Narišite škatlo z brki.
1
Izračunajte vse tri kvartile in jih obrazložite.
2
Izračunajte medčetrtinski razmik.
3
Narišite škatlo z brki.
53
54
PRIMER 27
Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjem
grafikonu. Kaj lahko sklepaš iz slike?
PRIMER 28
Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjem
grafikonu. Kaj lahko sklepaš iz slike?
55
56
7. KORELACIJA IN REGRESIJA
PRIMER 29
Voznik beleži število kilometrov, ki jih prevozi s svojim avtomobilom, in
porabo goriva pri vsaki vožnji. Ugotoviti želi, kako je poraba goriva
povezana s številom prevoženih kilometrov.
Kateri statistični spremenljivki nastopata v primeru?
Ali bo pri različnih vožnjah, ko bo prevozil enako število kilometrov,
vedno porabil enako količino goriva?
Spremenljivka X : število prevoženih kilometrov
Spremenljivka Y : količina porabljenega goriva
Povezanost med številskima spremenljivkama X in Y imenujemo
korelacija.
Povezanost spremenljivk lahko prikažemo v pravokotnem koordinatnem
sistemu, če eno od spremenljivk proglasimo za neodvisno in drugo za
odvisno. Tako dobljeni diagram imenujemo razsevni diagram.
Koliko goriva bo porabil za vožnje, pri katerih bo prevozil manj km, v
primerjavi z vožnjami, pri katerih bo prevozil več km?
Razmisli, kaj vpliva na porabo goriva.
57
Razsevni diagram:
58
Spremenljivki X in Y sta povezani linearno, če točke v razsevnem
diagramu ležijo na isti premici ali pa se od nje bolj ali manj odklanjajo
(ovalna oblika množice točk v razsevnem diagramu).
Premico, ki se najbolj prilega točkam, imenujemo regresijska premica.
Ločimo pozitivno in negativno linearno povezanost:
Pozitivna linearna povezanost: večje vrednosti spremenljivke X so
povezane z v povprečju večjimi vrednostmi spremenljivke Y .
(regresijska premica je naraščajoča)
Negativna linearna povezanost: večje vrednosti spremenljivke X so
povezane z v povprečju manjšimi vrednostmi spremenljivke Y .
(regresijska premica je naraščajoča)
Razsevni diagram
Excel: Raztreseni (XY)
59
Excel: Enačba regresijske premice: na grafikonu kliknemo z desnim
gumbom miške na eno točko in izberemo ’Dodaj trendno črto’. Pod
možnostmi izberemo ’Prikaži enačbo na grafikonu’.
60
Moč linearne povezanosti kaže Pearsonov koeficient r , katerega
vrednosti se nahajajo na intervalu [−1, 1].
Moč linearne povezanosti med spremenljivkama X in Y je lahko:
- močna pozitivna, če je 0.75 ≤ r < 1;
poz.lin. povezanost
- srednje močna pozitivna, če je 0.4 ≤ r < 0.75;
neg.lin. povezanost
- šibka pozitivna, če je 0 ≤ r < 0.4;
- ni linearne povezanosti, če r = 0;
- šibka negativna, če je −0.4 < r < 0;
- srednje močna negativna, če je −0.75 < r ≤ −0.4;
- močna negativna, če je −1 < r ≤ −0.75.
Excel: PEARSON
ni lin. povezanosti
ni povezanosti
61
62
8. ČASOVNE VRSTE
PRIMER 30
Voznik je za 12 voženj zabeležil število prevoženih kilometrov in porabo
goriva v litrih. Rezultati so prikazani v tabeli:
Kilometri
Gorivo
20
2,5
35
3,8
60
6
35
4
65
5,5
50
4
40
3,5
25
2,5
25
3
45
4
10
1,8
1
Narišite razsevni diagram (v zvezek in z Excel).
2
Izračunajte Pearsonov koeficient korelacije (z Excel). Kakšno
povezanost kaže?
3
Določite enačbo regresijske premice (z Excel). Premico vrišite v
razsevni diagram.
4
Koliko goriva bo v povprečju porabil voznik za 42 km?
63
15
2
Mnogi pojavi se spreminjajo s časom. Če podatke uredimo glede na
trenutek ali obdobje, ki ga opisujejo, dobimo časovno vrsto. Analiziranje
časovne vrste nam lahko pomaga razumeti spremembe in napovedati
vrednosti v prihodnosti.
Definicija 13:
Časovna vrsta je niz istovrstnih podatkov v zaporednih časovnih trenutkih
ali v posameznih zaporednih časovnih intervalih.
Grafični prikaz podatkov: podatke prikažemo z linijskim grafikonom, kjer
na vodoravno os nanašamo čas, na navpično os pa vrednosti opazovanih
podatkov.
64
PRIMER 31
Poraba električne energije. Dijak je doma 7 tednov beležil tedensko
porabo električne energije. Podatki so zbrani v tabeli:
Zap. št. (k)
1
2
3
4
5
6
7
Definicija 14:
Linearni trend je premica y = kx + n, ki podaja dolgoročno smer razvoja
časovne vrste.
Njeno enačbo bomo določili s programom Excel.
teden
1. teden
2. teden
3. teden
4. teden
5. teden
6. teden
7. teden
kWh
109
98
102
103
95
90
92
V enačbi linearnega trenda je x zaporedna številka obdobja. Koeficient k
pove, za koliko se spremeni vrednost y , ko se x poveča za 1 obdobje.
Linearni trend bomo vrisali v linijski grafikon s programom Excel. S
pomočjo trenda lahko izračunamo napoved vrednosti y za vnaprej.
Opomba: linearni trend je poseben primer regresijke premice.
Podatke prikažite z linijskim grafikonom in izračunajte povprečno tedensko
porabo.
Excel: na sliki kliknemo z desnim gumbom miške na eno točko in izberemo
’Dodaj trendno črto’. Pod možnostmi izberemo ’Prikaži enačbo na
grafikonu’.
65
66
PRIMER 33
Spodnji grafikon prikazuje upad vrednosti delnice v zadnjih 18 mesecih. Ali
je trend upada linearen?
PRIMER 32
Za primer porabe električne energije s programom Excel vrišite linearni
trend. Napovejte, kolikšno porabo električne energije lahko pričakujemo 8.
teden.
67
68
Kaj lahko še izračunamo za časovno vrsto?
Indeks s stalno osnovo Ik/0 je v odstotkih izraženo razmerje med
podatkom Xk v trenutku ali intervalu k in podatkom X0 v vnaprej izbranem
trenutku ali intervalu. Indeks s stalno osnovo torej izračunamo po formuli:
Ik/0 =
Xk
· 100
X0
Verižni indeks Ik je v odstotkih izraženo razmerje med podatkom Xk v
trenutku ali intervalu k in podatkom Xk−1 v prehodnem trenutku ali
intervalu k − 1. Verižni indeks izračunamo po formuli:
Ik =
Stopnja rasti Sk je v odstotkih izražena razlika med podatkoma Xk in
Xk−1 glede na podatek Xk−1 . Izračunamo jo po formuli:
Sk =
Xk − Xk−1
· 100
Xk−1
Povprečna stopnja rasti S je stopnja, s katero bi morali zaporedno
spreminjati podatke v časovni vrsti, da bi iz podatka v prvem trenutku ali
intervalu dobili podatek v zadnjem trenutku ali intervalu. Izračunamo jo
po formuli:
X
n
S = 100 n−1
−1
X1
Xk
· 100
Xk−1
69
70
Trenutke ali obdobja, podatke ter indekse in stopnje pregledno prikažemo
v tabeli:
razred (k)
1
2
..
.
obdobje
n
Xk
X1
X2
..
.
Ik/0
I1/0
I2/0
..
.
Ik
I1
I2
..
.
Sk
S1
S2
..
.
Xn
In/0
In
Sn
PRIMER 34
Za primer porabe električne energije izračunajte indekse s stalno osnovo
glede na prvi teden, verižne indekse, stopnje rasti ter povprečno stopnjo
rasti.
Rešitev: Rezultati so podani v tabeli:
Zap. št.
1
2
3
4
5
6
7
teden
1. teden
2. teden
3. teden
4. teden
5. teden
6. teden
7. teden
kWh
109
98
102
103
95
90
92
Ik/1
100
89,9
93,6
93,6
87,2
82,6
84,4
Excel: oblikujemo formule za posamezne celice.
71
72
Ik
/
89,9
104,1
101,0
92,2
94,7
102,2
Sk
/
-10,1
4,1
1,0
-7,8
-5,3
2,2
Kontingenčna tabela
Povprečna stopnja rasti:
S = 100
n−1
Xn
−1
X1
= 100
6
Definicija 15:
Kontingenčna ali dvorazsežna tabela prikazuje podatke po vrednostih dveh
opisnih spremenljivk hkrati.
92
−1
109
= −2, 79
Če bi se poraba električne energije vsak teden zmanjšala za 2, 79%, bi se iz
začetne porabe 109 kWh v prvem tednu zmanjšala na 92 kWh v sedmem
tednu.
PRIMER 35
225 dijakov srednje šole smo vprašali o zadovoljstvu s šolsko malico.
Rezultati so zbrani v tabeli:
letnik/zadovoljstvo
1. letnik
2. letnik
3. letnik
4. letnik
zadovoljen
35
45
35
20
nezadovoljen
15
15
10
50
Kaj lahko povemo o zadovoljstvu anketiranih dijakov z malico?
73
74
Rešitev:
Za boljši pregled nad podatki, dodamo še vrstico ’skupaj’ in stolpec
’skupaj’:
letnik/zadovoljstvo
1. letnik
2. letnik
3. letnik
4. letnik
skupaj
zadovoljen
35
45
35
20
135
75
nezadovoljen
15
15
10
50
90
skupaj
50
60
55
70
225
Struktura anketiranih dijakov po zadovoljstvu s šolsko malico za vsak
letnik:
letnik/zadovolj.
1. letnik
2. letnik
3. letnik
4. letnik
skupaj
zadovoljen
35
45
35
20
135
%
70,0%
75,0%
77,8%
28,6%
60,0%
Strukturo prikažite tudi grafično.
76
nezadov.
15
15
10
50
90
%
30,0 %
25,0 %
22,2 %
71,4 %
40,0 %
skupaj
50
60
55
70
225
%
100 %
100%
100 %
100 %
100 %
Struktura anketiranih dijakov po letnikih za vsako od mnenj o zadovoljstvu
s šolsko malico:
letnik/zadovolj.
1. letnik
2. letnik
3. letnik
4. letnik
skupaj
zadovoljen
35
45
35
20
135
%
25,9 %
33,3 %
25,9 %
14,8 %
100 %
nezadov.
15
15
10
50
90
%
16,7 %
16,7 %
11,1 %
55,6 %
100 %
skupaj
50
60
55
70
225
%
22,2 %
26,7 %
20,0 %
31,1 %
100 %
Strukturo prikažite tudi grafično.
77
78
PRIMER 36
Odrasle moške in ženske so vprašali, ali imajo vozniški izpit ali ne. Podatki
so zbrani v spodnji tabeli. Oblikujte kontingenčno tabelo. Izračunajte
strukturo podatkov po spolu in strukturo po imetju vozniškega izpita ter ju
prikažite grafično.
spol
moški
ženska
ženska
moški
moški
ženska
ženska
moški
ženska
ženska
moški
vozniški izpit
da
da
ne
ne
da
da
da
da
ne
da
ne
Nalogo rešite s programom Excel (vrtilna tabela).
79
80