Sandsynlighedsregning Bayes' formel og Bayesianske netværk © Erik Vestergaard 2 © Erik Vestergaard – www.matematiksider.dk © Erik Vestergaard, 2015. Opdateret 22. november 2015. Billeder: Forside: Side 6: Side 13: Side 20: Side 23: Side 33: Side 35: Side 39: Side 53: Side 67: Side 69: Side 73: Side 74: Side 76: jakobkramer.dk/Jakob Kramer ©iStock.com/solitude72 ©iStock.com/Elenathewise ©iStock.com/ginevre jakobkramer.dk/Jakob Kramer ©iStock.com/carlballou jakobkramer.dk/Jakob Kramer jakobkramer.dk/Jakob Kramer © Pavel Losevsky | Dreamstime.com ©iStock.com/LiuNian ©iStock.com/jaroon ©iStock.com/caraman ©iStock.com/Big_Ryan © Tossi66 | Dreamstime.com Desuden egne fotos og illustrationer. © Erik Vestergaard – www.matematiksider.dk 3 Indholdsfortegnelse 1. Indledning ................................................................................................................. 5 2. Endeligt sandsynlighedsfelt ...................................................................................... 5 3. Betingede sandsynligheder og uafhængighed ........................................................ 11 4. Bayes' formel .......................................................................................................... 16 5. Bayes' formel på odds form .................................................................................... 26 6. Bayes' formel i retsvidenskab ................................................................................. 28 7. Kædereglen og betinget uafhængighed .................................................................. 41 8. Kort om grafer ........................................................................................................ 48 9. Bayesianske netværk .............................................................................................. 49 10. Beregninger i et konkret bayesiansk netværk ....................................................... 49 11. Computerprogrammet AgenaRisk ........................................................................ 57 12. Bayesianske netværk historisk set ........................................................................ 61 A. Betingede sandsynligheder er også sandsynligheder ............................................. 64 Opgaver ...................................................................................................................... 66 Litteratur ..................................................................................................................... 85 Links ........................................................................................................................... 86 4 © Erik Vestergaard – www.matematiksider.dk © Erik Vestergaard – www.matematiksider.dk 5 1. Indledning Det overordnede formål med denne note er at præsentere den berømte Bayes formel fra sandsynlighedsregningen og vise, hvordan denne formel giver anledning til indførelsen af de såkaldte bayesianske netværk. Vi skal se, hvordan disse netværk kan bruges til at løse problemer fra virkeligheden. Et af dem vil handle om, hvordan netværkene kan benyttes til at give et overblik over sandsynligheder i forbindelse kriminalsager. Idéen er, at disse matematiske analyser skal kunne give et mere sikkert grundlag for vurderingen af skyld/uskyld i retssager – ikke mindst i situationer, hvor menneskets "sunde fornuft" fejler. Først er det imidlertid nødvendigt med lidt indledende sandsynlighedsteori, så vi får fast grund under fødderne. Noten er blandt andet henvendt til gymnasieelever, som måtte skrive opgave i emnet. Jeg har forsøgt at sikre, at det er muligt for eleven at vise selvstændighed her, for eksempel ved at udpensle beviser, uddybe forklaringer og/eller løse opgaver. Derfor er der også en del eksempler, som ligger tæt op af opgaverne. 2. Endeligt sandsynlighedsfelt Sandsynlighedsregningen er måske det område i matematikken, hvor der historisk er blevet begået flest fejltagelser. Selv berømte matematikere har troet, at de har regnet rigtigt, for senere at blive korrigeret. Heldigvis har sandsynlighedsregningen i dag fået et solidt axiomatisk grundlag, ikke mindst hjulpet på vej af russeren Andrey N. Kolmogorov (1903-1987). Begreber og betingelser er i dag blevet gjort mere tydelige. I dette afsnit skal vi præsentere begrebet et endeligt sandsynlighedsfelt. Man kan sagtens definere sandsynlighedsfelter, som har et udfaldsrum med uendeligt mange elementer (se fx [3] eller [4]), men vi vil holde os fra det her. Definition 1 (Endeligt sandsynlighedsfelt) Et endeligt sandsynlighedsfelt består af en ikke-tom mængde U, som har endeligt mange elementer, samt en funktion P. Funktionen P skal både virke på elementer u ∈U og på delmængder A ⊆ U , og det på en måde så følgende gælder: a) b) 0 ≤ P (u ) ≤ 1 for alle u ∈U . ∑ P (u ) = 1 u∈U c) P( A) = ∑ P(u ) for alle A ⊆ U . u∈A d) P(∅) = 0 for den tomme mængde ∅ . 6 © Erik Vestergaard – www.matematiksider.dk I definition 1 kaldes mængden U for udfaldsrummet, mens elementerne u i U benævnes udfald. P kaldes for sandsynlighedsfunktionen og P(u) er sandsynligheden for udfaldet u. En delmængde A ⊆ U kaldes for en hændelse og P ( A) er sandsynligheden for hændelsen A. Øvelse 2 Benyt egenskab b) og c) i definition 1 til at vise at sandsynligheden for den hændelse, som svarer til hele udfaldsrummet, er lig med 1, altså at P(U ) = 1 . Eksempel 3 u p1 P(u) 0,001 r1 r2 p2 Nitte 0,005 0,010 0,134 0,85 I et lotteri er der fire gevinster: En stor pengepræmie på 100.000 kr (p1), gavekort til restaurant 1 (r1), gavekort til restaurant 2 (r2) og endelig en mindre pengepræmie på 200 kr. (p2). Derudover er der naturligvis også nitter. Sandsynlighederne for de forskellige gevinster fremgår af tabellen ovenfor. Udfaldene er p1, p2, r1, r2 og Nitte. Udfaldsrummet er U = { p1, p 2, r1, r 2, Nitte} . Endvidere ser vi, at alle sandsynlighederne ligger mellem 0 og 1, så punkt a) i definition 1 er opfyldt. Endvidere er summen af sandsynlighederne lig med 1: P( p1) + P( r1) + P( r 2) + P( p 2) + P( Nitte) = 0,001 + 0,005 + 0,010 + 0,134 + 0,85 = 1 Dermed er punkt b) i definitionen også opfyldt. Alle delmængder af U er hændelser. Vi kunne for eksempel være interesseret i hændelsen A = { p1, p 2} ⊂ U . Ifølge c) i definition 1 fås sandsynligheden for A ved at addere sandsynlighederne for de enkelte udfald i delmængden, som udgør hændelsen: P( A) = ∑ P (u ) = P( p1) + P( p 2) = 0,001 + 0,134 = 0,135 u∈A Man kunne eventuelt kalde hændelsen for det mere mundrette pengepræmie og skrive: P( pengepræmie) = 0,135 . Ifølge punkt d) i definition 1 skal sandsynligheden for den tomme mængde ∅ , altså den delmængde, der ikke indeholder elementer, være 0. □ Øvelse 4 Hvad er sandsynligheden for hændelsen gevinst i eksempel 3? 7 © Erik Vestergaard – www.matematiksider.dk Eksempel 5 Vi skal kigge på et lidt mere avanceret og spændende eksempel. Lad os sige, at vi slår med to terninger, en grøn og en rød. Antal øjne betragtes. Et udfald kan da passende beskrives ved et talpar, hvor det første tal angiver antal øjne for den grønne terning og det andet tal angiver antal øjne for den røde terning. Vi har altså følgende udfaldsrum: U = {(1,1), (1, 2), … , (1,6), (2,1), (2, 2), … , (2, 6), … , (6,6)} I alt er der 36 kombinationer, og de er hver lige sandsynlige. Hver kombination må derfor have en sandsynlighed på 361 ifølge definition 1b). Rød terning 6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) 5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) 4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) 3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) 2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) 1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) 1 2 3 4 5 6 Grøn terning Vi kunne dernæst være interesseret i følgende hændelse H: Summen af terningerne er 5. For at få bedre overblik over situationen er det her smart at afbilde udfaldene i udfaldsrummet i et slags "koordinatsystem", hvor 1. aksen repræsenterer det antal øjne, den grønne terning viser, mens 2. aksen repræsenterer antal øjne på den røde terning. Vi ser straks, at de udfald, hvor summen af øjnene giver 5, ligger i en "lille diagonal", som vist på figuren ovenfor. Hændelsen er altså følgende delmængde: H = {(1, 4), (2,3), (3, 2), (4,1)} Vi kan anvende Definition 1c) til at bestemme sandsynligheden: P( H ) = 1 36 + 361 + 361 + 361 = 4 36 = 1 9 Sandsynligheden for hændelsen H er altså 1/9. □ Øvelse 6 Vi betragter igen eksperimentet i eksempel 5. Givet følgende hændelser: H1 : Summen af terningernes øjne er 8. H 2 : Den røde terning viser mindst 5 øjne. a) Opskriv hændelserne som delmængder af U. b) Bestem P ( H1 ) og P( H 2 ) . 8 © Erik Vestergaard – www.matematiksider.dk Definition 7 (Stokastisk variabel) Givet et endeligt sandsynlighedsfelt (U , P ) . En stokastisk variabel X er en reel funktion på udfaldsrummet U. Eksempel 8 Lad os igen kigge på eksperimentet med de to terninger fra eksempel 5. Man kunne her vælge at definere en stokastisk variabel X på følgende måde: X : Summen af øjnene af den grønne og den røde terning. Det er klart en funktion på U. På elementet u = (2, 4) giver den stokastiske variabel for eksempel værdien 6: X ((2, 4)) = 2 + 4 = 6 . Man kunne overveje, hvilke mulige værdier, den stokastiske variabel man antage. Svaret er alle hele tal fra 2 til 12, svarende til de mulige værdier for summen af øjnene på to terninger. Sandsynlighedsfordelingen for den stokastiske variabel kan beskrives i en tabel: Øverst har man de mulige værdier xi for den stokastiske variabel og nederst deres tilhørende sandsynligheder. I eksempel 5 har vi allerede udregnet sandsynligheden for at X giver 5. Vi fandt, at det svarede til summen af sandsynlighederne for udfaldene (1,4), (2,3), (3,2) og (4,1), hvilket gav 49 . Vi har dermed, at P( X = 5) = 364 . Her er hele tabellen: xi 2 3 4 5 6 7 8 9 10 11 12 P( X = xi ) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 For at indse dette, kan man også vælge at lave et koordinatsystem lidt i stil med det i eksempel 5, men her med summen af øjnene anbragt i felterne. Begrebet stokastisk variabel er et kraftigt værktøj at have til rådighed. Det er meget mere generelt, end man først skulle tro. Man kunne også definere en stokastisk variabel Y, som angiver differensen mellem antal øjne på den grønne og den røde terning. Men det går langt videre: Rød terning 6 7 8 9 10 11 12 5 6 7 8 9 10 11 4 5 6 7 8 9 10 3 4 5 6 7 8 9 2 3 4 5 6 7 8 1 2 3 4 5 6 7 1 2 3 4 5 6 Grøn terning Man kunne for eksempel lave et spil, hvor en spiller slår med to terninger og definere gevinster for de enkelte udfald. Så kunne den stokastiske variabel Z være gevinsten (med fortegn) ved ét spil! Man kan endda analysere om spillet er til fordel eller ulempe for spilleren i det lange løb. Vi vil ikke komme nærmere ind på det i hovedteksten, da det ikke er nødvendigt for vores hovedformål, som er at studere bayesianske netværk. Du kan dog selv studere det i opgave 2.2. 9 © Erik Vestergaard – www.matematiksider.dk Vi skal kigge på forskellige operationer, man kan foretage på mængder. Først definerer vi operationerne og derefter illustreres med Venn diagrammer. A ∩ B består af de elementer, som er i både A og B. A ∪ B består af de elementer, som er i A og/eller i B. A og B kaldes disjunkte, hvis A og B ikke har nogen elementer til fælles, dvs. hvis A ∩ B = ∅ . Komplementærmængde: Ac består af alle de elementer, som er i U, men ikke i A. Delmængde: A ⊆ B hvis ethvert element fra A også er i B. Det kan alternativt udtrykkes ved at u ∈ A ⇒ u ∈ B . Klassedeling: Mængderne A1 , A2 , … , An kaldes en klassedeling af A, hvis mængderne to og to er indbyrdes disjunkte og foreningsmængden af dem alle er lig med B. Det kan også udtrykkes ved: Ai ∩ Aj = ∅ for alle i ≠ j og A1 ∪ A2 ∪ … ∪ An = A . Fællesmængde: Foreningsmængde: Disjunkte mængder: U A U A B B AÇB AÈB Foreningsmængde Fællesmængde U A U A B c A Disjunkte mængder A B Komplementærmængde U U A A3 Delmængde A2 A1 A4 A5 Klassedeling Disse mængdeoperationer fører naturligt til spørgsmålet om, hvordan man udregner sandsynligheder for mængder af ovenstående type. Vi skal formulere en sætning, som skal komme os til nytte senere. 10 © Erik Vestergaard – www.matematiksider.dk Sætning 9 For hændelser i samme sandsynlighedsfelt gælder: a) P( A ∪ B ) = P( A) + P( B ) − P( A ∩ B ) b) For disjunkte hændelser A og B gælder: P( A ∪ B ) = P( A) + P( B ) c) P( Ac ) = 1 − P( A) d) For en klassedeling A1 , A2 , … , An af A gælder: n ∑ P( Ai ) = P( A1 ) + P( A2 ) + … + P( An ) = P( A) i =1 Bevis: a) Vi ved at sandsynligheden for en hændelse fås ved at addere sandsynlighederne af de enkelte udfald i hændelsen. Når man beregner summen P( A) + P( B ) bliver sandsynlighederne for udfaldene i A ∩ B talt med to gange. Derfor skal man trække sandsynligheden af A ∩ B fra, for at få sandsynligheden for A ∪ B . Det overlades til læseren at bevise de øvrige punkter. □ Rød terning H 6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) 5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) 4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) 3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) 2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) 1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) 1 2 3 4 5 G Grøn terning 6 Eksempel 10 Vi arbejder videre på eksempel 5 fra tidligere i dette afsnit. Foruden hændelsen H, vil vi indføre en ny hændelse G : Den røde terning viser højest 2. Udfaldene i denne hændelse er markeret på figuren ovenfor. Fællesmængden H ∩ G = {(3, 2), (4,1)} er en hændelse, som kan udtales: Summen af terningerne er 5 og den røde terning viser 2 eller derunder. Ved at udregne summen af sandsynlighederne af udfaldene i hændelserne, får vi: P(G ) = 12 ⋅ 361 = 12 36 = 1 3 , P( H ∩ G ) = 2 ⋅ 361 = 2 36 = 1 18 Hændelsen H ∪ G kan udtales: Summen af terningerne er 5 eller den røde terning viser 2 eller derunder. Hændelsens sandsynlighed kan beregnes ved brug af sætning 9a): P ( H ∪ G ) = P ( H ) + P (G ) − P ( H ∩ G ) = 4 36 + 12 36 − 2 36 = 14 36 = 7 18 som også stemmer fint med, hvad man ville få ved at udregne den direkte. □ 11 © Erik Vestergaard – www.matematiksider.dk Punkt c) i sætning 9 er ofte brugbar. Der er opgaver, hvor man ønsker at udregne sandsynligheden for en hændelse A, men hvor den er besværlig at udregne direkte, hvorimod sandsynligheden for den komplementære hændelse Ac er meget nemmere at udregne. Eksempel 11 Bestem sandsynligheden for at få plat mindst én gang ved fire kast med en mønt. Udfaldene i eksperimentet kan, i stil med terningeforsøgene, passende opskrives som et 4tuppel. Udfaldet ( p, p, k , p ) betyder således, at de første to kast gav plat, det tredje kast gav krone, og det sidste gav plat. Det er oplagt, at der er 16 udfald i udfaldsrummet. Da de i dette tilfælde er lige sandsynlige, har hvert udfald altså sandsynligheden 161 . Man kunne begynde at undersøge, hvilke af udfaldene, som ligger i hændelsen A: Der er mindst én plat, og derefter addere deres sandsynligheder. Det er imidlertid meget nemmere at betragte den komplementære hændelse Ac : Alle kast viste krone. I denne hændelse er der kun udfaldet (k , k , k , k ) . Sætning 9c) giver nu: P ( A) = 1 − P ( Ac ) = 1 − 161 = 15 16 □ 3. Betingede sandsynligheder og uafhængighed Vi skal i dette afsnit studere begrebet betinget sandsynlighed, som skal vise sig at blive centralt i forbindelse med Bayes' formel samt Bayesianske netværk. Først en definition. Definition 12 (Betinget sandsynlighed) Lad A og B være to hændelser i et endeligt sandsynlighedsfelt, hvor P( B ) ≠ 0 . Den betingede sandsynlighed for A givet B betegnes P ( A B ) og er defineret således: P( A B ) = P( A ∩ B ) P( B ) Bemærkning 13 Man plejer at udvide definition 12 ved at vedtage, at P ( A B ) = 0 , når P( B ) = 0 . □ Definition 12 kan umiddelbart virke lidt underlig, men ved nærmere eftertanke forekommer den fornuftig: Med den nye viden givet ved hændelsen B, er vores "nye verden" blevet mængden B. Derfor er vi kun interesseret i den del af mængden A, som ligger indenfor mængden B, altså A ∩ B . Sandsynligheden for denne mængde sættes i forhold til sandsynligheden for B. U A B AÇ B 12 © Erik Vestergaard – www.matematiksider.dk Sætning 14 (Sandsynlighedsregningens multiplikationssætning) Lad A og B være to hændelser i et endeligt sandsynlighedsfelt. Da gælder: P( A ∩ B ) = P( A B) ⋅ P( B) (1) Bevis: Følger umiddelbart af definition 12 sammen med bemærkning 13. □ Definition 15 (Uafhængighed) To hændelser A og B i et endeligt sandsynlighedsfelt siges at være uafhængige, hvis P( A ∩ B ) = P( A) ⋅ P( B ) (2) Bemærkning 16 Hvis vi udnytter definitionen 15 i definitionen 11 for betinget sandsynlighed, får vi: P( A ∩ B ) P( A) ⋅ P( B ) = = P( A) P( B ) P( B ) som passer meget fint med vores intuition: At hændelserne A og B er uafhængige vil sige, at det ikke ændrer på sandsynligheden for hændelsen A, at man får at vide, om hændelsen B er indtruffet eller ej! (3) P( A B ) = Eksempel 17 Det er på tide med et eksempel. Vi arbejder trofast videre på eksemplet med kast med to terninger. Vi antager givet de to hændelser H og G fra eksempel 10. Vi vil først udregne sandsynligheden for hændelsen H givet G. P( H G ) = P( H ∩ G ) = P (G ) 2 36 12 36 = 1 6 Sandsynligheden for at summen af øjnene på de to terninger er 5 givet at man ved, at den røde terning højest viste 2, er altså 1/6. Lad os undersøge, om de to hændelser er uafhængige. Hertil udregner vi produktet af de to sandsynligheder: P (G ) ⋅ P ( H ) = Da P( H ∩ G ) = 181 er forskellig fra 1 27 4 36 ⋅ 12 36 = 1 9 ⋅ 13 = 1 27 , er de to hændelser altså ikke uafhængige. □ Øvelse 18 Regn videre på eksempel 17: Hvad er sandsynligheden for G givet H, altså P ( H G ) ? 13 © Erik Vestergaard – www.matematiksider.dk Eksempel 19 Marie og Kaja er kontorassistenter i et byggefirma. De har fået til opgave at læse korrektur på et dokument fra firmaets reklameafdeling. Marie opdager normalt ca. 80% af kommafejlene, mens Kaja normalt kun opdager ca. 60% af kommafejlene. De to damer sættes uafhængigt af hinanden til at læse korrektur på materialet. Hvad er sandsynligheden for, at en given kommafejl slipper uopdaget forbi begge kontorassistenter? Løsning: Vi indfører følgende hændelser: A: Marie opdager kommafejlen B: Kaja opdager kommafejlen Hændelsen A ∪ B kan formuleres: Mindst én af damerne opdager fejlen. Vi skal have fat i komplementærhændelsen ( A ∪ B )c : Hverken Marie eller Kaja opdager fejlen. Lad os først udregne sandsynligheden for førstnævnte hændelse ved brug af sætning 9a): P( A ∪ B ) = P( A) + P( B ) − P( A ∩ B ) = P( A) + P( B ) − P( A) ⋅ P( B ) = 0,80 + 0,60 − 0,80 ⋅ 0,60 = 0,92 hvor vi i 2. lighedstegn har brugt, at hændelserne A og B er uafhængige, hvilket er rimeligt. Der er altså 92% sandsynlighed for, at mindst én opdager fejlen. For at bestemme sandsynligheden for den modsatte (komplementære) hændelse, bruger vi sætning 9c): P(( A ∪ B )c ) = 1 − P( A ∪ B ) = 1 − 0,92 = 0,08 Der er altså kun 8% sandsynlighed for, at fejlen slipper under radaren hos begge. □ Sætning 20 Antag at A og B er uafhængige hændelser i et endeligt sandsynlighedsfelt. Så er følgende hændelser også uafhængige to og to: A og B c , Ac og B samt Ac og B c . Bevis: Vi nøjes med at vise første påstand. Den næste fås da af symmetrigrunde. Uafhængigheden mellem komplementærmængderne er overladt til læseren i opgave 3.4. Mængderne A ∩ B og A ∩ B c udgør en klassedeling af A, eftersom mængderne er indbyrdes disjunkte og fordi deres foreningsmængde er lig med hele A, dvs. ( A ∩ B ) ∪ ( A ∩ B c ) = A . Vi kan da udregne sandsynligheden ved at udnytte sætning 9d): U A A Ç Bc B AÇ B 14 © Erik Vestergaard – www.matematiksider.dk P( A ∩ B ) + P( A ∩ B c ) = P( A) Trækkes første led fra på begge sider og udnyttes det, at A og B er uafhængige, fås: P( A ∩ B c ) = P ( A) − P( A) ⋅ P( B ) = P( A) ⋅ (1 − P( B)) = P( A) ⋅ P( B c ) hvormed det ønskede er vist. □ Øvelse 21 Argumenter for, at den hændelse, vi ønskede sandsynligheden bestemt for i eksempel 19, alternativt kan udtrykkes Ac ∩ B c . Benyt nu sætning 20 til at bestemme sandsynligheden fra eksempel 19 på en ny måde, nemlig som P( Ac ) ⋅ P( B c ) . Bemærkning 22 Begrebet betinget sandsynlighed kan måske bringe forvirring hos nogle: Hvordan kan man spørge om sandsynligheden for en hændelse A givet en anden hændelse B? Nogle vil måske hævde, at når eksperimentet er udført, så må sandsynligheden enten være 1 eller 0 alt efter om A indtraf eller ej. Det skal imidlertid ikke betragtes på denne måde. Det handler derimod om, hvad den enkelte person ved. Når personen erhverver ny viden om det eksperiment, som er udført (eller tænkes udført), så vil sandsynligheden for at hændelsen af A er sket – set fra personens synspunkt – skulle opdateres! □ Hvordan definerer man uafhængighed, når der er mere end to hændelser? Dette er faktisk ikke helt oplagt. Antag givet n hændelser A1 , A2 , … , An . Man kunne vælge at sige, at hændelserne to og to skal være uafhængige, det som kaldes parvis uafhængighed. Denne definition sikrer imidlertid ikke, at man har multiplikationsreglen til rådighed: (4) P( A1 ∩ A2 ∩ … ∩ An ) = P( A1 ) ⋅ P( A2 )⋯ P( An ) Da denne regel er yderst vigtig i beregninger, vælger man at forøge kravene: Man vil forlange, at hvis man tager et vilkårligt udvalg af de n hændelser, så skal sandsynligheden for deres fællesmængde være lig med produktet af deres sandsynligheder: Definition 23 Hændelserne A1 , A2 , … , An siges at være uafhængige (eller indbyrdes uafhængige), såfremt der for ethvert udvalg af indices i1 , i2 , … , ik mellem 1 og n gælder: P ( Ai1 ∩ Ai2 ∩ … ∩ Aik ) = P ( Ai1 ) ⋅ P ( Ai2 ) ⋯ P ( Aik ) Ved regninger analoge til dem i beviset for sætning 20 kan man ret nemt vise, at hvis A1 , A2 , … , An er uafhængige og man udskifter et vilkårligt udvalg af disse hændelser med deres komplementære hændelser, så vil disse også være uafhængige. 15 © Erik Vestergaard – www.matematiksider.dk En typisk situation, hvor uafhængighed mellem flere end to hændelser finder anvendelse, er tilfældet, hvor et basiseksperiment udføres adskillige gange. Lad os kigge på et eksempel. Eksempel 24 Hvad er sandsynligheden for ved fire kast med en terning at få mindst én toer. Løsning: Eksperimentet er, at der kastes fire gange med en terning. Lad A1 være hændelsen, at der i første kast kommer en to'er, A2 være hændelsen, at der i andet kast viser sig en to'er, etc. Det er oplagt at disse hændelser er indbyrdes uafhængige. Vi indser også at den komplementære hændelse til "mindst én to'er i fire kast" er hændelsen "ingen to'ere i fire kast". Ifølge sætning 9c) haves derfor: P(mindst en to'er i fire kast) = 1 − P (ingen to'ere i fire kast) = 1 − P( A1c ∩ A2c ∩ A3c ∩ A4c ) = 1 − P( A1c ) ⋅ P( A2c ) ⋅ P( A3c ) ⋅ P( A4c ) = 1 − ( 65 ) 4 = 0,518 Her er Aic hændelsen, at der ikke kommer en to'er i i'te kast. Sandsynligheden herfor fås igen af sætning 9c): P ( Aic ) = 1 − P ( Ai ) = 1 − 16 = 65 . Vi konkluderer af ovenstående at sandsynligheden for at få mindst én to'er ved fire kast med en terning er 51,8%. □ Eksempel 25 I mange tilfælde kan man ikke udregne en U A sandsynlighed i ét hug, som var tilfældet i ekc c c c sempel 24, men må dele problemet op. Lad os A1Ç A2Ç A3Ç A4 A1Ç A2Ç A3Ç A4 betragte hændelsen A: "Der fås netop 2 femmec c c c re ved fire kast med en terning". Lad Ai være A1Ç A2Ç A3Ç A4 A1Ç A2Ç A3Ç A4 hændelsen "det i'te kast gav en femmer". Man c c c c kan da dele hændelsen A op i seks delhændelA1Ç A2Ç A3Ç A4 A1Ç A2Ç A3Ç A4 ser som vist på figuren til højre. Her betyder A1 ∩ A2 ∩ A3c ∩ A4c hændelsen, at de første to kast gav femmere, mens de sidste to gav "ikkefemmere". Tilsvarende med de øvrige. Det er oplagt, at de seks delhændelser har A som foreningsmængde og at de er indbyrdes disjunkte. Der er altså tale om en klassedeling! Det betyder, at vi kan bruge sætning 9d) til at konkludere at sandsynligheden for A er summen af sandsynlighederne for hver af de seks delhændelser. Sandsynligheden for 2 2 den første er: P ( A1 ∩ A2 ∩ A3c ∩ A4c ) = 16 ⋅ 16 ⋅ 65 ⋅ 65 = ( 16 ) ⋅ ( 65 ) . De fem andre delhændel2 2 ser har faktisk samme sandsynlighed, hvilket betyder at P ( A) = 6 ⋅ ( 16 ) ⋅ ( 65 ) . Til den interesserede læser kan det i øvrigt nævnes, at vi i dette eksempel har bevæget os ind på området med den såkaldte Binomialfordeling. Ikke mere om dette her! 16 © Erik Vestergaard – www.matematiksider.dk 4. Bayes' formel Vi skal i dette afsnit præsentere den vigtige Bayes' formel, som er meget brugbar, fordi den i en vis forstand sætter os i stand til at "vende tingene på hovedet". Normalt har man givet nogle udgangssandsynligheder (a priori sandsynligheder), og på baggrund af dem kan man udregne sandsynligheden for forskellige hændelser. Bayes' formel giver mulighed for at vurdere udgangssandsynlighederne givet en viden (evidence) om udfaldet af eksperimentet (a posteriori). På engelsk taler man om Prior Probability, henholdsvis Posterior Probability. Bayes' formel kan angives i en simpel version og en fuld version. Vi starter med at bevise og formulere nogle sætninger. Hvis de forekommer lidt abstrakte, kan du starte med eksemplerne og vende tilbage til sætningerne senere. Sætning 26 (Bayes' formel – simpel version) Lad A og B være hændelser i et endeligt sandsynlighedsfelt, med P( B ) ≠ 0 . Da gælder følgende formel for den betingede sandsynlighed for A givet B : (5) P( A B) = P( B A) ⋅ P( A) P( B ) Bevis: Formlen følger faktisk direkte fra definition 12 eller den umiddelbart afledte sætning 14. Vi kan udtrykke sandsynligheden for fællesmængden på to måder: (6) P( A ∩ B ) = P( A B) ⋅ P( B) (7) P ( A ∩ B ) = P ( B A) ⋅ P ( A) Sættes de to udtryk lig med hinanden, fås (5) umiddelbart. □ Sætning 27 (Den totale sandsynlighed) Lad A1 , A2 , … , An være en klassedeling af udfaldsrummet U i et endeligt sandsynlighedsfelt. For en vilkårlig hændelse B i sandsynlighedsfeltet gælder: (8) P( B ) = n ∑ P( B Ai ) ⋅ P( Ai ) i =1 Bevis: For hver af mængderne Ai i klassedelingen tager vi fællesmængden med B. Da vil følgen A1 ∩ B, A2 ∩ B, … , An ∩ B udgøre en klassedeling af mængden B, som det er illustreret på figuren. Af sætning 9d) følger det da, at n (9) ∑ P( Ai ∩ B) = P( B ) i =1 Det ønskede følger da af sætning 14. □ 17 © Erik Vestergaard – www.matematiksider.dk U A1 A2 B A4 A2 Ç B A4 Ç B A7 Ç B A5 Ç B A5 A7 A6 Ç B A3 A6 A8 Sætning 28 (Bayes' formel) Lad A1 , A2 , … , An være en klassedeling af udfaldsrummet U i et endeligt sandsynlighedsfelt. Da gælder for enhver hændelse B med P( B ) ≠ 0 : (10) P( Ak B ) = P( B Ak ) ⋅ P( Ak ) n ∑ P( B Ai ) ⋅ P( Ai ) i =1 Bevis: Følger straks af sætning 26 og 27. □ Ikke sjældent har man brug for at bruge Bayes' formel i en situation, hvor klassedelingen af udfaldsrummet U kun består at to mængder, nemlig en mængde A og dens komplementærmængde Ac . I det tilfælde bliver Bayes' formel (10) til følgende: (11) P( A B ) = P( B A) ⋅ P( A) c P( B A) ⋅ P( A) + P( B A ) ⋅ P( Ac ) Inden vi går til eksempler på brug af Bayes' formel, skal vi formulere en anden vigtig sætning, der siger noget om betingede sandsynligheder. Sætning 29 Lad A1 , A2 , … , An være en klassedeling af udfaldsrummet U i et endeligt sandsynlighedsfelt. Da gælder for enhver hændelse B med P( B ) ≠ 0 : n (12) ∑ P( Ai B) i =1 = 1 18 © Erik Vestergaard – www.matematiksider.dk Bevis: Ved brug af blandt andet definition 12, sætning 14 og sætning 27 om den totale sandsynlighed har vi: P( A ∩ B ) ∑ P( Ai B) = ∑ Pi( B) = i =1 i =1 n n = P ( B Ai ) ⋅ P ( Ai ) P( B ) i =1 n ∑ n 1 1 ⋅ ∑ P ( B Ai ) ⋅ P ( Ai ) = ⋅ P( B) = 1 P ( B ) i =1 P( B ) □ I ovennævnte specielle tilfælde, hvor klassedelingen af U kun består af to mængder, dvs. en mængde A og dens komplementære mængde Ac , reducerer (12) til: P( A B ) + P( Ac B ) = 1 (13) Denne er ganske nyttig i praksis. Vi skal først se et eksempel på brug af den vigtige sætning 27 om den totale sandsynlighed. Idéen er at foretage en fornuftig klassedeling af udfaldsrummet. Eksempel 30 Claus er ansat hos Røde Kors og har fået som opgave at ringe til tilfældigt udvalgte personer i Københavnsområdet for at bede om pengedonationer. En computer foretager den tilfældige udvælgelse i blandt telefonnumre i Frederiksberg, Ballerup og LyngbyTaarbæk kommune. En tidligere stikprøve har vist, at ca. 41% af beboerne på Frederiksberg giver et bidrag, mens tallene for Ballerup og Lyngby-Taarbæk er henholdsvis 22% og 34%. Befolkningsfordelingen i de tre kommuner er henholdsvis 50%, 24% og 26%. Hvad er sandsynligheden for, at et tilfældigt opkald fører til en donation? Løsning: Eksperimentet består i, at en tilfældig person udtrækkes. Udfaldsrummet er mængden af alle personer fra de tre områder. Vi antager at alle har telefon og vil svare, hvis de bliver ringet op. Vi kan nu definere følgende hændelser: F: B: L: D: Personen er fra Frederiksberg kommune Personen er fra Ballerup kommune Personen er fra Lyngby-Taarbæk kommune Personen donerer et beløb Det er oplagt, at vi skal bestemme P( D ) , altså sandsynligheden for donation uden betingelser! Vi kender imidlertid kun nogle betingede sandsynligheder for donation, for eksempel at sandsynligheden for at personen donerer, givet at denne bor på Frederiksberg, lig med 41%, altså P ( D F ) = 0,41 . På tilsvarende vis har vi, at P ( D B ) = 0,22 samt at P ( D L) = 0,34 . Endeligt har vi P( F ) = 0,50 , P( B ) = 0,24 og P( L) = 0,26 . 19 © Erik Vestergaard – www.matematiksider.dk U D F FÇ D L ÇD L BÇ D B Ifølge sætning 27 er den totale sandsynlighed for D følgende: P( D ) = P( D F ) ⋅ P( F ) + P( D B ) ⋅ P( B ) + P( D B ) ⋅ P( B ) (14) = 0,41 ⋅ 0,50 + 0,22 ⋅ 0,24 + 0,34 ⋅ 0,26 = 0,346 Sandsynligheden for at den tilfældigt udtrukne person vil yde en donation er altså 34,6%. Lad os analysere lidt på situationen, før vi afslutter opgaven. For det første ser vi, at udtrykket ovenfor ikke er andet end et simpelt vejet gennemsnit: Vi tager sandsynlighederne for donationer fra de forskellige områder og vægter med den tilhørende sandsynlighed for at trække en person fra det pågældende område! Vi kan gå et skridt videre i analysen. Ifølge beviset for sætning 27 eller alternativt fra sætning 14 har vi nemlig, at vi kan skrive (10) på følgende alternative måde: (15) P( D ) = P( F ∩ D ) + P( B ∩ D ) + P( L ∩ D ) Og det giver i høj grad mening: Hændelserne F, B og L udgør en klassedeling af U. Derfor vil F ∩ D , B ∩ D og L ∩ D være disjunkte og have foreningsmængde lig med D. Udtrykket (15) er derfor i fin overensstemmelse med sætning 9d)! I øvrigt står hændelsen F ∩ D for: den udvalgte person er fra Frederiksberg og yder en donation. Tilsvarende med B ∩ D og L ∩ D . Denne opdeling af problemet er altså kernen i sætning 27 om den totale sandsynlighed. □ Eksempel 31 Lad os arbejde lidt videre på eksempel 30 ved at stille et ekstra spørgsmål: Det oplyses nu, at den udtrukne person rent faktisk foretog en donation. Hvad er sandsynligheden for, at personen bor i Frederiksberg kommune? Løsning: Vi skal udregne P ( F D ) , som ifølge definition 12 er P ( F ∩ D ) P ( D ) . Som omtalt i forrige eksempel er P ( F ∩ D ) = P ( D F ) ⋅ P ( F ) , og i (14) er der et udtryk for den totale sandsynlighed P( D ) . Vi har altså: P( F D ) = P( D F ) ⋅ P( F ) P( D F ) ⋅ P( F ) + P( D B ) ⋅ P( B ) + P( D B ) ⋅ P( B ) 20 © Erik Vestergaard – www.matematiksider.dk som faktisk er nøjagtigt det samme udtryk, som man får ved at sætte ind i Bayes' formel i sætning 27. Vi har altså fået vendt problemet "på hovedet": Vi udregner P ( F D ) ud fra P ( D F ) med mere. Når vi sætter tal ind, får vi: P( F D) = 0,41 ⋅ 0,50 0, 2050 = = 0,592 0,41 ⋅ 0,50 + 0,22 ⋅ 0,24 + 0,34 ⋅ 0,26 0,3462 Der er altså 59,2% sandsynlighed for, at den donerende person er fra Frederiksberg. □ Eksempel 32 (Test for sygdom) Vi skal nu kigge på et eksempel, som på bedste vis illustrerer rækkevidden af Bayes' formel. Det er samtidig en situation af ret generel karakter. En person får foretaget en test for en sygdom, og testen falder ud positiv. Det vides, at 1 ud af 1000 indbyggere i befolkningen har sygdommen. Som det er tilfældet for alle mulige andre testmetoder, er den pågældende ikke perfekt: I 2% af testene fås en falsk-positiv og i 5% af tilfældene en falsknegativ test. Hvad er sandsynligheden for at personen rent faktisk har sygdommen? Løsning: Der er to ting i spil her: Om personen har sygdommen eller ej samt om testen viser positiv eller negativ. Meget i stil med eksperimentet med to terninger, forestiller vi os et overordnet multieksperiment, der består af to deleksperimenter. Det ene er at undersøge om personen har sygdommen. Det andet består i at foretage testen. Der er fire udfald i udfaldsrummet: (har sygdom, positiv test), (har ikke sygdom, positiv test), (har sygdom, negativ test) og (har ikke sygdom, negativ test). Vi indfører de to hændelser: T : "Testen viser positiv" S : "Personen har sygdommen" Hændelsen S er mængden {(har sygdom, positiv), (har sygdom, negativ)} , mens T er mængden {(har sygdom, positiv test), (har ikke sygdom, positiv test)} . Det overlades til læseren at finde ud af, hvilke udfald, der ligger i hver af de komplementære hændelser c S c og T c . Af oplysningen om falsk-positiv uddrager vi følgende: P(T S ) = 0,02 . c c Heraf får vi automatisk at P(T c S ) = 1 − P(T S ) = 1 − 0,02 = 0,98 (se eventuelt (13) side 18). De øvrige sandsynligheder overlades til læseren. Sætning 9c) skal her igen bringes i spil. Vores opgave er at bestemme sandsynligheden for at personen har sygdommen, men med viden om at testen er positiv. Vi skal med andre ord beregne den betingede sandsynlighed P ( S T ) . Det er oplagt at benytte Bayes' formel. 21 © Erik Vestergaard – www.matematiksider.dk P( S T ) = P(T S ) ⋅ P( S ) c P(T S ) ⋅ P( S ) + P(T S ) ⋅ P( S ) c = 0,95 ⋅ 0,001 = 0,045 0,95 ⋅ 0,001 + 0,02 ⋅ 0,999 hvor vi har anvendt klasseinddelingen U = S ∪ S c . Da klasseinddelingen kun indeholder to mængder, har vi kunnet bruge specialtilfældet (11) af Bayes' formel fra side 17. For at få et større overblik over situationen, kan vi vælge at tegne en figur: T c T har sygdom nega!v test har ikke sygdom nega!v test 0,05 × 0,001 0,98 × 0,999 har sygdom posi!v test har ikke sygdom posi!v test 0,95 × 0,001 0,02 × 0,999 S Sc I udtrykket for P ( S T ) øverst på siden er tælleren lig med P( S ∩ T ) og nævneren er den totale sandsynlighed P (T ) . Dette fremgår direkte af de første udledninger i dette afsnit. Hændelsen S ∩ T indeholder det ene udfald (har sygdom, positiv test) og er indrammet med en orange kasse. Hændelsen T, som indeholder de to udfald (har sygdom, positiv test) og (har ikke sygdom, positiv test), er indrammet med en lilla kasse. Det er ikke underligt, at vi dividerer sandsynlighederne for de to hændelser med hinanden, for med den nye viden T om at testen er positiv, skal vi lade alle de udfald ude af betragtning, hvor T ikke er positiv. Vi sætter sandsynligheden for de udfald, hvor testen er positiv og hvor personen har sygdommen op mod sandsynligheden for alle de udfald, hvor testen viser positiv. Tilbage til talresultatet ovenfor. Det er nok overraskende for de fleste. Her har personen fået at vide, at testen er positiv og at kun 1 ud af hver 1000 personer har sygdommen. Alligevel er sandsynligheden for at have sygdommen, med den nye viden om at testen er positiv, mindre end 5%! Det er godt nyt. Der vil skulle nye undersøgelser til for at afklare, om personen ret faktisk har sygdommen. Man kan få et indblik i, hvad der er årsagen til den lave sandsynlighed ved at tegne et hændelsestræ. Det er gjort på næste side. Lad os sige, at vi ønsker at udregne, hvad der sker for en by på 100000 indbyggere, hvor alt foregår gennemsnitligt efter sandsynlighederne. Vi starter med at dele ud i to grene alt efter om personen har sygdommen eller ej. Der vil være 0.001 ⋅ 100000 = 100 , der har sygdommen, og 0.999 ⋅ 100000 = 99900 , som ikke har sygdommen. Vi videreinddeler nu i grene alt efter om personen har en positiv eller negativ test. Her anvendes de betingede sandsynligheder. For eksempel vil der være 0.95 ⋅ 100 = 95 , som både har sygdommen og tester positiv. 22 © Erik Vestergaard – www.matematiksider.dk 95 0.95 S,T 100 S 0.001 0.05 5 S,T c 100000 1998 0.02 0.999 S c,T 99900 Sc 0.98 97902 S c,T c Vi bemærker, at der er ganske mange personer, som tester positivt, men ikke har sygdommen. En lille procent af et stort tal, her 2% af 99900, giver i dette tilfælde et pænt stort tal. Det er årsagen til den overraskende lille chance for at have sygdommen, selv om man tester positiv. Der er altså 95 ud af de 95 + 1998 = 2093 , der tester positive, som har sygdommen, i alt en andel på 95 (95 + 1998) = 0,045 = 4,5% . □ Eksempel 33 (Monty Hall problemet) I et TV show skal en spiller åbne én ud af tre døre og får som præmie det, der står bag døren. Bag en af dørene står hovedpræmien, som er en splinterny Cadillac, mens der bag de andre to døre befinder sig en ged. I første omgang bliver spilleren bedt om at vælge en dør uden at åbne den. Studieværten ved bag hvilken dør hovedpræmien befinder sig og vælger blandt de to ikke-valgte døre at åbne en, som skjuler en ged. Derefter får spilleren valget mellem at åbne den dør, denne valgte i første omgang, eller at skifte til den anden uåbnede dør og åbne den. Hvad bør spilleren vælge at gøre? Lad os præcisere: 1) Studieværten åbner altid en dør, som skjuler en ged. 2) Studieværten åbner aldrig den dør, spilleren har valgt. 3) Hvis studieværten kan åbne mere end én dør uden at overtræde de to første regler, så vælger studieværten sin dør tilfældigt. Ifølge artiklen [9] går dette berømte problem mindst tilbage til 1959, hvor Martin Gardner havde en version af opgaven i sin klumme i Scientific American. Siden er opgaven dukket op diverse steder. Versionen, som florerer i dag, er navngivet efter en vært fra et gammelt amerikansk TV show. Han brugte kunstnernavnet Monty Hall. © Erik Vestergaard – www.matematiksider.dk 23 24 © Erik Vestergaard – www.matematiksider.dk Det hævdes at problemet tiltrak langt flere breve og kommentarer end noget andet problem. Da Marilyn vos Savant gav sin i øvrigt rigtige løsning i hendes klumme i magasinet Parade, afstedkom det korrespondance med vrede læsere, som mente hendes løsning var forkert. Skænderiet endte endda med at blive omtalt på forsiden af New York Times. Som en ekspert i kognitionsvidenskab udtrykte (oversat): Intet andet statistisk problem kommer bare tæt på at narre alle folk hele tiden, som dette problem gør. Problemet er specielt interessant på grund af dets specifikke art, dets reproducerbarhed og dets immunitet overfor højere uddannelse. Skulle du være blandt dem, som ikke køber forklaringerne nedenfor, så skal du vide, at du altid kan afgøre sagen med en Monte Carlo simulation. Det er en empirisk metode, hvor man gentager forsøget et meget stort antal gange, fx på computer, registrerer udfaldene og bruger fordelingen af udfaldene til at begrunde et udsagn om sandsynligheden for en hændelse. Her skal afgøres om sandsynligheden for at vinde, når spilleren skifter dør, er større end sandsynligheden for at vinde, hvis spilleren holder fast i sit første valg. Monte Carlo metoden bygger naturligvis på Store tals lov, som meget løst skrevet udtrykker, at held og uheld udligner sig med tiden, forstået på den måde, at frekvenserne vil nærme sig til de søgte sandsynligheder, hvis man udfører eksperiment et tilstrækkelig stort antal gange. Lad os analyse problemet. Ikke overraskende involverer det betinget sandsynlighed. For det første kan vi uden indskrænkning antage, at spilleren vælger dør nr. 1. Dør nummeret er nemlig ikke vigtigt; det er derimod placeringen af Cadillacen i forhold til den valgte dør og også hvilken dør værten vælger at åbne i forhold hertil. Lad os definere følgende hændelser: C1 : Cadillac'en er bag dør nr. 1 V1 : Værten vælger at åbne dør nr. 1 C2 : Cadillac'en er bag dør nr. 2 V2 : Værten vælger at åbne dør nr. 2 C3 : Cadillac'en er bag dør nr. 3 V3 : Værten vælger at åbne dør nr. 3 1 2 3 Vært åbner Spiller ski!er Lad os sige, at værten vælger at åbne dør nr. 3. Vi ønsker at bestemme sandsynligheden for at spilleren vinder Cadillac'en, hvis denne skifter dør. Det svarer til at bestemme den betingede sandsynlighed P (C2 V3 ) . Vi kan ikke direkte udregne denne betingede sandsynlighed, men Bayes kommer os til hjælp, da vi kender de omvendte betingede sand- 25 © Erik Vestergaard – www.matematiksider.dk synligheder. Når vi ikke har fået nogen viden, så er det lige sandsynligt bag hvilken dør Cadillac'en befinder sig, dvs. P(C1 ) = P(C2 ) = P(C3 ) = 13 . Hvis Cadillac'en befinder sig bag dør nr. 1, så kan værten vælge at åbne dør nr. 2 eller dør nr. 3, hvilket betyder at P (V3 C1 ) = 12 . Hvis Cadillac'en befinder sig bag dør nr. 2, så er værten nødsaget til at åbne dør nr. 3, hvilket betyder at P (V3 C2 ) = 1 . Hvis Cadillac'en er bag dør nr. 3, så er værten nødt til at åbne dør nr. 2, hvorfor P (V3 C3 ) = 0 . Bayes' formel i sætning 28 giver os nu følgende: P (C2 V3 ) = (16) = P (V3 C2 ) ⋅ P (C2 ) P (V3 C1 ) ⋅ P (C1 ) + P (V3 C2 ) ⋅ P (C2 ) + P(V3 C3 ) ⋅ P(C3 ) 1 2 ⋅ 13 1 ⋅ 13 + 1 ⋅ 13 + 0 ⋅ 13 = 1 3 1 6 + 1 3 = 2 3 Åbner værten derimod dør nr. 2 i stedet for dør nr. 3, vil det give samme sandsynlighed, da situationen er symmetrisk, altså P (C3 V2 ) = 23 . Der er altså en sandsynlighed på 2/3 for at vinde Cadillac'en, hvis man skifter dør, og dermed nødvendigvis en sandsynlighed på 1/3 for at vinde Cadillac'en, hvis man fastholder sit første valg af dør. Spilleren bør altså altid skifte dør! Situationen kan også beskrives i et hændelsestræ: 1 2 Værten åbner dør nr. 2 1×1 =1 3 2 6 1 2 Værten åbner dør nr. 3 1×1 =1 3 2 6 Cadillac'en er bag dør 2 1 Værten åbner dør nr. 3 1 ×1 = 1 3 3 Cadillac'en er bag dør 3 1 Værten åbner dør nr. 2 1 ×1 = 1 3 3 Cadillac'en er bag dør 1 1 3 1 3 1 3 En alternativ måde at gennemføre udregningen af P (C2 V3 ) på, er ved at farve de kasser gule, der svarer til at værten åbner dør nr. 3. De har en samlet sandsynlighed på 16 + 13 . Af de stier, som fører til de gule kasser, er det den nederste, som svarer til at Cadillac'en er bag dør nr. 2. Det har en sandsynlighed på 13 . Vi har dermed følgende: 26 (17) © Erik Vestergaard – www.matematiksider.dk P(C2 V3 ) = P(C2 ∩ V3 ) = P(V3 ) 1 3 1 6 + 13 = 2 3 jf. definition 12 på betinget sandsynlighed. Vi får altså præcist det samme som i udregningen (16) … naturligvis! Det har vist sig, at langt de fleste opgaveløsere mener, at sandsynligheden for at vinde Cadillac'en er lige stor, hvad enten spilleren bliver ved sit førstevalg eller skifter dør. De pågældende mener ikke, at værtens handling ændrer på noget. Men det er forkert! Ved sin handling giver han faktisk spilleren noget information. Værten kunne jo ikke åbne dør 1, som spilleren startede med at vælge, heller ikke selv om der var en ged bag den. Med dør nr. 2 ved man derimod ikke, om værten fravalgte at åbne den, fordi Cadillac'en var bag den eller hun blot valgte dør nr. 3, fordi hun valgte tilfældigt mellem dør 2 og dør 3. Situationerne er altså ikke symmetriske. Informationen gør det mere sandsynligt, at Cadillac'en befinder sig bag dør nr. 2. En helt anden ting er, at de personer, som har deltaget i spillet, i stor udstrækning har valgt ikke at skifte dør. Årsagen er psykologisk. Det føles simpelthen mere ærgerligt at skifte standpunkt og se, at man skulle være blevet ved sit førstevalg, end at blive ved sit førstevalg og se, at man skulle have skiftet. Denne psykologiske mekanisme har endda vist sig at fungere på tværs af kulturer. I [9] gives flere varianter af Monty Hall problemet, nogle endda med flere spillere eller flere døre. I opgavesektionen kan du finde en variant. □ 5. Bayes' formel på odds form I England betyder fx odds 3:1 eller 3/1, at man vinder 3 ved en indsats på 1. Denne tankegang kan benyttes i en reformulering af Bayes' formel på odds form, forstået på den måde, at man ønsker et udtryk for sandsynligheden for en hypotese H (hændelse) i forhold til sandsynligheden for den komplementære hændelse, både med og uden viden eller evidence givet ved hændelsen E. Sætning 34 (Bayes' formel på odds form) Lad H og E være to hændelser i et endeligt sandsynlighedsfelt. Da gælder: (18) P( H E ) P( E H ) P( H ) = ⋅ c c P( H E ) P( H c ) P ( E H ) a posteriori odds Bayes' faktor a priori odds Bevis: Benyt (5) i sætning 26 til at finde udtryk for henholdsvis P ( H E ) og P( H c E ) . Divider derefter og reducer. Detaljerne overlades til læseren. □ © Erik Vestergaard – www.matematiksider.dk 27 Brøken på venstre side i (18) kan tolkes som odds til gunst for hypotensen H, givet informationen E. Den kaldes derfor også passende for a posteriori odds, fordi det er opdaterede odds efter viden er opnået. Den sidste brøk på højre side af lighedstegnet kan derimod tolkes som odds til gunst for hypotensen H før viden er opnået, hvorfor den også kaldes a priori odds. Endelig er der den første brøk på højre side af lighedstegnet. Den kaldes Likelihood Ratio eller Bayes' faktor. Det er denne faktor, som skal ganges på a priori odds for at få a posteriori odds. Den fortæller noget om, hvor kraftigt odds ændrer sig, når der kommer ny viden til! Er faktoren større end 1, vil odds for hypotesen H højnes efter den nye viden er erhvervet. På samme måde vil odds for hypotesen mindskes med den nye viden, hvis Bayes' faktor er mindre end 1. Bemærkning 35 Det bør nævnes, at når man sammenligner med det engelske begreb odds, så er det ikke gevinsten ved et spil, for de er jo i en vis forstand omvendt proportionale med sandsynlighederne: Jo mindre sandsynlighed, jo større odds på gevinsten. Så længere holder analogien altså ikke. Hos os er det odds på sandsynligheder! Man kan generalisere sætning 34 til følgende: Sætning 36 (Bayes' formel på relative odds form) Lad H1 og H 2 være to hypoteser (hændelser) og E være viden (en hændelse) i et endeligt sandsynlighedsfelt. Da gælder følgende: P ( H1 E ) P ( E H1 ) P ( H1 ) = ⋅ P( H 2 E ) P( E H 2 ) P( H 2 ) (19) Bevis: Analogt til sætning 34. Overlades til læseren. □ Eksempel 37 Lad os kigge på eksempel 32 med test for sygdom igen. Vi har der: P( S T ) P(T S ) P( S ) 0,95 0,001 = ⋅ = ⋅ = 47,5 ⋅ 0,001 = 0,0475 c c c 0,02 0,999 P( S T ) P(T S ) P( S ) Bayes faktor er her 47,5. Helt uden at udregne a priori odds kan vi altså sige, at viden om den positive test forøger sandsynligheden for at personen er syg med en faktor 47,5. Da a priori odds imidlertid er meget små, er sandsynligheden for, at personen har sygdommen selv efter kendskab til testresultatet, stadig pænt lille. □ 28 © Erik Vestergaard – www.matematiksider.dk 6. Bayes' formel i retsvidenskab Retsvidenskab er et andet eksempel på et område, hvor Bayes' formel og andre sider af sandsynlighedsregningen kommer i spil. Derfor fortjener emnet sit eget afsnit. I vores retssystem kan en dom afsiges på grundlag af et bevis og/eller en række indicier. Politiet og anklagemyndigheden skal bevise uden for enhver rimelig tvivl, at den tiltalte er skyldig i tiltalen. Men hvad ligger der i denne formulering? En lidt mere matematisk måde at sige det på vil være at forlange, at sandsynligheden for at den tiltalte er skyldig givet beviserne skal være tilstrækkelig stor, før man fælder dom. Præcis hvor høj er mere diffust. Vores retssystem er også sådan indrettet, at man så vidt muligt sætter en dyd i, at inddrage menigmand og ikke bare professionelle dommere i bedømmelsen. Det sker gennem anvendelsen af nævninge i udvalgte sager. Derved sikres en højere grad af legitimitet i befolkningen. Udover indhentningen af ekspertvurderinger er det også meningen, at nævningene skal anvende deres "sunde fornuft" i afgørelsen, dog støttet af dommerens vejledning og anvisning. Systemet fungerer udmærket i mange sager, men undertiden bliver problemstillingerne så komplekse, at mennesker ikke kan overskue dem, eller den sunde fornuft fejler afgørende. Det sidste foregår også i helt simple problemstillinger: Fremførte argumenter kan synes meget overbevisende, men kan være logisk inkonsistente. At disse argumenter slipper igennem "filteret" kan være fatalt for den tiltalte. Vi skal i dette afsnit analysere argumenterne matematisk og kigge på konkrete retssager, hvor der blev begået alvorlige fejl. Anklagerens fejlslutning Vi antager at der er sket en forbrydelse, hvor der er fundet blod på gerningsstedet udover blodet fra offeret. En mistænkt, hvis blodtype matcher blodet fra gerningsstedet, er anholdt. Kun 1% af befolkningen har den pågældende blodtype. Da ser man undertiden anklageren anvende nedenstående fejlagtige følgeslutning: Der er 1% chance for at tiltalte ville have samme blodtype, hvis han var uskyldig. ⇓ Der er 1% chance for at tiltalte er uskyldig. ⇓ Der er 99% sandsynlighed for at tiltalte er skyldig. 29 © Erik Vestergaard – www.matematiksider.dk Analyse: Hypotesen H og viden E er følgende hændelser: E : Anklagedes blodtype matcher blodet fra gerningsstedet H : Anklagede var ikke på gerningsstedet Faktisk er sidstnævnte følgeslutning i rammen korrekt, men da førstnævnte er forkert, bryder argumentationen sammen. Anklageren tror fejlagtigt, at P ( H E ) = 0,01 . Havde det været rigtigt, ville der rigtignok gælde: P( H c E ) = 1 − P( H E ) = 1 − 0,01 = 0,99 (se evt. sætning 29), altså en sandsynlighed på 0,99 for at anklagede var på gerningsstedet, givet viden om at blodtyperne matcher. Vi antager her, at det at have været på gerningsstedet er ækvivalent med at være skyldig! Men anklageren tager altså fejl: der gælder P ( E H ) = 0,01 ! På engelsk går forvekslingen under betegnelsen the fallacy of the transposed conditional eller i denne sammenhæng: The Prosecutors Fallacy. Anklageren får altså vendt rundt på hændelserne i den betingede sandsynlighed. Vi kan dog godt forsøge at vurdere den "omvendte betingede sandsynlighed", nemlig ved at anvende Bayes' formel. Hertil får vi brug for a priori sandsynligheden P ( H ) . I fraværet af anden viden, antager vi, at alle 5000 mandlige indbyggere i den lille by er mistænkte, og at de er lige sandsynlige gerningsmænd. Sidstnævnte kan naturligvis diskuteres; man kan eventuelt indskrænke til et bestemt aldersinterval. Foreløbig gør vi det dog simpelt. Sandsynligheden for at tiltalte var på gerningsstedet er dermed 1/5000, og sandsynlighe1 den for at han ikke var der, fås ved at trække første sandsynlighed fra 1: P ( H c ) = 5000 4999 og P( H ) = 5000 . Vi får af Bayes' formel (se (11)): P( H E ) = (20) = P( E H ) ⋅ P( H ) c P( E H ) ⋅ P( H ) + P( E H ) ⋅ P( H c ) 4999 0,01 ⋅ 5000 4999 1 0,01 ⋅ 5000 + 1 ⋅ 5000 = 0,980 og dermed P( H c E ) = 1 − P( H E ) = 1 − 0,980 = 0,020 . Altså en sandsynlighed på blot 2,0% for at anklagede er den skyldige, ikke 99%! □ Anklagerens fejlslutning (Prosecutors Fallacy) er et betydeligt problem i retssale, ikke mindst når der er tale om alvorlig kriminalitet og retssager, hvor et af hovedargumenterne er af statistisk art. Blot en lille sproglig drejning giver et helt andet og forkert indhold. Den begås ikke blot af anklageren, men også undertiden ubevidst af forsvareren. Den begås af dommere, journalister og selv kriminaltekniske videnskabsfolk, der er indkaldt som vidner, kan også i et uskarpt øjeblik blive fanget i at bruge den. Det er derfor ikke underligt, at jurymedlemmer ofte begår fejlen, enten fordi de selv foretager fejlslutningen i hovedet eller får overbragt den i retssalen. En del ansøgninger om en appelsag bliver imødekommet netop fordi man har opdaget at anklagerens fejlslutning er blevet anvendt undervejs i den oprindelige retssag. I [14] kan man fra side 244 og frem finde diverse eksempler, hvor fejlslutningen har været i spil. 30 © Erik Vestergaard – www.matematiksider.dk Forsvarerens fejlslutning Forsvarerens fejlslutning (Engelsk: Defendant's Fallacy) er et slags modstykke til anklagerens fejlslutning. Den har overvejende en tendens til at nedtone sandsynligheden for tiltaltes skyld. Typisk bagatelliseres et spor i sagen, hvorefter det foreslås at sporet kan ignoreres eller tages ud af sagen. Lad os se på et eksempel fra [16]: En kvinde er blevet dræbt og hendes ægtemand er anklaget for at være gerningsmanden. Under sagen kommer det frem, at manden har været voldelig over for sin kone igennem længere tid. Forsvarsadvokaten fremfører, at hans klients misbrug bør udelukkes fra sagen, fordi kun 1 ud af 10000 mænd, som misbruger deres kone, efterfølgende dræber dem. Analyse: Vi har en hypotese H om skyld samt to beviser E1 og E2 : E1 : Konen er myrdet E2 : Ægtemanden har været voldelig overfor sin kone igennem længere tid H : Ægtemanden har myrdet sin kone 1 , men den er ikke relevant, Den størrelse forsvarsadvokaten nævner er P ( H E2 ) = 10000 da den ikke tager hensyn til det andet bevis i sagen, nemlig at konen er myrdet! Det er altså P ( H E1 ∩ E2 ) , ofte skrevet P ( H E1, E2 ) , som vi ønsker. Vi ser på situationen i opgave 6.4. Med de ekstra oplysninger angivet i opgaven, vil man komme frem til, at ægtemandens skyld vokser fra P ( H E1 ) = 0,20 til P ( H E1, E2 ) = 0,56 , altså fra 20% til knap 56%, når oplysningen om vold i hjemmet tilføjes. Dette tal er ikke uvæsenligt. □ Eksempel 38 (Lucia de Berk sagen) I et autentisk eksempel fra 2003 blev den hollandske sygeplejerske Lucia de Berk idømt fængsel på livstid for at have dræbt 4 patienter og forsøgt drab på 3 andre. Man havde fundet frem til, at Lucia havde været fysisk tilstede, mens mange af dødsfaldene på hospitalet fandt sted. Sagen byggede altovervejende på statistiske argumenter. En statistiker havde udregnet odds for at det kunne være sket ved en ren tilfældighed – dvs. hvis hun var uskyldig – og var kommet frem til odds 1 til 342 millioner. Herefter gjorde domstolen og stort set alle andre, der var involveret i sagen, sig skyldig i anklagerens fejlslutning. I denne situation vil den lyde således: Sandsynligheden for at kvinden er uskyldig er 1/342000000. Heldigvis var der en videnskabsteoretiker Ton Derksen, der sammen med sin søster Metta de Noo-Derksen undrede sig over sagen. De udgav omkring 2006 en bog om det de mente var en fejlbehæftet rettergang. Senere kom matematikeren Richard Gill fra Leiden ind i billedet. Gill fandt frem til, at førstnævnte statisti- 31 © Erik Vestergaard – www.matematiksider.dk kers vurdering var kraftigt overvurderet og anklagerens fejlslutning blev fremhævet. Den 14. april 2010 blev Lucia de Berk frikendt ved domstolen. Betydningen af beviser - Bayes' faktoren Hvis man vil fremhæve betydningen af viden eller spor/beviser, som måske vil være en mere passende betegnelse under emnet retssager, kan man med stor fordel benytte Bayes' formel på odds form fra sætning 34. Vi lader igen hypotesen H være hændelsen at anklagede ikke var på gerningsstedet (altså er uskyldig), mens sporet er hændelsen E. (21) A posteriori odds for uskyld = Bayes-faktor × A priori odds for uskyld A priori odds for uskyld, altså brøken P( H ) P( H c ) , fortolker vi som forholdet mellem sandsynligheden for uskyld og sandsynligheden for skyld før inddragelse af spor. A posteriori odds P( H E ) P( H c E ) er det samme forhold, blot med sporet taget i bec tragtning. Bayes-faktoren er brøken P( E H ) P( E H ) , som involverer de omvendte betingede sandsynligheder. Tælleren omtales undertiden som træfsandsynligheden (på engelsk: hit rate): det er sandsynligheden for at se det pågældende bevis, givet at tiltalte er uskyldig. Nævneren betegnes sandsynligheden for falsk alarm (på engelsk: false alarm rate). Det er sandsynligheden for at se det pågældende bevis, givet at tiltalte ikke er uskyldig, altså skyldig. Man kan også kalde den for en falsk positiv. Det gode ved (21) er, at formlen gennem Bayes-faktoren giver et udtryk for betydningen af beviset uden at inddrage a priori sandsynligheden for uskyld: P ( H ) . En stor del af modstanden hos dommere og advokater mod at bruge Bayes' formel i retssale ligger nemlig i, at de ikke bryder sig om at skulle vurdere a priori sandsynligheden for uskyld. I eksemplet under anklagerens fejlslutning får vi: Bayes-faktor = P( E H ) c P( E H ) = 0,01 = 0,01 1 Odds for uskyld bliver altså 100 gange så lille, når man får at vide, at anklagedes blodtype matcher blodet fra gerningsstedet. Sagt på en anden måde: Med de nye spor øges forholdet mellem sandsynlighederne for skyld og uskyld altså med en faktor 100. Det skal nævnes, at der naturligvis er situationer, hvor man er nødsaget til at inddrage a priori sandsynlighederne. Det er for eksempel tilfældet, hvis man har vigtig viden om den underliggende population. Eksempel 39 (Sagen om Birmingham six) Et autentisk eksempel, hvor Bayes-faktoren blev bragt i spil var sagen, der går under navnet "Birmingham six case". Den 21. november 1974 blev der begået bombeattentater i to pubber i Birmingham i England. I alt 21 mennesker døde og 182 blev såret. Hand- 32 © Erik Vestergaard – www.matematiksider.dk lingen blev tilskrevet den irske republikanske hær (IRA), og seks personer blev i 1975 idømt fængsel på livstid. Hovedanklagen mod de seks bestod i, at de havde spor af nitroglycerin på hænderne. Det var i hvert fald hvad en såkaldt Griess test viste. En kriminaltekniker udtalte i retten, at han var 99% sikker på, at de anklagede havde spor efter sprængstoffer på deres hænder. Lad os betragte følgende to hændelser: H : De anklagede har håndteret sprængstoffer E : En prøve fra de anklagedes hænder giver en positiv Griess test Der er imidlertid mange andre stoffer end nitroglycerin, som kan give anledning til et positivt testresultat. Det er for eksempel tilfældet for maling, lak, spillekort, jord, benzin, cigaretter og sæbe. Kriminalteknikeren forveksler P ( E H ) med P ( H E ) og begår dermed anklagerens fejltagelse. Det kan meget muligt være sandt, at sandsynligheden for at få en positiv Griess test, hvis man har håndteret sprængstoffer, er i nærheden af 99%. Det betyder dog ikke nødvendigvis, at sandsynligheden for, at de anklagede har håndteret sprængstoffer, givet at de har fået et positivt testresultat, også er 99%! Det skal siges, at vi her antager, at H er synonym med skyldig. I 1991 blev en appelansøgning accepteret efter aviser, dokumentarudsendelser og bøger havde rejst tvivl om dommen. Den 14. marts 1991, efter at have siddet ca. 16 år i fængsel, blev de fængslede frikendt efter en retshandling, hvor den tidligere dom blev erklæc ret usikker og utilfredsstillende. Forsvaret havde succes med at overveje P( E H ) , altså at få en positiv Griess test, givet at de ikke havde håndteret sprængstoffer, altså var uskyldige. Eftersom nogle af de seks personer røg, samt at de havde spillet kort på et c tog kort før anholdelsen, blev det godtgjort, at den betingede sandsynlighed P( E H ) c for "falske alarm" var ret stor. Dette bevirker, at Bayes-faktoren P( E H ) P( E H ) ikke er særlig stor, hvorfor betydningen af bevismaterialet ikke bidrager meget til sagens opklaring. I erkendelsen af dette samt af det faktum, at der ikke var andre væsentlige spor i sagen, blev dommen omstødt. De dømte modtog alle store erstatninger. □ Vi har ovenfor set, at Bayes-faktoren for skyld knytter sig til et bestemt bevis E i sagen. Bayes-faktoren for uskyld er blot den reciprokke brøk. Det er hensigtsmæssigt at fremhæve nogle egenskaber for Bayes-faktoren for skyld: Sætning 40 Lad H være hypotesen (hændelsen) at tiltalte er skyldig og lad E være et bevis i sagen. Da kan Bayes-faktoren B for skyld bruges til at konkludere følgende: B > 1 : Beviset er til fordel for anklageren B < 1 : Beviset er til fordel for forsvareren B = 1 : Der er tale om et neutralt bevis, dvs. det taler hverken til fordel for anklageren eller forsvareren. 33 © Erik Vestergaard – www.matematiksider.dk c Bevis: Vi husker at B = P( E H ) P( E H ) . Sætning 34 giver umiddelbart det ønskede, idet forholdet mellem sandsynligheden for skyld og sandsynligheden for uskyld ændres med Bayes-faktoren, når det nye bevis inddrages. Detaljerne overlades til læseren. □ Eksempel 41 (Adams sagen) I 1991 blev en ung kvinde, Miss Marley, udsat for en voldtægt, da hun gik hjem i de tidlige morgentimer i en by lidt nord for London. I kvinden fandt man sæd, som man lod DNA-undersøge. Politiet holdt resultatet op mod DNA-profilerne i deres database. I begyndelsen af 90'erne var politiets database med DNA profiler ikke stor, og det resulterede da heller ikke i noget match. Sagen blev henlagt. To år senere blev Denis John Adams anholdt i forbindelse med en anden seksuel krænkelse. Det viste sig, at hans DNA matchede DNA for den sæd, man havde fundet to år tidligere. Manden blev anholdt. Al anden evidens, udover DNA-sporet, talte for Adams uskyld. Offeret havde for eksempel ikke været i stand til at udpege den anholdte i et line-up. Desuden havde Adams et alibi derved, at hans kæreste havde bekræftet, at de to havde været sammen hele dagen, mens forbrydelsen havde fundet sted. Under retssagen, som fandt sted i januar 1995, fremlagde anklageren DNA-beviset som et stærkt kort. Det blev estimeret, at sandsynligheden for at en uskyldig ville have samme DNA-profil som den fra gerningsstedet, ville være som 1:200.000.000. Det var rettens idé at DNA-beviset skulle håndteres som "videnskab" (science), mens de resterende beviser skulle håndteres som "sund fornuft" (common sense) af juryen. På den måde blev Adams-sagen en slags testsag, hvor et stærkt videnskabeligt bevis blev holdt op mod en række vidnesbyrd af typen "sund fornuft". Forsvareren Mr. Thwaites angreb den måde man var kommet frem til sandsynligheden på de 1 til 200 mio. på. Derudover argumenterede forsvareren for, at udregningen af sandsynligheden i det kvantitative DNA-bevis beroede på en række skøn indenfor feltet retsmedicin og således principielt ikke var væsentligt forskellig fra de "kvalitative sund fornuft" skøn, som indgik i forsvarets beviser. Derfor foreslog forsvaret at kvantitative metoder også skulle benyttes til at vurdere betydningen af forsvarets beviser. Statistik-eksperten professor P. Donnelly blev inddraget som vidne, og han redegjorde for, at den eneste logiske og konsistente måde, hvorpå juryen kunne bedømme både DNA-beviset og de øvrige beviser, var ved at anvende Bayes' formel. Mr. Donnelly anviste desuden et muligt spørgeskema, man kunne give jury-medlemmerne. Metoden blev accepteret af anklageren. Retten bekendtgjorde, at hvert enkelt jurymedlem kunne afgøre med sig selv, om de ville bruge det. Spørgeskemaet indeholdt syv spørgsmål. Hvert enkelt spørgsmål bestod i, at jurymedlemmet skulle estimere en sandsynlighed i forbindelse med fire beviser: 34 © Erik Vestergaard – www.matematiksider.dk 1) Antag at man ikke ved noget yderligere om sagen: hvad er så sandsynligheden for at voldtagsforbryderen kommer fra det lokale område? 2a) Hvad er sandsynligheden for at tiltalte ikke vil passe på offerets beskrivelse, hvis han er uskyldig? 2b) Hvad er sandsynligheden for at tiltalte ikke vil passe på offerets beskrivelse, hvis han er skyldig? 3a) Hvad er sandsynligheden for at Adams under afhøringen afgav det vidne, som han gjorde, hvis han er uskyldig? 3b) Hvad er sandsynligheden for at Adams under afhøringen afgav det vidne, som han gjorde, hvis han er skyldig? 4a) Hvad er sandsynligheden for at tiltalte vil kunne få det alibi han har, hvis han er uskyldig? 4b) Hvad er sandsynligheden for at tiltalte vil kunne få det alibi han har, hvis han er skyldig? Professor Donnelly fortalte ikke hvilke sandsynligheder, jurymedlemmerne skulle sætte på hvert spørgsmål, men han gav nogle illustrative eksempler, mens han demonstrerede proceduren. Lad os se på Mr. Donnellys illustrative eksempel: 1. Der er ca. 150000 personer mellem 18 og 60 år i lokalområdet, så hvis man for eksempel har svaret 75% til det første spørgsmål, så må det betyde, at den skyldige skal søges i en population på 150000 0,75 = 200000 personer. Det giver en a priori 1 sandsynlighed for skyld, som er P( H ) = 200000 og en a priori sandsynlighed for c skyld, P( H ) , som får ved at trække førstnævnte sandsynlighed fra 1. Alt i alt giver det følgende a priori odds for skyld: P( H ) = P( H c ) 1 200000 199999 200000 = 1 199999 hvor det er underforstået at H står for hændelsen skyldig. 2. Offeret kunne ikke udpege tiltalte i et line-up, ligesom tiltalte heller ikke matchede den beskrivelse offeret oprindeligt havde givet. Antag, at man for eksempel satte sandsynlighederne i 2a) og 2b) til henholdsvis 90% og 10%. Så ville Bayes-faktoren for skyld for dette enkeltstående bevis være følgende: B1 = P( E1 H ) c P( E1 H ) = 0,10 1 = 0,90 9 hvor det er underforstået at H igen står for hændelsen skyldig og E1 står for hændelsen at offeret ikke matchede beskrivelsen af tiltalte. 3. I sin illustrative beregning estimerede professor Donnelly her, at der var en fifty-fifty chance for at tiltalte ville afgive det vidne, som han gjorde, i forhold til om denne er skyldig eller uskyldig. Det giver en Bayes-faktor for skyld på 1 i dette tilfælde, hvilket betyder at beviset er neutralt: 35 © Erik Vestergaard – www.matematiksider.dk B2 = P ( E2 H ) c = P ( E2 H ) 0,50 = 1 0,50 hvor H stadig står for hændelsen skyldig og E2 står for hændelsen, at tiltalte gav det vidne i afhøringen, som han gjorde. 4. Tiltalte fortalte at han var sammen med kæresten mens voldtægten foregik, og kæresten bekræftede hans alibi. Hvis svarene i 4a) og 4b) er henholdsvis 50% og 25%, så vil Bayes-faktoren for skyld for dette stykke bevis være: B3 = P ( E3 H ) c = P( E3 H ) 0,25 1 = 0,50 2 hvor E3 står for hændelsen at tiltalte havde det alibi, han havde. Hvad angår DNA-beviset, så er det egentligt af samme type, som de andre beviser. Det giver anledning til følgende Bayes-faktor for DNA-beviset: BDNA = P( E DNA H ) c P( EDNA H ) = 1 1 200000000 = 200000000 hvor EDNA står for hændelsen at tiltaltes DNA matcher DNA'et fra gerningsstedet. Med bestemmelsen af Bayes-faktorerne for de fire beviser E1 , E2 , E3 og E DNA ovenfor er vi nu i stand til at bestemme a posteriori odds for skyld givet samtlige beviser ved at multiplicere Bayes-faktorerne for de enkelte beviser sammen og gange med a priori odds for skyld. Forudsætningen for at det bliver så simpelt er, at de enkelte beviser er betinget uafhængige af hinanden. Den interesserede læser kan studere emnet betinget uafhængighed i afsnit 9 og løse opgave 9.1 i tilknytning hertil. Vi får: 36 © Erik Vestergaard – www.matematiksider.dk P ( H E1 , E2 , E3 , E DNA ) P ( E DNA H ) P ( E3 H ) P ( E2 H ) P ( E1 H ) P ( H ) = ⋅ ⋅ ⋅ ⋅ c c c c c c P ( H E1 , E2 , E3 , E DNA ) P ( E DNA H ) P ( E3 H ) P ( E2 H ) P ( E1 H ) P ( H ) 1 1 1 = 200000000 ⋅ ⋅ 1 ⋅ ⋅ = 55,55583333 2 9 199999 A posteriori odds for skyld, givet alle beviser, er altså p = 55,55583333 . Det er altså lidt over 55 gange så sandsynligt, at tiltalte er skyldig, som at han er uskyldig, når alle beviser tages i betragtning. Vil man have a posteriori sandsynligheden for skyld, altså tælleren x = P ( H E1 , E2 , E3 , E DNA ) , så kan den findes ved at udnytte, at nævneren er sandsynligheden for den komplementære hændelse. Det betyder, at nævneren er lig med 1 − x . Vi skal altså løse følgende ligning: x (1 − x ) = p . Løsningen er x = p (1 + p ) (se opgave 5.0 i opgavesektionen). Vi har dermed endeligt: P( H E1, E2 , E3 , E DNA ) = 55,55583333 = 0,9823183580 1 + 55,55583333 Vi ser at med alle beviserne taget i betragtning, er sandsynligheden for skyld altså nede på 98,2%. Om end en høj sandsynlighed, så dog ikke nær så tæt på 100%, som hvis man havde begået anklagerens fejlslutning på DNA-beviset alene. Det ville nemlig have 1 givet 1 − 200000000 = 99,9999995% . Det skal tilføjes at forsvarerensadvokaten også udfordrede DNA-sandsynlighederne, idet han argumenterede for, at de skulle være 1 ud af enten 20 mio. eller 1 ud af 2 mio. Juryen endte med at finde tiltalte skyldig. Dommen indikerede, at juryen mente at DNA-beviset var tilstrækkeligt til at bevise Adams skyld udover enhver rimelig tvivl. Et år senere appellerede Adams dommen. Forsvarernes begrundelse for appellen var, at DNA-beviset ikke alene var tilstrækkeligt til at fastslå skyld. For det andet mente forsvarerne, at dommeren heller ikke i tilstrækkelig grad havde instrueret eller forberedt nævningene i anvendelse af Bayes' sætning. Appeldomstolen accepterede, at retten ikke havde instrueret juryen ordentligt og henviste sagen til genoptagelse. Appeldomstolen afviste dog den anden begrundelse, idet den fastslog, at det er op til juryen at afgøre om DNA-beviser er tilstrækkeligt, trods fraværet af andre bekræftende beviser. Under appelsagen rejste retten omstridte spørgsmål om hvordan ekspertvidnet Mr. Donnelly kunne dominere juryens afgørelse. Retten kommenterede også det rimelige i at anvende Bayes' formel til at opsummere ikke-DNA såvel som DNA beviser: … we have very grave doubt as to whether that evidence [under anvendelse af Bayes' formel, red.] was properly admissible, because trespassing on an area peculiarly and exclusively within the province of the jury, namely the way in which they evaluate the relationship between one piece of evidence and another. Retten var altså kritisk med hensyn til at håndtere "videnskabelige beviser" og "sund fornuft beviser" under ét under anvendelse af Bayes' formel. Igen blev Adams dømt skyldig. Adams appellerede igen i 1997, men anmodningen om at genoptage sagen blev afvist. Den interesserede læser kan finde flere detaljer om sagen i [13]. 37 © Erik Vestergaard – www.matematiksider.dk Sandsynligheden for et andet match Amerikaneren Jonathan J. Koehler, der har en grad i "adfærdsvidenskab" (Behavorial Science), skrev i 1993 den prisbelønnede artikel Error and Exaggeration in the Presentation of DNA Evidence at Trial (se [15]). På side 33 beskriver han endnu en type fejlslutning begået i en konkret retssag fra Virginia. Fejlslutningen kan formuleres således: Oplyst: Sandsynligheden for at en given uskyldig person har et DNA, som matcher det aktuelle DNA fundet på gerningsstedet, er 1 ud af 705 mio. ⇓ Sandsynligheden for, at der er en anden person, der har samme DNA-profil som det DNA, som er fundet på gerningsstedet, er 1 ud af 705 mio. Analyse: Fejlen her består i, at man slutter fra én konkret person til alle andre. Lad os indføre følgende to hændelser: Ek : DNA-profilen for person k matcher DNA på gerningsstedet E: Mindst én af personerne i populationerne har en DNA-profil, som matcher DNA på gerningsstedet. Deres komplementære hændelser kan formuleres således: Ekc : DNA-profilen for person k matcher ikke DNA på gerningsstedet E c : Ingen af personerne i populationerne har en DNA-profil, som matcher DNA på gerningsstedet. Lad N betegne populationens størrelse og lad os vedtage, at den er på 1 mio. I sidste udsagn i rammen ovenfor ligger det implicit, at der menes mindst en anden person med samme DNA. Vi skal altså have udregnet P( E ) . Det er imidlertid noget nemmere at udregne sandsynligheden for E c , for vi har nemlig E c = E1c ∩ E2c ∩ … ∩ E Nc . P( E ) = 1 − P( E c ) = 1 − P( E1c ∩ E2c ∩ … ∩ E Nc ) (22) = 1 − P( E1c ) ⋅ P( E2c ) ⋅ … ⋅ P( E Nc ) = 1 − (1 − P( E1 )) ⋅ (1 − P( E2 )) ⋅… ⋅ (1 − P( E N )) 1 )1000000 = 1 − (1 − 705000000 = 0,0014 Hvor vi i linje 3 har udnyttet, at hændelserne E1 , E2 , … , E N er uafhængige. I linje 4 er sætning 9c) benyttet. Det bemærkes i øvrigt, at ovenstående teknik er helt analog til hvad vi foretog tidligere i eksempel 24. Vi konkluderer, at sandsynligheden for et match i populationen er 1,4 promille, men altså ingenlunde så lille som påstået i rammen! 38 © Erik Vestergaard – www.matematiksider.dk Ovenstående fører direkte videre til en analyse af situationen med en database fyldt med 1 som ovenDNA-profiler. Antag RMP (Random Match Probability) er lig med 705000000 for. Nedenstående graf viser da sandsynligheden for at finde mindst ét DNA-match som funktion af antal DNA-profiler i databasen. Sandsynlighed for mindst ét DNA-match 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 mio. DNA-profiler 0 0 500 1000 1500 2000 2500 3000 Man kan få en approksimation til sandsynligheden for at finde mindst ét DNA-match i databasen ved at gange RMP med antallet N af DNA-profiler i databasen. Sidstnævnte størrelse kaldes DMP (Database Match Probability). Den interesserede læser kan studere dette nærmere i opgave 6.5. Sammenfatning Vi har i dette afsnit set, hvordan Bayes-faktoren i Bayes' formel på odds form kan benyttes til at vurdere betydningen af et givet bevis i en sag. Hvis Bayes-faktoren for skyld er større end 1, så styrker beviset anklagerens sag, hvorimod det svækker anklagerens sag, hvis faktoren er mindre end 1. Hvis faktoren er lig med 1, er beviset neutralt. En vigtig erkendelse er, at det ikke er nok at se på P( E , H ) , altså sandsynligheden for at se det pågældende bevis, givet at tiltalte er skyldig. Man skal også kigge på sandsync ligheden for at se beviset, givet at tiltalte ikke er skyldig, dvs. P( E H ) . De falske alarmer er vigtige at inddrage. Det var for eksempel forsvarets fokus på sidstnævnte, der førte til frifindelsen af de fængslede i Birmingham six sagen. Man godtgjorde, at sandsynligheden for at se det det pågældende bevis – her en positiv Griess test i jagten på at finde spor af nitroglycerin på de tiltalte – ikke var ubetydelig lille, selv om de tiltalte måtte være uskyldige. Griess testen kan nemlig slå positivt ud for andre stoffer end nitroglycerin, og de pågældende stoffer kunne de tiltalte nemt have været i forbindelse c med i den aktuelle situation. Bayes-faktoren for skyld, P( E H ) P( E H ) , indeholder begge sandsynligheder omtalt ovenfor. Tror man at sandsynligheden P( E , H ) alene kan gøre det, begår man anklagerens fejlslutning (Prosecutors Fallacy). En anden god ting ved Bayes' formel på odds form er, at man får adskilt bevisets betydning fra a priori sandsynlighederne. © Erik Vestergaard – www.matematiksider.dk 39 Vi har i dette afsnit også set en række rent logiske fejlslutninger, som florerer i retssale. Men det er ikke de eneste. Ofte ganges sandsynligheder for hændelser sammen, hvor hændelser ikke er uafhængige. Undertiden begås base rate neglect, som består i at argumentere med sandsynligheder alene, uden hensyntagen til populationens størrelse. Brugen af statistik og sandsynlighed i retssale er på flere områder kontroversiel. Undertiden har det ført til arrige kommentarer fra dommeren, som tilfældet var i Adams-sagen omtalt i eksempel 41. Særligt har der været modstand mod at anvende Bayes' formel til inddragelse af subjektive vurderinger af sandsynligheder for konkrete delhændelser i retssagerne. Selv om forsvareren i Adams-sagen fik lov til at udlevere spørgeskemaer til jurymedlemmerne, så påpegede dommeren, at det var frivilligt for jurymedlemmerne, om de ville anvende spørgeskemaet. Det var dommerens ønske at opdele beviserne i "videnskabelige beviser" (Scientific Evidence) og øvrige beviser, som skulle behandles med sund fornuft (Common Sense Evidence). Man overlader således tilsyneladende trygt vurderingen af betydningen af det videnskabelige bevis til retsgenetikere og teknikere. I tilfældet med et DNA bevis vil teknikerne således i tilfældet med et DNA-match angive den såkaldte RMP (Random Match Probability). De resterende beviser, såsom at gerningsmanden ikke blev genkendt i et line-up samt at han havde et alibi, skal derimod behandles som "sund fornuft-beviser". Denne sondring kan matematisk set virke kunstig, da der i begge tilfælde er usikkerhed ved vurderingerne af dem. Bestemmelsen af en værdi for RMP beror også på nogle skøn hos den aktuelle retstekniker. Værdien i Adams-sagen blev da også udfordret af forsvareren. Det må dog medgives, at de andre "subjektive beviser" nok har en større usikkerhed. Faren ved at adskille den måde beviserne behandles på er desuden, at det nemt ender med at jurymedlemmerne kommer til at begå anklagerens fejlslutning: Den lille 40 © Erik Vestergaard – www.matematiksider.dk sandsynlighed (RMP) for at en vilkårlig valgt anden person har samme DNA, som det DNA-materiale, som er fundet på gerningsstedet, bliver nemt til at være det samme som sandsynligheden for at tiltalte er uskyldig. Desuden får tallet en særlig ophøjet status ved at blive betegnet som et "videnskabeligt bevis". Til sammen kan det nemt ende med at DNA-beviset "vinder over" andre "sund fornuft-beviser", der måtte tale til fordel for tiltalte. I det hele taget er det betænkeligt at dømme folk i sager, hvor der udelukkende er et DNA-bevis, særligt hvis den tiltalte findes via et Cold Hit i en database. Der skal helst være en anden faktor, som også linker tiltalte til forbrydelsen. For det første er DNA – byggende på identifikationen af et bestemt antal alleller – ikke unikt. For det andet kan DNA'et i princippet være afsat af tiltalte før forbrydelsen, beviser kan være kontaminerede eller DNA-materialet kan direkte være plantet. To en-æggede tvillinger vil desuden have minimal forskel i DNA. Når dette er sagt skal det dog tilføjes, at fremkomsten af DNA-teknikken i 1980'erne har revolutioneret retsvidenskaben, og at det er et formidabelt middel til at opnå en større sikkerhed i domsafsigelsen, hvad enten det betyder, at sagen munder ud i en domfældelse eller en frikendelse. Det er bekymrende med den lange række af fejldomme eller tvivlsomme domme, som er forekommet i retssale verden over. Se for eksempel linket til siden Legal cases about Bayes bag i denne note. Mange af dem skyldes de føromtalte logiske fejlslutninger. Der er nok ikke tvivl om, at vi vil se mere sandsynlighedsregning og statistik anvendt i retssale i fremtiden på trods af modstanden fra visse dommere. Internettet og den lettere adgang til information har betydet et større og større fokus på domme, som er afsagt på et løst eller tvivlsomt grundlag. Man kan derimod godt forstå dommernes bekymring for at det, der foregår i retssalen, kan ende med at blive for "elitært". På den anden side er det et stort problem at den højt besungne "sunde fornuft" fejler gang på gang. Sandsynlighedsregningen og statistikken indeholder så mange paradokser og giver så mange muligheder for fejlbedømmelser, at det er en stor fare, hvis man i retssager, hvor beviserne overvejende er af statistisk art, udelukkende benytter sund fornuft. Eksperten i de såkaldte Bayesianske netværk Norman Fenton taler i [1] for, at man burde tillade anvendelsen af Bayesianske netværk i retssale. Han sammenligner det med at benytte en lommeregner, som jo er almindelig accepteret i dag. Det er så meningen, at jury-medlemmerne skal fodre netværket med værdier ud fra sund fornuft, lidt ligesom det blev beskrevet i Adams-sagen i eksempel 41. Herefter må man tro på de computerberegninger af betingede sandsynligheder, som netværket leverer. Et Bayesiansk netværk er løst sagt et netværk med knudepunkter og forbindelseslinjer, der repræsenterer sammenhænge i den konkrete retssag. Det generaliserer Bayes' formel og kan således tage højde for mere komplekse problemstillinger. Brugen af Bayesianske netværk vil nok kræve, at man kan blive enige om udseendet af netværket og at man analyserer svarenes følsom overfor små ændringer i de af jurymedlemmerne leverede værdier. Vi kigger nærmere på Bayesianske netværk i de næste afsnit. 41 © Erik Vestergaard – www.matematiksider.dk 7. Kædereglen og betinget uafhængighed Formålet med den sidste del af denne note er at studere de såkaldte bayesianske netværk. Til det formål har vi brug for at et ekstra begreb, nemlig betinget uafhængighed samt en meget vigtig formel kaldet kædereglen. Sidstnævnte skal sætte os i stand til at kunne reducere komplicerede regninger med betingede sandsynligheder. Bemærkning 42 Fremover vil vi få brug for at udregne betingede sandsynligheder, hvor der er flere betingelser involveret. Det svarer til at udregne en betinget sandsynlighed givet fællesmængden af de pågældende betingelser. Således er P ( A E1 ∩ E2 ) den betingede sandsynlighed for hændelsen A givet betingelserne E1 og E2 . Begge skal altså være opfyldt. Af notationsmæssige årsager vil vi undertiden skrive dette som P ( A E1 , E2 ) . Vi vil gøre noget tilsvarende, hvis A er en fællesmængde: P ( A1 ∩ A2 ∩ … ∩ An E1 ∩ E2 ∩ … ∩ Em ) vil vi således ofte skrive som P ( A1 , A2 ,… , An E1 , E2 ,… , Em ) . □ Definition 43 (Betinget uafhængighed) Lad A og B være to hændelser i et endeligt sandsynlighedsfelt. Antag at E er en tredje hændelse, hvor der gælder P( E ) ≠ 0 . Hændelserne A og B kaldes betinget uafhængige givet E, hvis P( A ∩ B E ) = P ( A E ) ⋅ P( B E ) (23) Ifølge definition 12 i afsnit 3 er kravet for at to hændelser A og B kan siges at være uafhængige, at der gælder P( A ∩ B ) = P( A) ⋅ P( B ) . I bemærkning 16 så vi, at det er ensbetydende med at P ( A B ) = P( A) skal være opfyldt. Man kunne få den tanke, at der er en lignende alternativ måde at karakterisere betinget uafhængighed på. Svaret er bekræftende. Vi har nemlig følgende sætning: Sætning 44 (Betinget uafhængighed) Givet tre hændelser A, B og E i et endeligt sandsynlighedsfelt, hvor P( E ) ≠ 0 . Da gælder: (24) A og B er betinget uafhængige givet E ⇔ P ( A B, E ) = P ( A E ) Bevis: Lad os omskrive venstresiden i (23) ved brug af definition 12 og sætning 14: (25) P ( A B, E ) ⋅ P ( B ∩ E ) P (( A ∩ B ) ∩ E ) P( A ∩ ( B ∩ E )) = = P( E ) P( E ) P( E ) P( B ∩ E ) = P ( A B, E ) ⋅ = P ( A B, E ) ⋅ P ( B E ) P( E ) P( A ∩ B E ) = Sammenlignes det sidste med højresiden i (24), fås det ønskede. □ 42 © Erik Vestergaard – www.matematiksider.dk Man kunne måske få den formodning, at der er en sammenhæng mellem uafhængighed og betinget uafhængighed, men det er ikke tilfældet. Hvis man tænker lidt nærmere over det, er det egentligt heller ikke så underligt, for i en betinget sandsynlighed ses der så at sige bort fra de udfald, som ligger udenfor den delmængde, der betinges til, og sidstnævnte kan jo se ud på mange måder. Lad os kigge på nogle eksempler. Eksempel 45 Der udtrækkes et kort fra et spil kort med 52 kort plus 3 jokere. Betragt de tre hændelser: A : Kortet er et es B : Kortet er en hjerter E : Kortet er ikke en joker Da alle kort har samme sandsynlighed for at blive udtrukket, og der er fire esser, har vi P( A) = 554 . Når vi skal udregne den betingede sandsynlighed for A givet E, skal vi derimod kun kigge på de 52 kort, som ikke er jokere. Der er 4 esser ud af de 52 kort, så P ( A E ) = 524 = 131 . Tilsvarende fås P( B ) = 13 55 1 . Hændelsen A ∩ B indeholder kun hjerter es, så P ( A ∩ B ) = 1 og og P ( B E ) = 13 = 52 4 55 P ( A ∩ B E ) = 521 . P( A) ⋅ P( B ) = 4 13 55 ⋅ 55 P( A E ) ⋅ P( B E ) = = 52 3025 1 1 13 ⋅ 4 = hvormed P( A ∩ B ) ≠ P( A) ⋅ P( B ) 1 52 hvormed P( A ∩ B E ) = P( A E ) ⋅ P( B E ) Hændelserne A og B er altså ikke uafhængige, hvorimod de er betinget uafhængige givet E. Det samme kunne være indset ved at benytte henholdsvis bemærkning 16 og sætning 44. Blandt hjerterne er der kun ét es, hvoraf vi får: P( A B ) = 1 13 P ( A B, E ) = hvormed P( A B ) ≠ P( A) 1 13 hvormed P( A B, E ) = P ( A E ) Dermed har vi givet et modbevis til hypotesen om at betinget uafhængighed generelt skulle medføre afhængighed. Eksempel 46 Ved et idrætsstævne med flere discipliner var der i alt 900 tilskuere. Inddelt efter køn, alder (over eller under 30 år) og om de pågældende overværede en fodboldkamp eller ej, fordeler tilskuerne sig som det fremgår af tabellen på næste side. På hver stævnebillet står et nummer. Ved afslutningsceremonien foretages en udtrækning blandt billetnumrene og vinderen modtager et gavekort til byens gourmetrestaurant. 43 © Erik Vestergaard – www.matematiksider.dk Køn Alder Overværede fodboldkamp Antal Mand ≤ 30 år > 30 år Ja Nej Ja Nej 100 200 40 200 Kvinde ≤ 30 år > 30 år Ja Nej Ja Nej 20 180 40 120 Betragt følgende hændelser: M : Vinderen er en mand/dreng A : Vinderen er under 30 år F : Vinderen overværede en fodboldkamp Lad os undersøge om M og A er uafhængige hændelser. P( M ) = 100 + 200 + 40 + 200 540 = = 0,60 900 900 P( M A) = 100 + 200 300 = = 0,60 100 + 200 + 20 + 180 500 Eftersom P ( M A) = P ( M ) , er hændelserne M og A uafhængige, ifølge bemærkning 16. Oplysningen om at vinderen er under 30 år gammel ændrede altså ikke på sandsynligheden for at vinderen er en mand! Lad os undersøge, om M og A er betinget uafhængige givet hændelsen F: P( M F ) = P( M A, F ) = 100 + 40 140 = = 0,70 100 + 40 + 20 + 40 200 100 100 = = 0,8333 100 + 20 120 Da P ( M A, F ) ≠ P ( M F ) , er hændelserne M og A altså ikke betinget uafhængige givet F, ifølge sætning 44. Når man ved, at vinderen har overværet fodbold, øger den ekstra oplysning om at vinderen desuden er under 30 år gammel, sandsynligheden for at vinderen er en mand/dreng, fra 70% til over 83%. Altså ingen betinget uafhængighed her. Vi har dermed også aflivet hypotesen om at uafhængighed generelt skulle medføre betinget uafhængighed! □ Nu til den meget vigtige kæderegel for betingede sandsynligheder: Sætning 47 (Kædereglen) Lad A1, A2 ,…, An være hændelser i et endeligt sandsynlighedsfelt. Antag desuden at P( A2 , A3 ,… , An ) ≠ 0 . Da gælder: (26) P( A1 , A2 ,…, An ) = n ∏ P( Ak k =1 Ak +1,…, An ) 44 © Erik Vestergaard – www.matematiksider.dk Det store pi-tegn er et såkaldt produkttegn og betyder, at man skal gange størrelserne til højre for tegnet sammen fra k = 1 til k = n . Lad os opskrive udtrykkene for nogle af de første værdier af n, og derefter bevise sætningen i et specialtilfælde. Sidstnævnte bevis kan umiddelbart udvides til det generelle tilfælde. n = 2: P( A1 , A2 ) = P( A1 A2 ) ⋅ P( A2 ) n = 3: P( A1 , A2 , A3 ) = P( A1 A2 , A3 ) ⋅ P( A2 A3 ) ⋅ P( A3 ) n = 4: P( A1 , A2 , A3 , A4 ) = P( A1 A2 , A3 , A4 ) ⋅ P( A2 A3 , A4 ) ⋅ P( A3 A4 ) ⋅ P( A4 ) Bevis for sætning 46 for tilfældet n = 4 : P ( A1 , A2 , A3 , A4 ) = P( A1 ∩ A2 ∩ A3 ∩ A4 ) = P ( A1 ∩ ( A2 ∩ A3 ∩ A4 )) (26) = P ( A1 A2 ∩ A3 ∩ A4 ) ⋅ P( A2 ∩ A3 ∩ A4 ) = P ( A1 A2 , A3 , A4 ) ⋅ P( A2 , A3 , A4 ) = P ( A1 A2 , A3 , A4 ) ⋅ P( A2 A3 , A4 ) ⋅ P( A3 , A4 ) = P ( A1 A2 , A3 , A4 ) ⋅ P( A2 A3 , A4 ) ⋅ P( A3 A4 ) ⋅ P( A4 ) hvor vi i tredje lighedstegn har brugt (1) i sætning 14. I fjerde lighedstegn oversætter vi blot til den nye notation fra bemærkning 42. Det andet led i linje 4 er P( A2 , A3 , A4 ) . Hvad vi lige har gjort med P( A1 , A2 , A3 , A4 ) gentager vi nu med P( A2 , A3 , A4 ) . Det er helt analogt. Dermed fås linje 5 og derefter linje 6. □ Bemærkning 48 Det er en vigtig iagttagelse, at der ikke sker noget med udtrykket på venstre side i (26), hvis man bytter rundt på A'erne. Derfor er udtrykket på højre side af lighedstegnet også uafhængig af ombytning af A'erne. Der er altså stor valgfrihed. I konkrete problemstillinger skal man vælge rækkefølgen med omhu. Eksempel 49 En dåse indeholder 30 blå kugler og 6 røde. Der trækkes nu i blinde tre kugler fra dåsen, én efter én. Hvad er sandsynligheden for i første trækning at få en blå, i næste en rød og i den sidste en blå kugle? Et udfald kan man passende skrive som et tre-tuppel. Vi skal finde sandsynligheden for (b, r, b) . Rækkefølgen er her vigtig. Vi indfører følgende hændelser: Rk : Udtrækning nr. k gav en rød kugle Bk : Udtrækning nr. k gav en blå kugle Formelt set er hændelsen R2 for eksempel den delmængde, der består af alle de tretupler, som har et r i den anden indgang. 45 © Erik Vestergaard – www.matematiksider.dk Vi skal bestemme P( B3 ∩ R2 ∩ B1 ) eller P( B3 , R2 , B1 ) , som er det samme. Alle tre hændelser B1, R2 og B3 skal indtræffe, derfor en fællesmængde! Rækkefølgen vi skriver hændelserne i er ligegyldig, men af pædagogiske årsager skriver vi dem som vi gør. Vi kan nu bruge kædereglen: P ( B3 , R2 , B1 ) = P ( B3 R2 , B1 ) ⋅ P ( R2 B1 ) ⋅ P ( B1 ) = 29 34 ⋅ 356 ⋅ 30 36 = 29 238 Måske ville det være mere logisk, hvis produktet blev skrevet i omvendt rækkefølge, for de 30 36 svarer til sandsynligheden for at få en blå kugle i første trækning, da der er 30 blå kugler og 36 kugler i alt. I næste trækning er der stadig 6 røde kugler tilbage, mens der kun er 29 blå kugler. Derfor er sandsynligheden for at få en rød kugle i anden udtrækning lig med 356 – det er en betinget sandsynlighed, givet udfaldet af første trækning. I sidste trækning er der 29 blå kugler tilbage og 5 røde kugler. Det giver en sandsynlighed 29 på 34 for at få en blå kugle i sidste trækning – det er en betinget sandsynlighed givet udfaldene af de første to trækninger. □ Eksempel 50 Der er festuge i byen. Ægteparret Anders og Lise overvejer at deltage om fredagen, hvor der er et særligt arrangement. Det kræver imidlertid, at Anders kan få fri fra arbejde. Anders vurderer, at der er fifty-fifty chance for at få fri. Lise vil helt sikkert deltage, hvis Anders kan. Derimod vurderer hun, at der kun er 25% chance for, at hun vil deltage, hvis Anders ikke kan deltage. Ulla er arbejdskollega med Lise, og hun overvejer også at tage med. Lise lover at ringe til Ulla for at fortælle, om hun deltager. Hvis det bliver et ja fra Lise, så vil Ulla spørge chefen om lov til at få fri. Hun vurderer, at der er 90% chance for i givet fald at få fri. Hvad er sandsynligheden for, at de alle tre kommer til byfest om fredagen? Løsning: Vi indfører følgende hændelser: A: Anders kommer til byfest. L: Lise kommer til byfest og U: Ulla kommer til byfest. Vi bruger kædereglen: P(U , L, A) = P(U L, A) ⋅ P( L A) ⋅ P( A) = P(U L) ⋅ P( L A) ⋅ P( A) = 0,90 ⋅ 1,00 ⋅ 0,50 = 0,45 Der er altså 45% chance for at de alle tre kommer til byfest om fredagen. Bemærk, at vi i anden linje har foretaget en reduktion. Vi ved nemlig, at Ullas beslutning om at deltage ikke afhænger af Anders' deltagelse. Sagt med hændelser, så er U betinget uafhængig af A givet L, altså P (U L, A) = P (U L) . □ Måske kunne du godt have klaret opgaven i eksempel 49 og 50 uden at kende til kædereglen på formelt plan. Når tingene bliver mere komplicerede i de såkaldte bayesianske netværk vil vi dog se, at kædereglen er helt essentiel, da den skal bruges til at "ned- 46 © Erik Vestergaard – www.matematiksider.dk bryde" beregningen af komplicerede sandsynligheder til et produkt af sandsynligheder, der er nemmere at have med at gøre … Eksempel 51 (Simpsons paradoks) I en fiktiv historie forestiller vi os to læger, Klausen og Jensen, som begge foretager hjerteoperationer og lægger forbindinger på patienter. Figuren nedenfor illustrerer, hvor mange behandlinger hver læge har gennemført af hver type, og de sorte ikoner indikerer de personer, som modtog en vellykket behandling. Hvis vi tæller sammen, opdager vi, at den totale succesrate for Klausen er 63 84 = 0,75 = 75% , mens den for Jensen er 72 90 = 0,80 = 80% . Studerer man derimod kategorierne hver for sig, tegner der sig et andet billede: Klausen har en succesrate på 49 70 = 0,70 = 70% på hjerteoperationer og en succesrate på 14 14 = 1 = 100% på at lægge forbindinger. De tilsvarende tal for Jensen er henholdsvis 6 15 = 0,30 = 30% og 66 75 = 0,88 = 88% . Jensen har altså samlet set den største succesrate, mens Klausen på hver kategori har den bedste succesrate. Dette fænomen kan umiddelbart virke meget mærkeligt og går under betegnelsen Simpsons paradoks. Hjerteopera!on Forbinding Klausen Jensen Nu kan man naturligvis ikke vide, hvordan Klausen ville have klaret sig i Jensens behandlinger og omvendt, men gør vi den antagelse, at ovenstående vil være det typiske billede for de to læger på alle typer af patienter, så må vi konkludere, at Klausen sandsynligvis er den bedste læge af de to, og at han sandsynligvis netop som følge heraf har fået tildelt de mere risikable hjerteoperationer. Læren må være, at man skal være forsigtig med at foretage sammenlægninger af kategorier indenfor statistik. Man kan også sige, at behandlingstypen her er en skjult variabel. Det rigtige her vil være at se på hver kategori for sig! Til den avancerede læser: I en sandsynlighedsteoretisk kontekst vil Simpson's paradoks lyde som følger, hvor vi har følgende hændelser: 47 © Erik Vestergaard – www.matematiksider.dk S : Patienten får en succesfuld behandling J : Patienten behandles af læge Jensen H : Patienten får en hjerteoperation. Udfaldsrummet er mængden af alle patienter i databanken ovenfor. Heraf ses, at de komplementære hændelser til J og H er: J c : Patienten behandles af læge Klausen H c : Patienten får lagt en forbinding Fra data har vi umiddelbart: c (27a) P( S J , H ) < P( S J , H ) (27b) P( S J , H c ) < P( S J , H c ) (27c) P( S J ) > P( S J ) c c Vi kan udtrykke venstresiden og højresiden i ulighed (27c) ved hjælp af venstre og højresiderne i (27a) og (27b): c (28) P( S J ) = P( S H , J ) ⋅ P( H J ) + P ( S H , J ) ⋅ P( H c J ) c c c c P( S J ) = P( S H , J c ) ⋅ P( H J ) + P( S H , J c ) ⋅ P ( H c J ) hvor vi har benyttet, at S ∩ H , S ∩ H c er en klassedeling af S, (25) samt appendiks A. Detaljerne overlades til den avancerede læser. De med rødt fremhævede faktorer i (28) kan betragtes som en slags "vægte". Med passende værdier af disse kan ulighedstegnet altså skifte, som det sker i (27c). □ Bemærkning 52 I appendiks A er en meget nyttig erkendelse beskrevet: Hvis man har en formel, som gælder for alle sandsynlighedsfunktioner, så gælder den også med betingelser indsat. Eftersom S ∩ H , S ∩ H c indlysende er en klassedeling af S, gælder der ifølge sætning 9d): P( S ) = P( S ∩ H ) + P( S ∩ H c ) . Derfor gælder formlen også med betingelsen J indsat: P( S J ) = P( S ∩ H J ) + P( S ∩ H c J ) . Det kan naturligvis også vises direkte uden brug af appendiks A, men dette redskab er nyttig at have til rådighed! 48 © Erik Vestergaard – www.matematiksider.dk 8. Kort om grafer En graf består af en mængde af knuder og en mængde af kanter. En kant er en forbindelseslinje mellem to knuder. Man taler om ikke-orienterede og orienterede grafer. I førstnævnte har kanterne ikke nogen retning, mens hver kant i sidstnævnte type har en retning. I orienterede grafer kan der forekomme cykler, som vist i delfigur (B) nedenfor. Hvis man starter i en knude i en cykel og følger kanterne rundt i kanternes retning, så kommer man tilbage til udgangspunktet. En acyklisk graf, som illustreret i delfigur (C), har ingen cykler. Vi fik i øvrigt gjort den cykliske graf i delfigur (B) acyklisk ved at vende retningen af kanten, der forbinder knuderne 3 og 5. To knuder kaldes naboknuder, såfremt de er forbundne med en kant. Hvis A og B er naboknuder i en orienteret graf, og retningen af kanten går fra A til B, så vil vi kalde A for en forældreknude til B og B for en barneknude til A. På delfigur (C) nedenfor er knuderne 1 og 5 således forældreknuderne til knude 3, mens knude 3 og 4 begge er børn af knude 5. 2 2 1 1 6 6 3 4 3 5 5 4 (A) ikke-orienteret graf (B) Orienteret graf med cykel 2 1 6 3 4 5 (C) Orienteret acyklisk graf Teorien om grafer udgør et helt selvstændigt område i matematikken: Grafteori eller på engelsk Graph Theory. Typisk ændres en graf ikke ved at man "vrider" lidt i den, så længe kanterne ikke brydes. Et berømt problem, som kan formuleres og analyseres i en grafmæssig sammenhæng, er det såkaldte travelling salesman problem. Det består i at en sælger skal fra en by A til en by B. Sælgeren kan vælge forskellige veje. Hvilken en er den korteste? Her udgør byerne A og B samt mellemliggende byer/trafikknudepunkter knuderne i grafen og vejene er kanterne. I dette tilfælde er grafen vægtet, idet hver kant har tilknyttet et tal, nemlig vejafstanden. Den interesserede læser kan studere dette emne på egen hånd. I denne note skal vi dog kun bruge graf-begrebet som et koncept. © Erik Vestergaard – www.matematiksider.dk 49 9. Bayesianske netværk Vi er nu rede til at give en præcis definition på et bayesiansk netværk. Hvis du finder det lovligt abstrakt på dette sted, kan du vælge at læse let hen over det og vende tilbage, når du inden længe ser konkrete eksempler på bayesianske netværk. Definition 53 (Bayesiansk netværk) Et Bayesiansk netværk (BN) er en tripel (V , A, P ) derved at: V = { X 1 , X 2 , … , X n } er en mængde af stokastiske variable. De stokastiske variable kan visuelt tænkes anbragt i hver deres knude i en graf. b) A er en mængde af forbindelseslinjer, kaldet kanter, mellem knuderne omtalt i a). Tilsammen skal (V , A ) udgøre en orienteret acyklisk graf. c) P er en mængde af betingede sandsynligheder: Til hver knude hører en tabel med de betingede sandsynligheder for den tilhørende stokastiske variabel, givet værdierne for de stokastiske variable i grafens forældre-knuder. Denne knudepunktstabel betegnes ofte NPT (Node Probability Table). a) Bemærkning 54 På engelsk betegnes et bayesiansk netværk et Bayesian network eller et Belief network. Det sidste kommer af, at man, som vi senere skal se, kan tildele nogle mere eller mindre subjektive værdier til knuderne i netværket og udregne, hvilken indflydelse det har på sandsynlighederne for værdierne af de stokastiske variable i de øvrige knuder. Et bayesiansk netværk omtales ofte med forkortelsen BN. Bemærkning 55 Man kan vise, at hvis man har at gøre med en ikke-orienteret graf, kan man ofte ikke repræsentere al information om sandsynlighedernes afhængighed i netværket. Ved at kræve at kanterne har en retning, bliver dette heldigvis muligt. Udover at kræve at grafen er orienteret, er der også krav om, at grafen ikke må indeholde cykler. Det skyldes at der ellers kan opstå inkonsistens i knudepunktstabellerne. Med kravet om en acyklisk graf får man i øvrigt en eller flere knuder, som ikke har forældre-knuder. Disse knuder vil dermed indeholde ubetingede sandsynligheder. Mængden af de betingede sandsynligheder kan lidt abstrakt skrives: P = {P( X i ) parents( X i ), X i ∈ V } , hvor parents ( X i ) betyder de stokastiske variable hørende til forældreknuderne til den i'te knude. 10. Beregninger i et konkret bayesiansk netværk For at det hele ikke skal drukne i matematisk formalisme, vil vi i dette afsnit tage fat i et eksempel på et bayesiansk netværk for konkret at illustrere begreber som simultane sandsynligheder og marginale sandsynligheder. Situationen er skitseret på næste side. 50 © Erik Vestergaard – www.matematiksider.dk Eksempel på Bayesiansk netværk: For sent på arbejde Niels og Anna arbejder på samme arbejdsplads og begge tager normalt Metroen !l arbejde. Niels er i modsætning !l Anna et B-menneske, som har svært ved at komme op om morgenen, så det sker, at han sover over sig. Hvis metroen står s!lle på grund af repara!oner, så er de nødt !l (individuelt) at vælge et andet transportmiddel for at komme !l arbejde. Det er Niels' job at åbne forrretningsafdelingen. Hvis han ikke gør det !l !den modtager han en reprimande fra chefen. Anna har dog været så venlig at !lbyde at gøre det for ham i de !lfælde, hvor han kommer for sent, undtagen i de !lfælde, hvor hun er kaldt ud !l kunder. Niels sover over sig (O) Metroen er defekt (M) Niels kommer for sent på arbejde (N) Anna kommer for sent på arbejde (A) Chefen giver Niels en reprimande (C) Niels sover over sig 0.85 False True 0.15 Metroen er defekt 0.95 False True 0.05 Niels kommer for sent på arbejde Niels sover over sig Metroen er defekt False True False True False 0.90 0.30 0.10 0.70 True True False 0.50 0.10 0.50 0.90 Anna kommer for sent på arbejde True Metroen er defekt False 0.95 0.15 False True 0.05 0.85 Chefen giver Niels en reprimande Anna møder for sent Niels møder for sent False True False True False 1.00 0.90 0.00 0.10 True True False 1.00 0.00 0.00 1.00 51 © Erik Vestergaard – www.matematiksider.dk Det aktuelle netværk udmærker sig ikke ved at være særligt nyttigt, men er valgt for at skabe intuition hos læseren. Netværket har i alt fem knuder eller knudepunkter. De kan hver især antage nogle værdier. I dette simple eksempel er disse værdier False og True, svarende til falsk eller sandt. På figuren er desuden anført en knudepunktstabel for hver knude, forkortet NPT for det engelske udtryk Node Probability Table. Vi vil referere til hver knude ved hjælp af en stokastisk variabel. Bogstaverne for de stokastiske variable er angivet i parentes i hver knude i det bayesianske netværk (se figur). Den stokastiske variabel for knuden "Niels kommer for sent på arbejde" har for eksempel fået tildelt bogstavet N. Knudepunktstabellen for den pågældende knude indeholder sandsynlighederne for at knuden antager værdierne False henholdsvis True, givet de mulige værdier af forældreknuderne. Niels kommer for sent på arbejde Niels sover over sig False True Metroen er defekt False 0.90 0.30 False 0.10 0.70 True True True False 0.50 0.10 0.50 0.90 Det matematiske indhold af det med rødt fremhævede tal i knudepunktstabellen ovenfor kan udtrykkes således: P ( N = False O = True ∩ M = False) = 0,30 (29) Udtrykket N = False repræsenterer hændelsen at Niels ikke møder for sent, mens fællesmængden O = True ∩ M = False repræsenterer hændelsen at Niels sover over sig og Metroen ikke er defekt. Skal vi udtrykke det hele sprogligt, kan det gøres således: Sandsynligheden for at Niels ikke møder for sent, givet at han sover over sig og Metroen ikke er defekt, er 30%. eller måske endnu bedre: Hvis Niels sover over sig og Metroen kører, er der 30% sandsynlighed for at Niels kommer til tiden. Vi har altså ifølge definition 12 at gøre med en betinget sandsynlighed her. Af notationsmæssige årsager vælger man ofte at skrive (29) på følgende alternative måde, hvor fællesmængdetegnet er udskiftet med et komma: (30) P ( N = False O = True, M = False ) = 0,30 Den simultane sandsynlighedsfordeling Men det er jo sjældent de betingede sandsynligheder, man er interesseret i. Det er normalt mere interessant at vide, hvad sandsynligheden er for, at Niels møder til tiden, altså at kende P( N = False) . Før vi kan angribe dette problem, skal vi først se på den såkaldte simultane sandsynlighedsfordeling (på engelsk Joint Probability Distribution). Denne indbefatter alle de stokastiske variable i det bayesianske netværk, hvilket her er C, A, N, 52 © Erik Vestergaard – www.matematiksider.dk M og O. Man er interesseret i sandsynligheden for en given kombination af udfald for hver af de fem stokastiske variable. Da hver stokastisk variabel i dette tilfælde kan antage værdierne False eller True er der altså 25 = 32 mulige kombinationer af værdier af de fem variable. C = True ∩ A = False ∩ N = True ∩ M = True ∩ O = False er bare et eksempel blandt de 32 mulige hændelser. Men kan vi overhovedet udregne sandsynligheden P(C = True ∩ A = False ∩ N = True ∩ M = True ∩ O = False) ? Vi har umiddelbart kun knudepunktstabellerne til rådighed. Svaret er heldigvis ja. Ved hjælp af kædereglen kan vi nemlig nedbryde sandsynligheden i mindre dele: P(C = True, A = False, N = True, M = True, O = False) = P(C = True A = False, N = True, M = True, O = False) (31) ⋅ P( A = False N = True, M = True, O = False) ⋅ P( N = False M = True, O = False) ⋅ P( M = True O = False) ⋅ P(O = False) Angående den første faktor i produktet efter lighedstegnet, bemærkes det, at C er betinget uafhængig af både M og O givet værdierne af A og N. Dette indses ved at betragte kanterne i netværket: M og O er ikke efterkommere til C, hvorfor deres værdier ikke kan ændre sandsynligheden for C, når man kender værdierne af C 's forældreknuder A og N! Generelt defineres en knude B i et BN at være en efterkommer af en anden knude A i netværket, hvis B kan nås fra A ved at følge eksisterende kanter i pilenes retning. På grund af den betingede afhængighed kan vi stryge M og O fra betingelsen: (32) P(C = True A = False, N = True, M = True, O = False) = P(C = True A = False, N = True) Sådanne typer ræsonnementer er vigtige, når man skal foretage beregninger i Bayesianske netværk. På samme måde kan vi reducere de øvrige faktorer i (31) og får: P(C = True, A = False, N = True, M = True, O = False) = P(C = True A = False, N = True) (33) ⋅ P( A = False M = True) ⋅ P( N = True M = True, O = False) ⋅ P( M = True) ⋅ P(O = False) Indsætter vi tallene fra knudepunktstabellerne, får vi: (34) P(C = True, A = False, N = True, M = True, O = False) = 0,10 ⋅ 0,15 ⋅ 0,70 ⋅ 0,05 ⋅ 0,85 = 0,0004462500 53 © Erik Vestergaard – www.matematiksider.dk Vi ser, at der er en sandsynlighed på kun 0,000446 for at alle fem ting indtræffer samtidigt, altså at Niels ikke sover over sig, at metroen er defekt, at Niels kommer for sent, at Anna ikke kommer for sent og at Chefen giver Niels en reprimande. Vi vil ofte lade udtrykket P(C , A, N , M , O ) = P(C ∩ A ∩ N ∩ M ∩ O ) betegne den simultane sandsynlighedsfordeling, idet vi underforstår, at hver af de fem stokastiske variable antager værdierne henholdsvis False og True, hvilket her giver i alt 32 mulige kombinationer. De marginale sandsynlighedsfordelinger Som nævnt tidligere vil vi gerne kunne bestemme P( N = False) , altså besvare spørgsmålet: Hvad er sandsynligheden for, at Niels ikke kommer for sent? Her er tale om en sandsynlighed uden betingelser og den involverer kun én af de stokastiske variable. Vi søger med andre ord den marginale sandsynlighedsfordeling (på engelsk Marginal Probability Distribution). Løsningen er at summere alle de simultane sandsynligheder, som opfylder N = False . (35) ∑ P ( N = False) = P (C , A, N = True, M , O ) C , A,M ,O hvor der summeres over alle kombinationer af værdier af de stokastiske variable C, A, M, og O. Hver variabel kan antage de to værdier False og True. Der er altså i alt 16 forskellige sandsynligheder at summere over. For at være lidt mere "økonomisk" vælger vi at udregne hele den marginale fordeling for N på én gang: (36) P( N ) = ∑ P (C , A, N , M , O ) C , A,M ,O Man kan så bare erstatte N med N = False eller N = True . Vi skal anvende kædereglen på (36) og derefter foretage reduktioner, så vi ender op med et udtryk for den marginale sandsynlighed, hvori der kun indgår sandsynligheder fra knudepunktstabellerne. 54 © Erik Vestergaard – www.matematiksider.dk ∑ P( N ) = P(C , A, N , M , O ) C , A, M ,O ∑ = P(C A, N , M , O ) ⋅ P( A N , M , O ) ⋅ P( N M , O ) ⋅ P( M O ) ⋅ P(O ) C , A, M ,O ∑ = P(C A, N ) ⋅ P( A M ) ⋅ P ( N M , O ) ⋅ P( M ) ⋅ P(O ) C , A, M ,O (37) ∑ P( N M , O ) ⋅ P( M ) ⋅ P(O ) ⋅ ∑ P( A M ) ⋅ ∑ P(C A, N ) = M ,O A C ∑ P( N M , O ) ⋅ P( M ) ⋅ P(O ) ⋅ ∑ P( A M ) = M ,O A ∑ P( N M , O ) ⋅ P( M ) ⋅ P(O ) = M ,O hvor vi har benyttet følgende: 1. lighedstegn: 2. lighedstegn: 3. lighedstegn: 4. lighedstegn: 5. lighedstegn: 6. lighedstegn: De simultane sandsynligheder summeres over alle variable, bortset fra den vi ønsker den marginale sandsynlighed for, her N. Kædereglen i sætning 47 er benyttet. Betingede uafhængigheder i det Bayesianske netværk er benyttet. Der er (indirekte) fire summationstegn, nemlig én for hver variabel. Mange af de indgående sandsynligheder afhænger ikke af C og A, så de er sat udenfor summationstegnene for C og A. Dette trin kræver lidt snilde. Vi udnytter, at den inderste summation med C er lig med 1 ifølge sætning 29 side 17. Igen bruges sætning 29. For at bestemme sandsynligheden for at Niels ikke kommer for sent på arbejde, indsætter vi N = False på N ' s plads i (37): P( N = False) = ∑ P( N = False M , O ) ⋅ P( M ) ⋅ P(O ) = M ,O P( N = False M = False, O = False) ⋅ P( M = False) ⋅ P(O = False) + P( N = False M = False, O = True) ⋅ P( M = False) ⋅ P(O = True) (38) + P( N = False M = True, O = False) ⋅ P( M = True) ⋅ P(O = False) + P( N = False M = True, O = True) ⋅ P( M = True) ⋅ P(O = True) = 0,90 ⋅ 0,95 ⋅ 0,85 + 0,50 ⋅ 0,95 ⋅ 0,15 + 0,30 ⋅ 0,05 ⋅ 0,85 + 0,10 ⋅ 0,05 ⋅ 0,15 = 0,8115 Sandsynligheden for at Niels ikke kommer for sent til arbejde – dvs. kommer til tiden – er altså 81,15%. Den meget opmærksomme læser vil bemærke, at der egentligt bare er © Erik Vestergaard – www.matematiksider.dk 55 tale om det vejede gennemsnit af sandsynligheder i knudepunktstabellen for N. Vægtene er sandsynlighederne P ( M , O ) = P ( M O ) ⋅ P (O ) = P ( M ) ⋅ P (O ) . Generelt bør man dog være varsom med at tage genveje i et netværk. Den sikre vej er altid at foretage summation over alle de relevante simultane sandsynligheder, som vi har gjort ovenfor. Bemærkning 56 For at udregne P( N = True) kunne vi have foretaget en summation à la (38), men da N kun kan antage de to værdier False og True, kan vi lige så godt bruge sætning 9d): (39) P( N = True) = 1 − P( N = False) = 1 − 0,8115 = 0,1885 □ Opdatering af marginale sandsynligheder når evidens er givet En af de store pointer ved at anvende Bayesianske netværk er, at man kan tilføje ny viden (information, evidens) til det og iagttage, hvilken virkning det har på de marginale sandsynligheder. Som et eksempel vil vi antage, at vi har indhentet information om at Anna er kommet for sent på arbejde. Hvad er nu den opdaterede sandsynlighed for at Niels også er kommet for sent på arbejde? Vi efterspørger med andre ord den betingede sandsynlighed P ( N = True A = True ) . Vi gør det en smule mere generelt ved at udregne P ( N A = True ) , idet N da kan udskiftes med N = True eller N = False . (40) P( N A = True) P( N ∩ A = True) P( A = True) 1 = ⋅ ∑ P(C , A = True, N , M , O ) P( A = True) C ,M ,O = = 1 ⋅ ∑ P(C A = True, N , M , O ) ⋅ P ( A = True N , M , O ) ⋅ P( N M , O ) ⋅ P( M O ) ⋅ P(O ) P( A = True) C ,M ,O = 1 ⋅ ∑ P(C A = True, N ) ⋅ P( A = True M ) ⋅ P( N M , O ) ⋅ P( M ) ⋅ P(O ) P( A = True) C ,M ,O = 1 ⋅ ∑ P( A = True M ) ⋅ P ( N M , O ) ⋅ P( M ) ⋅ P(O ) ⋅ ∑ P(C A = True, N ) P( A = True) M ,O C = 1 ⋅ ∑ P( A = True M ) ⋅ P ( N M , O ) ⋅ P( M ) ⋅ P(O ) P( A = True) M ,O hvor vi har benyttet følgende: 1. lighedstegn: 2. lighedstegn: Definition 12 er benyttet. Sandsynligheden P( N ∩ A = True) bestemmes ved at addere alle de simultane sandsynligheder, der opfylder N og A = True . Da N under- 56 © Erik Vestergaard – www.matematiksider.dk 3. lighedstegn: 4. lighedstegn: 5. lighedstegn: 6. lighedstegn: forstås kendt, skal der altså summeres over alle mulige kombinationer af værdierne af C, M og O. Kædereglen i sætning 47 er benyttet. Betingede uafhængigheder i det Bayesianske netværk er benyttet. Vi sætter de størrelser uden for C-summationstegnet, som ikke afhænger af C. Vi udnytter, at den inderste summation med C er lig med 1 ifølge sætning 29 side 17. Vi er nu rede til at beregne den opdaterede marginale sandsynlighed for N = True , givet informationen A = True . Vi indsætter N = True på N's plads i det sidste udtryk i (40): (41) P( N = True A = True) = 1 ⋅ ∑ P( A = True M ) ⋅ P ( N = True M , O ) ⋅ P( M ) ⋅ P(O ) P( A = True) M ,O = 1 ⋅ P( A = True) [ P( A = True M = False) ⋅ P( N = True M = False, O = False) ⋅ P( M = False) ⋅ P(O = False) + P( A = True M = False) ⋅ P( N = True M = False, O = True) ⋅ P( M = False) ⋅ P(O = True) + P( A = True M = True) ⋅ P( N = True M = True, O = False) ⋅ P( M = True) ⋅ P(O = False) + P( A = True M = True) ⋅ P( N = True M = True, O = True) ⋅ P ( M = True) ⋅ P(O = True) ] = 1 ⋅ [ 0,09 0,05 ⋅ 0,10 ⋅ 0,95 ⋅ 0,85 + 0,05 ⋅ 0,50 ⋅ 0,95 ⋅ 0,15 + 0,85 ⋅ 0,70 ⋅ 0,05 ⋅ 0,85 + 0,85 ⋅ 0,90 ⋅ 0, 05 ⋅ 0,15 ] = 0,429 hvor de forskellige betingede sandsynligheder aflæses i knudepunktstabellerne. Den marginale sandsynlighed P( A = True) = 0,09 antages udregnet efter samme principper som vi udregnede den marginale sandsynlighed P( N = False) i (37) og (38) – se evt. opgave 10.1. Vi konkluderer, at der er 42,9% sandsynlighed for at Niels er kommet for sent på arbejde, hvis man får oplyst, at Anna er kommet for sent. Oplysningen om at Anna er kommet for sent, har med andre ord øget sandsynligheden for at Niels også er kommet for sent fra 18,9% til 42,9% (se bemærkning 56). Det skyldes naturligvis, at det med informationen er blevet mere sandsynligt, at Metroen er defekt! © Erik Vestergaard – www.matematiksider.dk 57 11. Computerprogrammet AgenaRisk I afsnit 10 så vi, at det kan blive meget teknisk at foretage beregninger i et Bayesiansk netværk. Og så var vores netværk endda lille! Heldigvis har dygtige folk lavet computerprogrammer, som udregner sandsynlighederne for os. Et af disse computerprogrammer er AgenaRisk. En reduceret udgave af det kommercielle program er gratis og kan downloades fra firmaets hjemmeside www.agenarisk.com. Programmet er meget brugervenligt. Der medfølger tutorials, så man hurtigt kan sætte sig ind i det mest grundlæggende. Kort fortalt kan man blandt andet tegne knuder, navngive dem og forbinde knuder med kanter, som vist på figur 1 nedenfor, idet vi tager udgangspunkt i BN eksemplet fra afsnit 10. På figur 2 er en knudepunktstabel for knuden N udfyldt. På figur 3 er det vist, hvordan man alternativt til knuderne med navne på, kan få vist de marginale sandsynlighedsfordelinger for de stokastiske variable i hvert knudepunkt, herunder dem, som vi brugte megen energi på at udregne manuelt i afsnit 10. Figur 1 58 Figur 2 Figur 3 © Erik Vestergaard – www.matematiksider.dk © Erik Vestergaard – www.matematiksider.dk 59 Figur 4 På figur 4 ovenfor har vi højreklikket på knuden A og valgt Enter Observation > Scenario 1 > True. Hermed har vi tilføjet informationen A = True til netværket. De marginale sandsandsynligheder for samtlige knudepunkter bliver øjeblikkeligt opdateret med denne information! Vi ser, at P ( N = True A = True ) , så vi regnede altså rigtigt, da vi i afsnit 10 fik sandsynligheden til 42,9%. Den opdaterede marginale sandsynlighed for A er da også sat til 100% for True! På denne måde kan man lynhurtigt afprøve ting i netværket: hvilken betydning har den og den information for de enkelte sandsynligheder? □ Det simpleste Bayesianske netværk man kan forestille sig er et, hvor der kun er to knuder med en kant imellem. Tilføjer man evidens til datterknuden, svarer det til at benytte Bayes' formel. Lad os kigge på tilfældet med test for sygdom fra eksempel 32 side 20. Roden i netværket er S : "Personen har sygdommen" og den har en kant rettet mod T : "Testen viser positiv". Det er den kausale rækkefølge. A priori sandsynligheden for at personen har sygdommen er 1/1000 = 0,001, svarende til, at man endnu ikke har fået oplyst testresultatet. A priori sandsynligheden for ikke at have sygdommen er derfor 0,999. Disse to sandsynligheder for henholdsvis True og False til spørgsmålet om personen har sygdommen udgør knudepunktstabellen for knuden S. I knuden T har vi de betingede sandsynligheder. Værdierne heri er betinget af om personen har sygdommen 60 © Erik Vestergaard – www.matematiksider.dk eller ej. Vi kender sandsynlighederne for falsk-positiv (2%) og falsk-negativ (5%). Alt i alt giver det anledning til nedenstående knudepunktstabeller. Personen har sygdommen (S) Personen har sygdommen 0.999 False True 0.001 Testen viser positiv Testen viser positiv (T) Personen har sygdommen False True False 0.98 0.02 True 0.05 0.95 I AgenaRisk konstrueres ovenstående BN og værdierne i knudepunktstabellerne indtastes. Det giver følgende marginale sandsynligheder: Hvis man ikke ved noget, er sandsynligheden for et positivt testresultat altså 2,093%. Tallet dækker både over de rigtigt syge og de falske-positive. Man kunne nu finde på at tilføje den evidens, at testen viste positiv for at se hvilken indvirkning det har på de marginale sandsynligheder for knuden S. Vi højreklikker derfor på knuden T og vælger Enter Observation > Scenario 1 > True. Derved ændres de marginale sandsynligheder for knuden T naturligvis til 0% for False og 100% for True. Men det interessante er at den opdaterede marginale sandsynlighed for at knuden S er True er lig med 4,5%. Dette kan oversættes til P ( S = True T = True ) = 0,045 , nøjagtigt som vi fik i eksempel 32! © Erik Vestergaard – www.matematiksider.dk 61 □ AgenaRisk er i øvrigt ikke begrænset til kun at arbejde med diskrete fordelinger for de indgående stokastiske variable: man kan også have variable, som for eksempel er normalfordelte! 12. Bayesianske netværk historisk set I begyndelsen af 1980'erne introducerede Judea Pearl, forsker i computer science og statistik fra University of California, Los Angeles, Bayesianske netværk med det formål at kunne repræsentere sandsynligheder for tro eller overbevisning (Beliefs) lokalt i netværket, så det tilsammen udgør et logisk sammenhængende hele. I starten handlede det dog kun om træer og polytræer, som er specialtilfælde af de nuværende bayesianske netværk. Pearl udviklede først alene og senere sammen med en anden forsker algoritmer til at "sende meddelelser" igennem netværket (belief propagation). Pearl arbejdede videre med at lede efter algoritmer, som fungerer på mere generelle netværk. Hans banebrydende arbejde blev i øvrigt i 2011 belønnet med den prestigefyldte A. M. Turing Award "For fundamental contributions to artificial intelligence through the development of a calculus for probabilistic and causal reasoning". Det næste store skridt fremad blev faktisk da danskeren Steffen L. Lauritzen, dengang ansat på Aalborg Universitet, sammen med englænderen David John Spiegelhalter i 1988 beskrev en ny algoritme i artiklen "Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems" (se [19]). Artiklens jointree algoritme, som fungerer for såkaldte multiply-connected structures, har stadig praktisk betydning den dag i dag. Men jagten på andre algoritmer fortsatte. I 1994 fremkom 62 © Erik Vestergaard – www.matematiksider.dk Zhang og Poole og siden Dechter i 1996 med den såkaldte variable elimination algoritme. Siden har en længere række af matematikere/statistikere forsøgt at gøre variabel elimination mere effektiv. Den lokale struktur i de bayesianske netværk kan afsløre uafhængighed, som igen betyder at udregningerne kan speedes op. To andre danskere fra Aalborg Universitet, Stig K. Andersen og Finn V. Jensen, leverede også et bidrag i denne sammenhæng. 13. Anvendelser af Bayesianske netværk I den banebrydende artikel [19] af Lauritzen og Spiegelhalter nævnt på forrige side, diskuteres et fiktivt eksempel med diagnosticering af sygdomme. Det pågældende BN, som kaldes "Asia", ser således ud: Har været i Asien? Er ryger? Har tuberkulose? Har lungekræft? Har bronkitis? Tuberkulose eller lungekræft? Røntgenundersøgelsen viser positiv? Har vejrtrækningsbesvær? Eksemplet med knudepunktstabeller kan findes i en mappe, som downloades med den gratis udgave af AgenaRisk. Eksemplet fås frem ved indefra programmet at vælge menuen File > Open Example Model…. I mappen "Book models", som indeholder eksemplerne fra Norman Fenton og Martin Neils bog [1], findes filen Asia.ast. Denne fil åbnes, hvorefter man kan foretage eksperimenter med det, dvs. tilføje evidens til bestemte knuder. len Et af de områder, hvor man kan udnytte Bayesianske netværk i praksis, er til diagnosticering af sygdomme. Generelt er det ofte meget kompliceret at stille diagnoser i 63 © Erik Vestergaard – www.matematiksider.dk lægeverdenen, eftersom symptomer kan være vage eller forskellige hos patienter. Her kan automatiserede På figuren I 1989 dannede en gruppe af forskere fra Aalborg Universitet firmaet HUGIN Expert A/S, opkaldt efter den ene af to ravne, som i den nordiske mytologi satte sig på Odins skulder for at bringe nyt fra verden. Et andet firma som siden er kommet til siden er det britiske AgenaRisk, ledet af Norman Fenton og Martin Neil. Figuren nedenfor giver en indikation af de områder, hvor BN finder anvendelse. Risk Management Medical Diagnostic Systems Forensic Science Meteorology Turbo Codes Spam filters Reasoning Expert systems Probabilistic Natural resource management and policy Military Bioinformatics Networks Security Robotics Artificial Intelligence Uncertainty Kalman filters Machine Learning Datamining The LAW Agriculture Finance Trouble shooting CAUSAL MODELS Decision Analysis Diagnostisering af fejl i printer. Safety and Realiability 64 © Erik Vestergaard – www.matematiksider.dk A. Betingede sandsynligheder er også sandsynligheder I dette appendiks vil vi steppe et niveau op i abstraktion i forhold til det meste af det øvrige stof i denne note. Appendikset er ikke strengt nødvendigt, men kan hjælpe de læsere, som kan følge argumenterne, til en dybere forståelse. Samtidig vil det spare en masse beviser for sætninger om betingede sandsynligheder. Lad E være en hændelse, der ikke har sandsynlighed 0, dvs. P( E ) ≠ 0 . Vi vil vise, at den betingede sandsynlighedsfunktion PE (⋅) ≡ P (⋅ E ) også er en sandsynlighedsfunktion. Punktummet er en såkaldt dummy, hvor man kan indsætte relevante størrelser. Da P selv er en sandsynlighedsfunktion, tilfredsstiller den automatisk alle de fire punkter a)-d) i definition 1 side 5. Vi skal vise, at den nye funktion PE også gør det. Det er hensigtsmæssigt først at præcisere, hvordan funktionen PE er defineret på både elementer u i udfaldsrummet U og på delmængder A af U : PE (u) = P({u} E ), u ∈U (A1) PE ( A) = P( A E ), A ⊆ U Bemærk, at vi er nødt til at placere mængdeklammer rundt om elementet u, da betinget sandsynlighed kun er defineret for mængder. a) Det er klart at 0 ≤ PE (u ) ≤ 1 for alle u ∈U , fordi alle betingede sandsynligheder jo ligger mellem 0 og 1. b) ∑ PE (u) = u∈U c) ∑ PE (u) = u∈U ∑ u∈U P({u} ∩ E ) 1 = ⋅ ∑ P({u} ∩ E ) P( E ) P( E ) u∈U = 1 1 ⋅ ∑ P(u ) = ⋅ P( E ) = 1 P( E ) u∈E P( E ) = ∑ P({u} E ) u∈A u∈A = d) ∑ P({u} E ) = P({u} ∩ E ) 1 = ⋅ ∑ P({u} ∩ E ) P( E ) P( E ) u∈A u∈A ∑ 1 1 ⋅ ∑ P (u ) = ⋅ P( A ∩ E ) = P ( A E ) = PE ( A) P( E ) u∈A∩ E P( E ) PE (∅) = P(∅ E ) = P (∅ ∩ E ) P (∅ ) 0 = = = 0 P( E ) P( E ) P( E ) At PE tilfredsstiller de fire betingelser betyder, at PE selv er en sandsynlighedsfunktion på U. Alle sætninger, såsom sætning 9, som er udledt på baggrund af de fire axiomer for en sandsynlighedsfunktion, holder dermed også for P udskiftet med PE . Sætning 9c) bliver for eksempel til PE ( Ac ) = 1 − PE ( A) , som når betydningen af PE udnyttes giver: (A2) P( Ac E ) = 1 − P( A E ) Vi kan altså bare sætte en betingelse E på alle sandsynlighederne i en given formel, så gælder den stadig! Lad os kigge på, hvad der sker, når man bruger metoden på den 65 © Erik Vestergaard – www.matematiksider.dk simple version af Bayes' formel i sætning 26. Før vi gør det skal vi dog lige godtgøre, at hvis man i forvejen har en betinget sandsynlighed, så kan man bare sætte den nye betingelse ind som en ekstra betingelse: (A3) P ( A ∩ B E) P ( A ∩ B) PE ( A B ) = E = E = PE ( B ) P( B E ) = P( A ∩ B ∩ E ) P( E ) P( B ∩ E ) P( E ) P ( A ∩ ( B ∩ E )) = P ( A B ∩ E ) = P ( A B, E ) P( B ∩ E ) Sidste lighedstegn angår blot notation, dvs. hvis vi har en betingelse, som er en fællesmængde af flere delbetingelser, så vælger man ofte at skrive delbetingelserne med komma imellem. Den simple version af Bayes' formel kommer til at se således ud med en ekstra betingelse E indsat: (A4) P ( A B, E ) = P( B A, E ) ⋅ P( A E ) P( B E ) Vi ser, at pointen i dette appendiks sætter os i stand til at generere en række nye formler. 66 © Erik Vestergaard – www.matematiksider.dk Opgaver Opgaverne er nummereret således, at det første ciffer angiver det afsnit, opgaven hører til. Opgave 4.3 er således den tredje opgave hørende til afsnit 4. Opgave 2.1 Betragt følgende eksperiment: Der spilles plat og krone, og der foretages tre kast med en mønt lige efter hinanden. Vi vedtager at lade notationen ( p, k , p ) svare til det udfald, hvor første kast gav plat, andet kast gav krone og tredje kast gav plat. a) Opskriv alle de mulige udfald. Hvor mange elementer er der i udfaldsrummet? b) Bestem sandsynlighederne for hvert udfald i udfaldsrummet. Hjælp: Du kan gange sandsynlighederne for hvert kast sammen, da udfaldene af de enkelte kast er uafhængige af hinanden. c) Betragt følgende hændelse H: Der var mindst 2 plat. Angiv den delmængde, som svarer til hændelsen H og bestem sandsynligheden P ( H ) for hændelsen. Opgave 2.2 Dette er en udvidelse af eksempel 7 i afsnit 2. Som udgangspunkt har vi det samme eksperiment som i eksempel 7, men den stokastiske variabel er en anden. En bankør tilbyder et spil, hvor spilleren slår med to terninger: en grøn og en rød. Hvis der er en 1’er blandt de to terninger, skal spilleren betale 4 kr. til bankøren. I alle andre tilfælde vinder spilleren det beløb i kroner, som svarer til forskellen mellem de to terningers visning. Hvis den ene terning viser 5 og den anden 2, vinder spilleren altså 5 − 2 = 3 kroner. X : Angiver det beløb, som spilleren vinder i ét enkelt spil. a) Bestem sandsynlighedsfordelingen for X. Hjælp: Ligesom i eksempel 7 skal du finde alle de mulige værdier, altså gevinster i spillet. Du skal regne gevinsterne med fortegn, og da det er set fra spillerens synspunkt, er gevinsten positiv, hvis spilleren vinder noget og negativ, hvis spilleren taber noget. For at bestemme de tilhørende sandsynligheder P( X = xi ) , kan du evt. for at få overblik lave et "koordinatsystem" som i eksempel 7, blot med gevinsterne anbragt i felterne fremfor summen af øjnene. Man kan indføre begrebet middelværdien E ( X ) af en stokastisk variabel X. E'et står for expectation på engelsk, altså den forventede værdi af X. Ikke overraskende er den defi- 67 © Erik Vestergaard – www.matematiksider.dk neret som det vejede gennemsnit af værdierne x1 , x2 , … , xn af den stokastiske variabel. Vægtene er naturligvis de tilhørende sandsynligheder P( X = xi ) : E( X ) = n ∑ xi ⋅ P( X = xi ) i =1 b) Benyt din sandsynlighedsfordeling fra a) til at vise, at E ( X ) = − 19 . c) Hvad fortæller middelværdien her, sagt med ord? Hvorfor vil det ikke være fornuftigt for spilleren i det lange løb at deltage i spillet? Kommentar: Middelværdien betegnes undertiden også med det græske bogstav µ. En anden størrelse, som man også bruger er variansen for X, og den er defineret ved: n ∑ ( xi − µ)2 ⋅ P( X = xi ) Var( X ) = i =1 Tager man kvadratroden af dette tal, fås spredningen: σ( X ) = Var ( X ) . Spredningen i et spil som dette, vil fortælle lidt om, hvor spredte gevinsterne er, altså hvor chancebetonet spillet er. I det meget kedelige tilfælde, hvor et spil gav den samme gevinst, uanset udfald, ville spredningen være 0. Opgave 2.3 Vi betragter mængdeoperationerne fra side 9 samt Venn-diagrammer. a) Tegn to overlappende delmængder A og B i et Venn-diagram. Skraver det område, som svarer til mængden Ac ∪ B c . b) Foretag nogle mængdeoperationer på delmængderne A og B, så resultatet svarer til det markerede område i Venn-diagrammet på venstre delfigur. U A B U A B c) Samme spørgsmål for højre delfigur. Opgave 2.4 Lad A, B og C være vilkårlige delmængder af U. Vis følgende identiteter: a) b) c) d) A ∪ ( B ∪ C ) = ( A ∪ B) ∪ C A ∪ ( B ∩ C ) = ( A ∪ B) ∩ ( A ∪ C ) Ac ∪ B c = ( A ∩ B )c Ac ∩ B c = ( A ∪ C )c 68 © Erik Vestergaard – www.matematiksider.dk Hjælp: Du kan enten vælge at vise dem ved at tegne Venn-diagrammer, eller ved at argumentere direkte på elementer. Hvis du bruger Venn-diagrammer, så tegn overlappende delmængder. Hvis du argumenterer på element-niveau, tænk da således: Vis, at hvis et element u tilhører venstresiden, så vil det også tilhøre højresiden og omvendt. Opgave 2.5 Der slås med to terninger, en grøn og en rød. Lad der være givet følgende hændelser: A : Forskellen på hvad den grønne og den røde terning viser er højest 1. B : Den grønne terning viser mindst 5. a) Bestem sandsynlighederne P ( A) , P( B) samt P( A ∩ B ) . b) Prøv at udtrykke hændelsen Ac med ord og brug sætning 9 til at bestemme sandsynligheden for hændelsen. c) Lav en liste med de udfald, som er i hændelsen ( A ∪ B )c . Opgave 2.6 Bestem sandsynligheden for at få mindst en sekser ved 7 kast med en terning. Hjælp: Bruge komplementærhændelsen efter metoden fra eksempel 33. Opgave 2.7 Der vides at være gevinst på 10% af lodsedlerne i et stort lotteri. Thomas beslutter at købe tre lodsedler. Lad Gk være hændelsen, at der er gevinst på den k'te lodseddel. Thomas vil gerne vide hvad sandsynligheden er for at han får gevinst på mindst en lodseddel og spørger derfor sin matematiklærer. a) Hvorfor er hændelserne i princippet ikke helt uafhængige? Hvorfor er det her alligevel rimeligt at antage, at de er det, når man skal udregne en meget præcis (men ikke helt rigtig) værdi for den søgte sandsynlighed? Udregn sandsynligheden. b) Hvor mange lodsedler skal Thomas købe, hvis han vil være over 50% sikker på at få gevinst på mindst én lodseddel? Hjælp: Kig på komplementære hændelser, ligesom i eksempel 24. Opgave 3.1 Eksperiment: Der trækkes på tilfældig måde ét kort fra et sæt spillekort med 52 kort. Betragt følgende hændelser: A : Kortet er et billedkort B : Kortet er en spar a) Bestem følgende sandsynligheder: P( A), P( B ), P( A ∩ B ) og P( A ∪ B ) . b) Er hændelserne A og B uafhængige? © Erik Vestergaard – www.matematiksider.dk 69 c) Bestem P( Ac ) . Hvordan vil du sprogligt formulere hændelsen Ac ? d) Gentag a) og b) for et spil kort, som foruden de 52 kort har tre jokere. Opgave 3.2 Ralf skal på en udflugt i en grotte i Sydeuropa. Antag at sandsynligheden for at blive bidt af en flagermus i grotten i løbet af dagen er 2%. Det oplyses, at 3% af flagermusene i grotten har hundegalskab. Hvad er sandsynligheden for at personen på udflugten bliver bidt af en flagermus med hundegalskab? Benyt sandsynlighedsregningens multiplikationssætning (sætning 14) til at besvare spørgsmålet, idet du gør dig klart hvad de enkelte hændelser er. Opgave 3.3 Vis at hvis A og B er to uafhængige hændelser i et endeligt sandsynlighedsfelt, så er de komplementære hændelser Ac og B c også uafhængige. Hjælp: Du skal vise, at (2) i definition 15 gælder for de to mængder Ac og B c . Regn på venstre siden og højresiden og se, at det giver det samme, idet du undervejs flere gange bruger sætning 9 for at komme tilbage til udtryk med A og B, som du ved noget om. Undervejs får du brug for identiteten: Ac ∩ B c = ( A ∪ C )c fra opgave 24. Opgave 3.4 Der foretages 7 kast med en terning. a) Hvad er sandsynligheden for at få mindst én sekser. b) Hvad er sandsynligheden for at få præcist 1 sekser? Hjælp: Eksperiment: 7 kast med en terning. Betragt for i = 1, 2, … , 7 hændelserne Ai : Den i'te terning viser 6 øjne. 70 © Erik Vestergaard – www.matematiksider.dk Opgave 3.5 Der trækkes et kort fra et kortspil. Hvad er sandsynligheden for at kortet er en hjerter, givet at det er en konge? Benyt definition 12 hertil. Giver det samme resultat, som din intuition siger? Opgave 4.1 (Beviser i simplere tilfælde) Prøv at gennemføre beviserne for sætning 26 (loven om total sandsynlighed) samt beviset for sætning 28 (Bayes' formel) i tilfældet, hvor klassedelingen kun består af to mængder, nemlig en mængde A og (nødvendigvis) dens komplementære mængde Ac . Det kan være ganske nyttigt for at forstå det hele bedre. Skriv omhyggeligt op, idet du tegner mængder … Opgave 4.2 Eleverne på et lille gymnasium kan efter skoletid dyrke fitness meget billigt i et flot udstyret lokale på skolens område. Det vides at 35% af drengene på skolen har taget imod tilbuddet, mens tallet for pigernes vedkommende er 20%. Det oplyses, at 55% af eleverne på skolen er piger. Fitness lokalet bliver kun brugt af elever på skolen. Hvad er sandsynligheden for at en tilfældig udvalgt person i fitnesslokalet er en pige? Hjælp: Indfør hændelsen pige: Den udvalgte person er en pige, hændelsen dreng: Den udvalgte person er en dreng samt hændelsen fitness: Den udvalgte person dyrker fitness. Du spørges om P ( pige fitness ) , men ved mere om P ( fitness pige) , etc. Bayes' formel er oplagt til at "vende problemet på hovedet". Opgave 4.3 For at have mere sikre leverancer gør en fabrik brug af tre underleverandører af en bestemt komponent til produktionen. Underleverandør A leverer 60% af komponenerne, mens de tilsvarende tal for underleverandør B og C er henholdsvis 15% og 25%. Erfaringen har vist, at der hos underleverandørerne A, B og C er fejl i henholdsvis 3%, 8% og 5% af de komponenter den pågældende leverandør leverer. a) Hvor stor en procentdel af de komponenter fabrikken modtager er der fejl i? b) Der udtrækkes en tilfældig komponent fra en kasse med alle de komponenter fabrikken har modtaget. Hvad er sandsynligheden for, at komponenten er leveret fra underleverandør B. 71 © Erik Vestergaard – www.matematiksider.dk Hjælp: I delspørgsmål a) skal du udregne den totale sandsynlighed, mens du i b) skal benytte Bayes' formel. Indfør passende hændelser. Opgave 4.4 Du skal regne videre på eksempel 32 med test for sygdom. Hvad er sandsynligheden for at ikke at have sygdommen givet at testen er negativ? c Hjælp: Benyt Bayes' formel til at udregne sandsynligheden P( S c T ) . Opgave 4.5 (ELISA test) ELISA (Enzyme-linked immunosorbent assay) er en test til identifikation af bestemte proteiner ved at udnytte antistoffers evne til at binde specifikt til dem. Formålet her er at undersøge om blodet fra en person indeholder HIV. Testen er ikke perfekt: Antag, at testen (korrekt) giver et positiv testresultat i 99% af de tilfælde, hvor blodet indeholder virusset samt at testen (korrekt) giver et negativt testresultat i 99,5% af de tilfælde, hvor blodet ikke indeholder virusset. Antag desuden at 1 ud af 10000 blodportioner indeholder HIV-virus. a) Hvor mange procent af de donerede blodportioner vil teste positiv ved anvendelse af ELISA-testen? b) Hvor stor en del af de blodprøver, som giver et negativt resultat med ELISA-testen er inficeret med HIV-virus? c) Hvor stor en del af de blodprøver, som giver et positivt resultat ved testen, er rent faktisk inficerede med HIV-virus? Hjælp: Kig på eksempel 32, som er meget analog. Identificer de forskellige hændelser og giv dem navne. Du kan for eksempel lade T være hændelsen: Testen viser positiv og S være hændelsen: Blodportionen indeholder HIV-virus. Da haves P (T S ) = 0,99 , etc. Hvilke sandsynligheder er det, der spørges efter i a), b) og c)? Du skal anvende både formlen for den totale sandsynlighed (Sætning 27) og Bayes' formel (Sætning 28). Opgave 4.6 Ifølge hjemmesiden www.lunge.dk er der i Danmark 17% af dem over 15 år, som ryger. Her kan man også se, at 85% af alle lungekræfttilfældene i Danmark skyldes rygning. En bestemt person (over 15 år) har fået konstateret lungekræft. Hvad er sandsynligheden for, at det skyldes rygning? 72 © Erik Vestergaard – www.matematiksider.dk Opgave 4.7 (Arvelighedslære og Hardy-Weinberg-loven) Når en mand og en kvinde får et barn, overfører de som bekendt et udvalg af deres arveanlæg til barnet. Af hensyn til matematikken i denne opgave er det nødvendigt at forstå processen i grove træk. Hver almindelig celle i kroppen indeholder (normalt) 23 kromosompar, altså i alt 46 kromosomer. Hvert kromosompar bærer de samme gener på det samme sted (locus) på kromosomerne. På figuren på næste side er således afbildet genet for øjenfarve. Hvert gen kan imidlertid have forskellige former, kaldet alleller. På figuren har genet i det ene kromosom en allel for blå øjne, mens det andet har en allel for brune øjne. Meiosen er den proces, som fører til dannelsen af kønsceller. Den proces er afbildet på figuren, dog i en simplificeret udgave. Først sker en fordobling af kromosomerne, herefter en indviklet proces, som ender ud med, at man har fire kønsceller (gameter). Gameterne er karakteristiske ved, at de hver især kun har 23 kromosomer – der er nu ingen par! Hos kvinden går 3 ud af de fire gameter til grunde og bliver til såkaldte pollegemer. Denne proces er ikke afbildet på figuren. Det er tilfældigt hvilken gamet, som fører til et modent æg. Rent matematisk vil det altså svare til på tilfældig vis at vælge en af de fire gameter. Når en sædcelle (gamet fra manden) finder en ægcelle (gamet fra kvinden), så kan man regne med, at det sker på tilfældig måde. På figuren udvælges altså indirekte én af de fire sædceller og i praksis én af de fire kvindelige gameter, og de har samme sandsynlighed for at blive valgt! Tilsammen vil den valgte sædcelle og den valgte ægcelle danne en ny celle, kaldet en zygote, som er byggestenen til alle celler i barnet. Det skal lige tilføjes, at +… på figuren hentyder til at der i cellen er 22 andre objekter (kromosompar/kromosomer). På figuren ser vi, at manden har genotype Bb for øjenfarve, mens kvinden har genotypen bb. Her står b for allellen blå øjne, mens B står for allellen brune øjne. Det betyder, at manden kommer med 4 kønsceller med allellerne B, b, B, b, mens kvinden kommer med b, b, b, b. At der er dobbelt så mange af hver allel ændrer intet ved sandsynlighederne, så vi vil i det følgende blot sige, at manden kommer med B, b, mens kvinden kommer med b, b. Mulighederne for hvilket par af alleller barnet kan få, fremgår af figuren på næste side. Hardy-Weinberg loven Lad os nu betragte situationen med genotyper på et overordnet plan, dvs. på populations-niveau. Hardy-Weinberg loven siger, at frekvenserne for en allel er konstante i en population under nogle antagelser. Der vil altså under nogle forudsætninger automatisk opstå en "ligevægt" i en population. Loven betyder, at man kan udregne frekvensfordelingen af genotyper i populationen. Lad os sige, at et gen har to mulige alleller, B og b, som ovenfor. Vi kalder frekvensen af B for p og frekvensen af b for q. 73 © Erik Vestergaard – www.matematiksider.dk Kopiering af kromosomer gen for øjenfarve b B kroma!der b b B B Her to forskellige udgaver af samme gen kromosom kromosom kromosom kromosom B +... B +... b b B b B B +... +... b +... Celle fra manden b +... Meiose sædceller (gameter) +... b +... b +... b b +... b b B ægceller (gameter) (Simplificeret) b b b +... b +... Celle fra kvinden b +... Zygote, hvorfra barnet udvikles 74 © Erik Vestergaard – www.matematiksider.dk Genotyperne BB og bb kaldes homozygote, mens genotypen Bb kaldes heterozygot. For en heterozygot genotype er der i øvrigt ingen forskel på, om den ene eller den anden allel kommer fra manden eller kvinden. For nogle geners vedkommende vil en eller flere alleller være dominante i forhold til de øvrige, som dermed kaldes recessive. En dominant allel vil komme til udtryk hos personen (fænotypiske udtryk). En dominant allel betegnes normalt med et stort bogstav, mens en recessiv allel betegnes med et lille bogstav. For genet øjenfarve er allellen for brune øjne således dominerende over allellen for blå øjne. Det betyder, at hvis bare en af allellerne er for brune øjne, så bliver personens øje brune. Kun i tilfældet med to alleller for blå øjne vil personen få blå øjne. a) Argumenter for at genotyperne BB, bb og Bb forekommer med frekvenserne henholdsvis p 2 , q2 og 2 pq i populationen, idet du udnytter uafhængigheden mellem allellerne. b) I den danske befolkning har 36% brune øjne. Bestem, under antagelse af Hardy Weinberg "ligevægt", frekvenserne for de to alleller for henholdsvis brune og blå øje i Danmark, og brug det til at beregne frekvensfordelingen af de tre genotyper BB, bb og Bb i Danmark. Hjælp: Udnyt a) samt at p + q = 1 til at opstille en ligning og løs den. c) Hardy-Weinbergs lov om "ligevægt" i frekvensen af allellerne i populationen har en række forudsætninger. Søg på Internettet for at finde hvilke. Det skal nævnes, at munken Gregor Mendel (1822-1884) i tidsrummet fra 1856 til 1863 eksperimenterede med ærteplanter på sit kloster. Her opdagede han på eksperimentel basis, hvordan planternes arveanlæg blev nedarvet. Han nævnes derfor ofte som arvelighedslærens fader. Senere fandt man ud af, hvad der mere detaljeret sker på celleniveau, både i mennesker, dyr og planter. Opgave 4.8* (Genetik: Øjenfarve) I denne opgave forudsættes det, at læseren er bekendt med den indledende teori om arvelighedslære fra opgave 45. Hermed menes specielt, hvordan genotyper nedarves. Poul har brune øjne ligesom begge hans forældre. Søsteren Lise har derimod blå øjne. a) Argumenter for, hvorfor begge forældre nødvendigvis må have genotype Bb. b) Benyt a) til at vise, at sandsynligheden for at Poul har genotype Bb, er Hjælp: Eksperimentet kan opfattes som et dobbelteksperiment derved, at der både udtrækkes en allel fra moderen og en allel fra faderen. Udfaldsrummet har altså fire udfald, som er lige sandsynlige: U = {( B, B ), ( B, b), (b, B ), ( b, b)} . Indfør dernæst følgende fire hændelser: 2 3 . Brune: Bb Brune: Bb Mor Far Poul Brune 75 © Erik Vestergaard – www.matematiksider.dk A1 : Poul har genotype BB A2 : Poul har genotype Bb A3 : Poul har genotype bb C : Poul har brune øjne Da hændelsen C er givet, er det P ( A2 C ) som skal beregnes. Da vi nemt kan finde de "omvendte" betingede sandsynligheder, er det oplagt at bruge Bayes' formel. c) Det oplyses, at Pouls kæreste Ida har blå øjne. Vis at sandsynligheden for at deres første barn får blå øjne er 13 . Hjælp: På figuren til højre er indtegnet sandsynligheden for at Poul har genotype Bb, som vi udregnede i b). På tilsvarende vis udregnes, at sandsynligheden for at Poul har genotype BB, er 13 . Vi ved altså ikke, hvilken genotype Poul har, kun at det enten er Bb eller BB, med sandsynligheder henholdsvis 23 og 13 . Lav et vejet gennemsnit for at bestemme P( E1 ) , hvor E1 skal står for hændelsen: "Det første barn har blå øjne". Brune: Bb: !⁄# BB: $⁄# Blå: bb Poul Ida Barn 1 d) Det oplyses nu, at det første barn faktisk fik brune øjne. Vis at med den nye information om det første barns øjenfarve, må sandsynligheden for, at det næste barn også får brune øjne, opgraderes til 43 . Hjælp: Lad E2 være hændelsen: "Det første barn har brune øjne". Benyt Bayes' formel til at bestemme den betingede sandsynlighed P ( A1 E2 ) ved hjælp af de "omvendte" betingede sandsynligheder m.m. Gør det samme med P ( A2 E2 ) . Derved har du de opdaterede sandsynligheder for Pouls genotyper, afspejlende den nye viden E2 . Med disse værdier kan du gå til figuren nedenfor. Skriv de nye værdier ud for genotype Bb og BB. Benyt herefter vejet gennemsnit – som i delspørgsmål c) – til at bestemme sandsynligheden for at barn nummer 2 også får brune øjne. Du kan lade F2 være hændelsen: "Barn 2 har brune øjne". NB! I virkeligheden er øjenfarve ikke så simpelt som vi gør det til i denne opgave. Faktisk er der flere loci, som påvirker øjenfarven. Det er fx velkendt at nogle personers øjenfarve er mere ovre i det grønne eller grå område. Brune: Bb: !⁄# BB: $⁄# Blå: bb Poul Ida Barn 1 Brune Brune: Bb: opdateret BB: opdateret Blå: bb Ida Poul Barn 2 76 © Erik Vestergaard – www.matematiksider.dk Opgave 4.9 (Variant af Monty Hall problemet) I [9] omtales adskillige varianter af Monty Hall problemet. Nogle er med flere spillere og andre med flere døre. Vi skal se på en variant, hvor der stadig er en spiller og tre døre, men hvor betingelserne for værtens valg ændres en smule: 1) Studieværten åbner altid en dør, som skjuler en ged. 2) Studieværten åbner aldrig den dør, spilleren har valgt. 3) Hvis studieværten kan åbne mere end én dør uden at overtræde de to første regler, så skal studieværten vælge den med det højeste nummer. Hjælp: Start med at bestemme de betingede sandsynligheder, som har ændret sig en smule i forhold til det klassiske Monty Hall problem. Brug derefter Bayes' formel. Du kan naturligvis også vælge at lave et hændelsestræ. Opgave 4.10 (Fangens fejlslutning) Det er blevet annonceret, at to ud af fire bestemte fanger i et fængsel skal løslades før tid. En af de fire involverede fanger har selv regnet ud, at han har en sandsynlighed på 12 for at blive løsladt. Han er ven med fængselsvagten og overvejer at spørge vagten om navnet på én af de andre tre, som skal løslades. Men han tøver ud fra følgende overvejelser: Når vagten har fortalt mig navnet på en af de andre tre medfanger, så er der kun de andre to og mig selv tilbage. Altså vil min sandsynlighed for at blive løsladt dale fra 12 til 13 . Påvis ved at indføre passende hændelser, at fangen er forkert på den, og at han stadig har en sandsynlighed på 12 for at blive løsladt, selv efter vagten nævner navnet på en af de andre tre. Opgave 4.11 En undersøgelse viser ifølge hjemmesiden www.lunge.dk, at der i 2013 var 17% af danskerne over 15 år, som var rygere – lejlighedsrygere fraregnet. Skadevirkningen af rygning afhænger både af alder og af, hvor mange cigaretter, man ryger om dagen. Som et godt middeltal kan man dog sige, at en ryger har 23 gange så stor sandsynlighed for at udvikle lungekræft end en ikke-ryger. Vi tillader os at sidestille det med at af de personer, der har lungekræft, er der 23 gange så mange, som er rygere, som der er ikke rygere. Hvad er sandsynligheden for at en tilfældig valgt dansker med lungekræft er ryger? Hjælp: Indfør for eksempel hændelserne: L : Personen har lungekræft og R : Personen er c ryger. Argumenter for at P( L R ) = 23 ⋅ P( L R ) . Benyt derefter Bayes' formel. © Erik Vestergaard – www.matematiksider.dk 77 Opgave 5.1 Antag at man har fået beregnet a posteriori odds i sætning 34 til værdien p. Vis da, at man får den a posteriori sandsynlighed ved P ( H E ) = p (1 + p ) . Hjælp: Kald for eksempel P ( H E ) for x. Vis, at så må x (1 − x ) = p og løs ligningen. Opgave 6.1 (Anklagerens fejlslutning – Sally Clark sagen) Den britiske kvinde Sally Clark blev i 1999 fundet skyldig i at have myrdet begge hendes to børn, der begge døde pludseligt nogle få uger efter deres fødsel. Sagen byggede på statistisk evidens. Det kom også frem, at Clark havde lidt af fødselsdepression efter det første barns fødsel, men var kommet sig ved det andet barns fødsel. Børnelægen Sir Roy Meadow forklarede i retten, at chancen for at to børn fra en velstående ikke-rygende familie skulle lide vuggedøden er 1 ud af 73 millioner. Han var nået frem til dette tal ved at kvadrere tallet 1/8543, som blev angivet som sandsynligheden for at ét barn skulle lide vuggedøden. a) Antag et øjeblik at sandsynligheden for at ét barn lider vuggedøden er 1/8543. Hvad er betingelsen for, at man kan bestemme sandsynligheden for at begge børn lider vuggedøden ved at opløfte 1/8543 til 2. potens? (Der er i øvrigt meget der tyder på, at denne betingelse ikke er opfyldt!) Mange aviser fremstillede sandsynligheden 1/73000000 som værende sandsynligheden for at Sally Clark var uskyldig. b) Redegør for hvorfor aviserne begår anklagerens fejlslutning. Senere kom det frem, at hendes anden søn ikke havde lidt vuggedøden, men var død af en stafylokok infektion. En oplysning, som forsvaret ikke havde modtaget. Sagen blev genoptaget og i 2003 blev Sally Clark frikendt og løsladt. Misseren fik det britiske retsvæsen til at undersøge flere hundrede gamle sager, hvilket førte til at to andre kvinder, der tidligere var dømt for at have myrdet deres børn, blev løsladt fra fængslet. Opgave 6.2 (Bayes' faktoren – betydningen af øjenvidner) I et Mecklenburg studie fra 2006 fandt man at træfsandsynligheden, når øjenvidner skulle identificere en mistænkt i et line-up, var 60%, mens sandsynligheden for falsk alarm var 3%. Betragt hændelserne: H : Personen har begået udåden E : Personen er genkendt ved opstilling foran øjenvidner 78 © Erik Vestergaard – www.matematiksider.dk a) Bestem Bayes' faktoren for øjenvidneidentifikation, dvs. P( E H ) c . P( E H ) b) Giv en sproglig fortolkning af denne faktor: Hvad kan man sige om a posteriori odds i forhold til a priori odds? Antag at a priori odds er 10%, dvs. at P( H ) P( H c ) = 0,10 . c) Benyt Bayes' formel på odds form fra sætning 34 til at bestemme a posteriori odds for øjenvidnegenkendelse ved et line-up. d) Beregn a priori sandsynligheden P ( H ) og a posteriori sandsynligheden P ( H E ) . Hjælp: Se pointen i opgave 5.0. Opgave 6.3 Betragt eksempel 40 i afsnit 6. Retsmedicineren havde opgivet sandsynligheden for et DNA match givet uskyld til at være 1 ud af 200 mio. Forsvareren Mr. Thwaites udfordrede disse tal, idet han mente, at de nærmere skulle drosles ned til enten 1 ud af 20 mio. eller 1 ud af 2 mio. Benyt samme metode som vist i eksempel 40 til med de to reviderede DNA-sandsandsynligheder at bestemme de tilhørende sandsynligheder for uskyld, altså P ( H E1, E2 , E3 , E DNA ) . Opgave 6.4 En person er tiltalt for et mord. Betragt følgende hypoteser: Hp : Tiltalte er skyldig i mordet Hd : Tiltalte var ikke på gerningsstedet Argumenter for, hvorfor disse to hændelser hverken behøver udgøre hele udfaldsrummet tilsammen eller ikke have noget overlap - altså at hændelserne ikke behøver udgøre en klassedeling af udfaldsrummet. Opgave 6.5 Vi skal undersøge eksemplet med forsvarerens fejlslutning (Defendant's fallacy) fra afsnit 6 lidt nøjere. Vi gentager hændelserne: E1 : Konen er myrdet E2 : Ægtemanden har været voldelig overfor sin kone igennem længere tid H : Ægtemanden har myrdet sin kone Vi gør følgende antagelser: • • • 1 ud af 10 mænd er voldelige overfor deres kone. 1 ud af 5 af de kvinder, som er myrdet, er myrdet af deres mand 50% af de ægtemænd, som har myrdet deres kone, har også været voldelig overfor konen igennem længere tid. 79 © Erik Vestergaard – www.matematiksider.dk Vi skal betragte et udtryk for sandsynligheden for at ægtemanden har begået mordet, givet alle beviser. Det fås ved først at bruge Bayes' formel til at finde et udtryk for den betingede sandsynlighed P ( H E2 ) og derefter tilføje den ekstra betingelse E1 i hver sandsynlighed, som figurerer på højre og venstre side i formlen. Det kan vises at være lovligt rent matematisk. Man får: P ( H E2 , E1 ) = P ( E2 H , E1 ) ⋅ P ( H E1 ) P ( E2 H , E1 ) ⋅ P ( H E1 ) + P( E2 H c , E1 ) ⋅ P( H c E1 ) a) Benyt antagelserne ovenfor til at identificere de enkelte sandsynligheder i formlen ovenfor. Husk i den forbindelse at P( H c E1 ) = 1 − P( H E1 ) . Vis at det giver en sandsynlighed på knap 56%. b) Hvad er sandsynligheden for ægtemandens skyld, hvis vi ser bort fra oplysningen om, at han er voldelig overfor sin kone, altså hvor stor er P ( H E1 ) ? Opgave 6.6 (DMP – Database Match Probability) I afsnit 6 kiggede vi på sandsynligheden for i en database med DNA-profiler at finde mindst ét DNA-match. Vi arbejdede med en RMP (Random 1 Match Probability) på p = 705000000 . Af vores analyse side 37 fremgår det umiddelbart, at hvis der er x DNAprofiler i databasen, så er sandsynligheden for at finde mindst ét match givet ved f ( x ) = 1 − (1 − p ) x . a) Benyt et CAS-værktøj til for ovenstående værdi af p at tegne grafen for funktionen f. Lad definitionsmængden være fra 0 til 3 mia. Får du samme resultat som grafen på side 38? Det skulle du gerne. b) Hvor stor skal databasen være, for at der er 10% sandsynlighed for at finde mindst ét DNA-match i databasen? På grafen side 38 ser vi, at grafen ser meget lineær ud det første stykke. Det kan give os en formodning om at vi kan vise en approksimativ lovmæssighed for sandsynligheden for mindst ét DNA-match i en database med x DNA-profiler, når x ikke er for stor. I det følgende må du gerne benytte CAS-værktøj. c) Benyt differentialregning til at vise at ligningen for tangenten til grafen for f i punktet x = 0 er givet ved udtrykket L( x ) = − ln(1 − p ) ⋅ x , hvor p er RMP. − ln(1 − p ) d) Vis at lim = 1. p→∞ p 80 © Erik Vestergaard – www.matematiksider.dk e) Benyt c) og d) til at konkludere, at for små værdier af p (som i praksis altid er opfyldt) og ikke for store værdier af x, gælder følgende: f ( x ) ≈ p ⋅ x . Bemærk at p ⋅ x netop er den såkaldte Database Match Probability, forkortet DMP. Vi har dermed givet en begrundelse for det rimelige i at bruge denne størrelse. Opgave 7.1 Lad A, B og C være hændelser i et endeligt sandsynlighedsfelt og antag at P( B, C ) ≠ 0 . Vis at der da gælder følgende formel: P( A, B, C ) P ( A B, C ) = P ( B, C ) Opgave 7.2 (Simpsons paradoks – UC Berkeley) Et autentisk eksempel på Simpsons paradoks hændte, da det berømte amerikanske University of California Berkeley i 1973 blev sagsøgt for at forfordele kvinder ved optagelse på videregående uddannelser. Tallene viste at mandlige studerende havde nemmere ved at blive optaget, og forskellen kunne ikke tilskrives tilfældigheder, mente man. Antallet af studerende, som blev optaget og ikke optaget fordelt på køn er angivet i tabellen nedenfor – for de seks største faggrupper. UC Berkeley Optagelses data for de seks største fag Fagområde A B C D E F Mandlige studerende Optaget Ikke optaget 512 313 353 207 120 205 138 279 53 138 22 351 Kvindelige studerende Optaget Ikke optaget 89 19 17 8 202 391 131 244 94 299 24 317 a) Bestem optagelsesprocenterne for hvert køn og for hver faggruppe. Udregn desuden optagelsesprocenterne for de to køn, når alle faggrupper lægges sammen i en pulje. b) Man kunne foretage en masse statistiske analyser, men du skal blot kigge på tallene for hver faggruppe for at vurdere, om du mener, at kvinderne er blevet forfordelt. Hvad med procenterne i tilfældet, hvor alle faggrupper er slået sammen? Hvori består Simpsons paradoks i denne situation? Prøv at formulere det. c) Forsøg at give en forklaring på, hvorfor procenterne i b) tilsyneladende vi giver et meget forskelligt billede alt efter om man betragter dem fagruppevist eller totalt. Hjælp: Eftersom det i Californien er ulovligt at offentliggøre meget specifik statistik om optagelser på universiteterne, er faggrupperne kun angivet med store bogstaver: A, B, …, F. Du kan måske gætte lidt på, hvilke faggrupper de forskellige bogstaver kan stå for, når man tænker på forskelle i køn … 81 © Erik Vestergaard – www.matematiksider.dk Opgave 9.1 (Bayes' formel på odds form, når der er flere beviser) Lad der være givet tre "beviser" E1 , E2 og E3 samt en hypotese H. Vi ønsker at undersøge hvad der sker med a priori odds for H, når der tages hensyn til de tre beviser. a) Vis at man kan udregne a posteriori odds ved at multiplicere med Bayes-faktorer, som vist i denne formel: P( H E1 , E2 , E3 ) P( E3 E2 , E1 , H ) P( E2 E1 , H ) P( E1 H ) P( H ) = ⋅ ⋅ ⋅ c c c c P( H E1 , E2 , E3 ) P( H c ) P( E3 E2 , E1 , H ) P( E2 E1 , H ) P( E1 H ) a posteriori odds Bayes-faktor for E3 Bayes-faktor for E2 Bayes-faktor for E1 a priori odds b) Vis at hvis beviserne er betinget uafhængige med hypotesen H, så reducerer udtrykket i a) til følgende udtryk: P( H E1 , E2 , E3 ) P( E3 H ) P( E2 H ) P( E1 H ) P( H ) = ⋅ ⋅ ⋅ c c c c c P( H E1 , E2 , E3 ) P( E3 H ) P( E2 H ) P( E1 H ) P( H ) Man kan altså under disse forudsætninger få a posteriori odds ved at starte med a priori odds og multiplicere med Bayes-faktoren for hvert enkelt bevis (givet H) et efter et! Hjælp: a) Benyt Bayes' formel på odds form fra sætning 34 samt kædereglen. b) Tag udgangspunkt i formlen i a) og udnyt den betingede uafhængighed. Husk i øvrigt at når man skriver komma imellem hændelser, så underforstås fællesmængde! Således betyder P ( H E1, E2 , E3 ) det samme som P ( H E1 ∩ E2 ∩ E3 ) . Opgave 10.1 Betragt det Bayesianske netværk "For sent til arbejde" fra afsnit 10. a) Benyt teknikken i (37) til at vise, at den marginale sandsynlighedsfordeling for C er givet ved følgende udtryk (ingen reduktioner er mulige her): P (C ) = ∑ P (C A, N ) ⋅ P( A M ) ⋅ P ( N M , O ) ⋅ P( M ) ⋅ P(O ) A, N , M ,O b) Vis på analog vis, at den marginale sandsynlighedsfordeling for A er givet ved følgende udtryk, hvor reduktioner via sætning 29 er mulige: P( A) = ∑ P( A M ) ⋅ P( M ) M c) Hvad er sandsynligheden for at Anna kommer for sent på arbejde? Hjælp: Se (38). d) Hvad er sandsynligheden for at Niels slipper for en reprimande? 82 © Erik Vestergaard – www.matematiksider.dk Opgave 10.2 Betragt det Bayesianske netværk "For sent til arbejde" fra afsnit 10. a) Brug teknikken anvist i afsnit 10 til at vise, at den opdaterede marginale sandsynlighed for C givet informationen A = True er givet ved følgende udtryk: P (C A = True) = 1 ⋅ ∑ P (C A = True, N ) ⋅ P ( A = True M ) ⋅ P ( N M , O ) ⋅ P ( M ) ⋅ P (O ) P ( A = True) N ,O ,M b) Indsæt C = False på C 's plads i udtrykket under a) og udskriv eksplicit hvert led i summen á la det vi gjorde i (41). Udregn til slut P (C = False A = True) , altså sandsynligheden for at Niels ikke får en reprimande af chefen, givet at Anna kommer for sent – ved at indsætte værdierne fra knudepunktstabellerne. Svaret er 57,1%. Opgave 10.3 I eksempel 50 i afsnit 7 kiggede vi på en situation, hvor Anders, Lise og Ulla overvejede at deltage i byfesten i deres hjemby. Situatuationen kan beskrives i rammerne af et Bayesiansk netværk. Vi har de stokastiske variable A, L og U. Variablen A kan antage værdierne True og False, alt efter om Anders detager i byfesten eller ej. Tilsvarende med de to øvrige personer. Anders deltager (A) Anders deltager 0.50 False True 0.50 Lise deltager (L) Lise deltager Anders deltager False True Ulla deltager (U) Ulla deltager False 0.75 0.25 True 0.00 1.00 Lise deltager False True False 1.00 0.00 True 0.10 0.90 a) Benyt teknikken fra afsnit 10 til at bestemme de marginale sandsynligheder for de stokastiske variable A, L og U. b) Dagen efter fortalte Ulla, at hun var til byfesten. Hvad er sandsynligheden for at Anders også deltog? Hjælp: Bestem et udtryk for den marginale sandsynlighed for A givet informationen U = True , altså bestem et udtryk for P ( A U = True ) og indsæt derefter A = True på A 's plads, og indsæt de relevante sandsynligheder fra knudepunktstabellen. 83 © Erik Vestergaard – www.matematiksider.dk Opgave 11.1 I stil med det sidste simple eksempel i afsnit 11 skal du i AgenaRisk lave et Bayesiansk netværk med to knuder og en kant imellem, så det afspejler situationen i anklagerens fejlslutning side 28-29: Personen var ikke på gerningsstedet (H) Personen var ikke på gerningsstedet 0.0002 False True 0.9998 Blodtype match (E) Anklagedes blodtype matcher blod fra gerningssted True Personen var ikke på gerningsstedet False 0.00 0.99 False True 1.00 0.01 Prøv at tilføje evidensen True til knuden E, svarende til at man har registreret blodtype match mellem anklagede og blodet på gerningsstedet. Får du samme resultat som på side 29? Opgave 11.2 I denne opgave skal vi betragte en situation, hvor der ikke blot foretages én test for sygdom som i afsnit 11, men hele to! Vi antager, at begge tests har samme betingede sandsynligheder. Desuden antager vi, at de to tests er betinget afhængige, dvs. knuderne skal ikke forbindes med en kant! Personen har sygdommen (S) Personen har sygdommen 0.999 False True 0.001 Test 1 viser positiv Personen har sygdommen False True Testen viser positiv (T1) Testen viser positiv (T2) False 0.98 0.02 True 0.05 0.95 False 0.98 0.02 True 0.05 0.95 Test 2 viser positiv Personen har sygdommen False True a) Hvad er sandsynligheden for at have sygdommen, hvis begge tests viser positiv? Hjælp: Tilføj evidensen True til både T1 og T2. b) Hvad er sandsynligheden for at have sygdommen, hvis den første test viser positiv og den anden negativ? 84 © Erik Vestergaard – www.matematiksider.dk Opgave 11.3 Ved DNA-beviser er der en særlig problematik, hvis to nært beslægtede personer er mistænkte i en kriminalsag. DNA profiler hos nære slægtninge er nemlig meget ens. I det følgende betragter vi en situation, hvor en person er tiltalt og DNA materiale fundet på gerningsstedet matcher personens DNA. Kriminalpolitiet opdager nu, at tiltaltes broder også kan have været på gerningsstedet. Spørgsmålet er, hvilken indflydelse det har på om tiltalte er skyldig? Vores BN med knudepunktstabeller er afbildet nedenfor. I sidste tabel aflæses for eksempel, at hvis tiltalte er uskyldig og den nære slægtning var på gerningsstedet, så er der 99,9% sandsynlighed for, at tiltalte er uskyldig. Nær slægtning var på gerningsstedet? (G) Tiltalte er skyldig? (S1) Nær slægtning er skyldig? (S2) Der er DNA match? (D) Tiltalte er skyldig? 0.9999 False True 0.0001 Nær slægtning var på gerningsstedet? 0.9999 False True 0.0001 Nær slægtning er skyldig? Tiltalte er skyldig Nær slægtning var på gern... False True True False True 0.50 0.50 False 1.00 0.00 False Tiltalte er skyldig Nær slægtning var på gern... False True False 0.999999 0.999 True 0.000001 0.001 False 0.00 1.00 False 1.00 0.00 True 1.00 0.00 Der er DNA match? True True 0.00 1.00 a) Hvad er sandsynligheden for at tiltalte er skyldig, hvis der er DNA-match? Hjælp: Tilføj evidensen True til knuden D. b) Hvad er sandsynligheden for at tiltalte er skyldig, hvis vi tillige får at vide at den nære slægtning var på gerningsstedet? © Erik Vestergaard – www.matematiksider.dk 85 Litteratur [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] Norman Fenton, Martin Neil. Risk Assessment and Decision Analysis with Bayesian Networks. CRC Press, 2013. James V. Stone. Bayes' Rule - A Tutorial Introduction to Bayesian Analysis. Septel Press. First Edition, 2013. Ole Groth Jørsboe. Sandsynlighedsregning. Matematisk Institut, Danmarks Tekniske Universitet, 1995. Richard J. Larsen, Morris L. Marx. An Introduction to Mathematical Statistics and its Applications. 5th Edition. Prentice Hall, 2012. Lester L. Helms. Probability Theory – With Contemporary Applications. W. H. Freeman and Company, 1996. Dimitri P. Bertsekas, John N. Tsitsiklis. Introduction to Probability. Athena Scientific, 2002. Stephen M. Stigler. The History of Statistics - The Measurement of Uncertainty before 1900. The Belknap Press of Harvard University Press, 1986. Roger Hahn. Pierre Simon Laplace 1749-1827 - A Determined Scientist. Harvard University Press, 2005. Stephen Lucas, Jason Rosenhouse, Andrew Schepler. The Monty Hall Problem, Reconsidered. Mathematics Magazine, Vol 82, No. 5, Dec. 2009, side 332-342. A. P. Dawid. Bayes's Theorem And Weighing Evidence by Juries. University College London, 2001 (pdf). Norman Fenton, Daniel Berger, David Lagnado, Martin Neil, Anne Tsu. When 'neutral' evidence still has probative value (with implications from the Barry Georg Case). Science and Justice, Vol 54, 2014, page 274-287. J. Pete Blair, D. Kim Rossmo. Evidence in Context: Bayes' Theorem and Investigations. Police Quarterly, Vol. 13, 2, 2010, page 123-135. Michael Lynch, Ruth McNally. "Science", "common sense" and DNA evidence: a legal controversy about the public understanding of science. Public Understanding of Science, 2009. Ian W. Evett, Bruce S. Weir. Interpreting DNA Evidence – Statistical Genetics for Forensics Scientists. Sinaur Associates Inc., U.S., 1998. Jonathan J. Koehler. Error and Exaggeration in the Presentation of DNA Evidence at Trial. Jurimetrics Journal 34, 1993, page 21-39. Joseph K. Blitzstein, Jessica Hwang. Introduction to Probability. CRC Press (Chapman & Hall), 2015. Keith Devlin, Gary Lordon. The Numbers Behind NUMB3RS – Solving Crime with Mathematics. Plume Books, 2007. David J. Balding. Christopher D. Steele. Weight-of-Evidence for Forensics DNA Profiles. Second Edition, John Wiley & Sons, 2015. Steffen L. Lauritzen, David J. Spiegelhalter. Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems. Journal of the Royal Statistical Society, Series B (Methodological), Vol. 50, No. 2 (1988), pp. 157-224. 86 © Erik Vestergaard – www.matematiksider.dk Links Legal Cases involving Bayes (Siden er baseret på offentliggjorte rapporter og personlige erfaringer. Den indeholder en lang liste med retssager, hvor der har foregået diskussioner af sandsynlighedsmæssig art). R. v. Denis John Adams (Transskription af appelsagen mod Denis John Adams). Communicating and Interpreting Statistical Evidence in the Administration of Criminal Justice (Vejledning til dommere, advokater, kriminaltekniske videnskabsfolk og ekspertvidner – ved Colin Aitken, Paul Roberts, Graham Jackson). Avoiding Probabilistic Reasoning Fallacies in Legal Practice using Bayesian Networks (Et udkast til en senere artikel i Australian Journal of Legal Philosophy, af Norman Fenton og Martin Neil. Mange fine pointer). Flere gode noter fra siden www.agenarisk.com af Norman Fenton og Martin Neil: • • • The use of Bayes and causal modelling in decision making, uncertainty and risk (Om Bayes formel og Bayesianske netværk - ved Norman Fenton og Martin Neil). Making Sense of Probability: Fallacies, Myths and Puzzles (Hjemmeside med en liste over fejlslutninger, myter og gåder ved Norman Fenton). The “Jury Observation Fallacy” and the use of Bayesian Networks to present Probabilistic Legal Arguments (Med et Bayesiansk netværk demonstreres overraskende effekter, under kendskab til tidligere lignende domfældelser af den anklagede). Math on Trial http://www.medicine.mcgill.ca/epidemiology/hanley/tmp/CandHch0102/Math%20on%20Trial.pdf AgenaRisk (Det britiske firma, som leverer BN løsninger. Ledet af Norman Fenton og Martin Neil). HUGIN Expert A/S (Det første firma i verden, som udnyttede Bayesianske netværk kommercielt. Har udgangspunkt i Aalborg).
© Copyright 2025