SYNTAKTISK ANALYS (1) Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning ▶ Ordklasser ▶ Metod 1: Regelbaserad taggning ▶ Metod 2: HMM-taggning ▶ Metod 3: Perceptron-taggning ▶ Utvärdering Syntaktisk parsning Syntaktisk parsning är uppgiften att förse en mening med en beskrivning av dess syntaktiska struktur. ▶ Analysera ordens funktion i en sats utifrån satsens helhet. ▶ Ta ut satsdelar. ▶ Hitta predikat, subjekt, objekt, predikativ, adverbial, attribut. Syntaktisk parsning kan även kallas automatisk satslösning. Frasstrukturträd och dependensträd S NP VP subj Lotta V NP lånar cykeln helhet – del Lotta obj lånar cykeln huvud – dependent Struktur ▶ frasstrukturgrammatiker ▶ trädbanker ▶ probabilistiska kontextfria grammatiker (PCFG:er) Frasstrukturgrammatiker Fraser ▶ Frasstrukturgrammatikens grundläggande observation är att ordgrupper kan ibland fungera som enskilda ord. Exempel: Statsministern. En stad av samma storlek som Linköping. Elin i Hagen. Hon och var och en av oss. ▶ Sådana ordgrupper kallas fraser. Exempel på fraser ▶ nominalfraser (NP) hon. Fredrik Reinfeldt och de nya Moderaterna. ett sådant klassiskt ställe som Operakällaren. ▶ verbfraser (VP) rodnade. bad henne att sätta sig hos honom. levde lyckliga i alla sina dagar. Frasstrukturgrammatik ▶ Fraser kan sättas ihop för att bilda större fraser. ▶ Detta ger upphov till en hierarkisk struktur som kan beskrivas med hjälp av en frasstrukturgrammatik. Kontextfri grammatik (CFG) ▶ Kontextfri grammatik är en enkel formalism för att beskriva den syntaktiska strukturen hos naturliga språk (och programspråk). Noam Chomsky ▶ En kontextfri grammatik består i huvudsak av ett antal regler som beskriver hur fraser (icke-terminaler) kan delas upp i mindre fraser, ända ner till ordnivån (terminaler). En exempelgrammatik Regel Exempel S → NP VP I + want a morning flight NP → Pronoun I NP → Proper-Noun Los Angeles NP → Det Nominal a flight Nominal → Nominal Noun morning flight Nominal → Noun flights VP → Verb do VP → Verb NP want + a flight VP → Verb NP PP leave + Boston + in the morning VP → Verb PP leaving + on Thursday PP → Preposition NP from + Los Angeles Regelnotation vänsterledet S → NP VP högerleden ”En mening (S) består av en nominalfras (NP) och en verbfras (VP).” Frasstrukturträd S NP VP Pro Verb I prefer NP Det a Nom Nom Noun Noun flight morning Övningsuppgift Skriv en kontextfri grammatik för nominalfraser av följande form: ▶ kvinnan [som hunden såg] ▶ kvinnan [som hunden [som katten jagade] såg] ▶ kvinnan [som hunden [som katten [som fågeln åt] jagade] såg] ▶ etc. Kontextfria grammatiker som språkmodeller ▶ Kontextfria grammatiker kan modellera många intressanta aspekter hos naturliga språk. Exempel: språklig kreativitet, inbäddade strukturer ▶ Men det finns andra aspekter som de inte är så bra på eller inte kan modellera alls. Exempel: kongruensböjning, korsande dependenser Kongruensböjning ▶ På engelska måste ett subjekt ha samma numerus som det verb det är kopplat till. Exempel: *[A flight] [leave Boston in the morning]. ▶ Reglerna från vår exempelgrammatik fångar inte in detta. Man säger att grammatiken övergenererar. Kongruensböjning ▶ Ett sätt att lösa problemet är att specialisera reglerna med morfologiska särdrag: Regel Exempel S → NP[sg] VP[sg] this flight + leaves on Monday NP[sg] → Det[sg] Nom[sg] this + flight VP[sg] → Verb[sg] PP leaves + on Monday NP[pl] → Det[pl] NP[pl] these + flights ▶ Detta gör dock att grammatiken blir väldigt stor. Ord–ord dependenser dass Jan Piet Marie lesen helfen sah Korsande dependenser dat Jan Piet Marie zag helpen lezen Chomsky-hierarkin rekursivt uppräkningsbara språk kontextkänsliga språk kontextfria språk reguljära språk Trädbanker Datadrivna grammatiker ▶ Inom datorlingvistiken har man utvecklat stora grammatiker med tusentals handskrivna regler. ▶ Dessa grammatiker är mycket värdefulla eftersom de bygger på stor lingvistisk kunskap. ▶ Ett problem med dem är att de inte är robusta: Det finns alltid meningar som de inte kan hantera. Trädbanker ▶ De flesta moderna syntaktiska parsrarna tränas med hjälp av redan parsade (uppmärkta) meningar. ▶ Sådana korpusar med syntaktiska analyser kallas trädbanker. ▶ Trädbanker innehåller ofta även annan lingvistik information, som t.ex. morfologiska särdrag och ordklasser. Penn Treebank ( (S (NP-SBJ (NP (NNP Pierre) (NNP Vinken) ) (, ,) (ADJP (NP (CD 61) (NNS years) ) (JJ old) ) (, ,) ) (VP (MD will) (VP (VB join) (NP (DT the) (NN board) ) (PP-CLR (IN as) (NP (DT a) (JJ nonexecutive) (NN director) )) (NP-TMP (NNP Nov.) (CD 29) ))) (. .) )) Pierre Vinken (1927–2011) Trädbankgrammatiker Från en frasstrukturträdbank kan vi bygga en grammatik genom att läsa av regler från träden: Grammatikregel Täcker denna del av meningen S → NP-SBJ VP . Pierre Vinken … Nov. 29. NP-SBJ → NP , ADJP , Pierre Vinken, 61 years old, VP → MD VP will join the board … NP → DT NN the board Trädbanksgrammatiker ▶ Trädbanksgrammatiker är flata Annotatorer tenderar att undvika djupt inbäddade strukturer. ▶ Trädbanksgrammatiker är stora En standardgrammatik extraherad från PTB har ca. 30 000 regler. Exempel på trädbanker ▶ Penn Treebank Project (University of Pennsylvania) http://www.cis.upenn.edu/~treebank/ ▶ Swedish Treebank (Uppsala universitet) http://stp.lingfil.uu.se/~nivre/swedish_treebank/ Probabilistiska CFG:er Flertydighet I booked a flight from L.A. ▶ Denna mening är flertydig. På vilket sätt? ▶ Hur yttrar sig flertydigheten med avseende på grammatiken? ▶ Varför är flertydighet ett problem? Analys 1: PP modifierar verbets objekt S NP VP Pro Verb I booked NP Det a Nom Nom PP Noun from LA flight Analys 2: PP modifierar verbet S NP VP Pro Verb I booked PP NP Det Nom a Noun flight from LA Kombinatorisk explosion 800 600 400 exponentiell kubisk linjär 200 0 0 1 2 3 4 5 6 Probabilistiska grammatiker ▶ Antalet möjliga parseträd växer snabbt med meningarnas längd. ▶ Men inte alla parseträd är lika relevanta. Exempel: I booked a flight from L.A. ▶ I många tillämpningar vill man ha det mest sannolika parseträdet eller de mest sannolika parseträden. Probabilistisk CFG En probabilistisk kontextfri grammatik (PCFG) är en CFG där ▶ varje regel 𝑟 är förknippad med en sannolikhet 𝑃(𝑟) och ▶ den totala sannolikheten för regler med samma vänsterled är 1. Exempel Regel Sannolikhet S → NP VP 1/1 NP → Pronoun 1/3 NP → Proper-Noun 1/3 NP → Det Nominal 1/3 Nominal → Nominal PP 1/3 Nominal → Noun 2/3 VP → Verb NP 8/9 VP → Verb NP PP 1/9 PP → Preposition NP 1/1 Ett parseträds sannolikhet Sannolikheten för ett parseträd 𝑡 är definierad som produkten av sannolikheterna för de regler 𝑟 som förekommer i parseträdet: ৸ਕ Ƕ ৸ਓ ਓóਕ Ett parseträds sannolikhet S 1/1 NP VP 1/3 Pro 8/9 Verb NP 1/3 I booked Det Nom 1/3 a Nom PP 2/3 Noun trädets sannolikhet: 0,0219 flight from LA Ett parseträds sannolikhet S 1/1 NP VP 1/3 Pro 1/9 Verb PP NP 1/3 I booked Det from LA Nom 2/3 a Noun flight trädets sannolikhet: 0,0082 Viterbi parsing ▶ Vi behöver en effektiv algoritm som kan ta fram det mest sannolika parseträdet. effektiv = körningstiden växer högst polynomisk med meningens längd ▶ Algoritmen är en generalisering av Viterbi-algoritmen för ordklasstaggning med HMM:er.
© Copyright 2024