INF2820 Datalingvistikk – V2015 Jan Tore Lønning INF2820 Datalingvistikk 21. januar 2015 2 I dag: 1. Time: • • Datalingvistikk: motivasjon og eksempler Praktisk informasjon 2. Time: • Endelige tilstandsteknikker • OBS: • Lov å stille spørsmål underveis The game of the name 1. Datalingvistikk 1. Computational linguistics 3. Språkteknologi 3. (Human) Language Technology 2. Natural language processing 2.Språkprosessering / prosessering av naturlige språk • Computer science • Artificial intelligence (AI) • NLP • Navnene har litt forskjellig opphav og tradisjon, eks. • I dag brukes navnene til dels om hverandre 21. januar 2015 4 The name of the game • Datalingvistikk • Prosessering av naturlige språk • Språkteknologi • Språk: • Norsk, arabisk, japansk, … • Naturlige: • Oppstått • Ikke oppfunnet 21. januar 2015 • Data • Prosessering • Teknologi 5 Hvorfor datalingvistikk? • Visjonen om kunstig intelligens • Modeller av mennesker • • • Forstå Erstatte Nyttig, anvendelser: • Supplere mennesker Skjønner datamaskinen hva jeg sier? • Visjon: • Intelligente maskiner • Maskiner som forstår • Roboter • En slik maskin må: • Kunne snakke • og lytte • Ingen intelligens uten språk Turingtesten • Kommunikasjon i naturlig språk 2011-sensasjon: Watson på Jeopardy Se: https://www.youtube.com/watch?v=yJptrlCVDHI Watson • Litt om oppbygning: https://www.youtube.com/watch?v=_Xcmh1LQB9I • Mulige anvendelser: Aftenposten 19.1.2015 http://www.aftenposten.no/fakta/innsikt/Den-nyeekspertlegen-er-en-maskin-7859090.html 21. januar 2015 10 Nytte, eks.: oversettelse • Drømmen fra 17 år siden • Ikke i 2003, men hvor er vi i dag? • Tekstoversettelse • Oversettelse av tale Menneske-maskininteraksjon • Visjon: • Kommunisere med datamaskinen som til et menneske: • Eks.: ”2001 en romodyssé” • 2011: Siri • Basert på langsiktig grunnforskning: SRI Språkteknologi 2015 • Fra visjon til virkelighet • Integrert i en rekke applikasjoner • Drevet av: • Internett • Mobilteknologi Anvendelser: • Stave- og grammatikkontroll • Talegjenkjenning, diktering • Syntetisk tale, eks. GPS • Maskinoversettelse • Dialogsystemer • • • • Søk i tekst (innholdsrelaterte) Analyse av store tekstmengder Analyse av internett Overvåkning Modell Talegjenkjenning Syntaktisk og semantisk analyse Talesyntese Generering • Typisk tre trinn • Analyse (syntaktisk, semantisk, …) • Utføring av oppgave (finn svar, transfer, …) • Generer svar • Rundt dette et større system: dialoghåndtering mm. Fra NLTK 21. januar 2015Flertydighet https://www.youtube.com/watch?v=_429UIzN1JM&feature=channel 16 Hva skal vi gjøre i INF2820? Fokusere på grunnleggende teknikker: • Språk: naturlige og formelle språk • Endelige tilstandsteknikker for nat.spr. • Kontekstfrie grammatikker • Parsing av kontekstfrie grammatikker for naturlige språk • Unifikasjonsgrammatikker • Semantikk Verktøy Endelige tilstandsteknikker • De første ukene NLTK: The Natural Language Toolkit • Programmer for ulike typer NLPoppgaver • Kan kombinere med egen kode • Vekt på opplæring: • Men også brukt for større oppgaver • Bok, dokumentasjon 21. januar 2015 18 Python • Gode strukturer for tekst: • Strenger • Lister • Read-eval-print-loop • Lesbar, strukturert kode: • Kompakt, nesten ”pseudokode” • Gir gode programmeringsvaner • Lett å lære • Objektorientert • Mye brukt: tilgjengelig, bibliotek, grensesnitt • Nyttig senere i livet: scripting 21. januar 2015 19 Læremidler • Deler av Bøker: • Jurafsky og Martin, • Speech and Language Processing • S. Bird, E. Klein and E. Loper: • Natural Language Processing with Python • (Finnes på nett) • Kode • Presentasjoner som blir lagt ut på nett OBS: Samme bok! • Supplerende • Erstatter ikke bøker • Noen artikler/web-sider/utdelt materiale 21. januar 2015 20 Forelesninger • Jan Tore Lønning, jtl@ifi.uio.no, • Forelesninger: • Mandag 14.15-16 • Sted: Caml • 15-16 uker 21. januar 2015 21 Gruppeundervisning • Bo Bjerke-Lindstrøm • Onsdag10.15-14 • Sted: Fortress 3468 • (Noen ganger flyttet til sem.rom.) • Første gang 28. jan. The place to be: • Rom 3467 Fortran Programstue: - Informatikk: språk og kommunikasjon - (IT: språk, logikk, psykologi) 21. januar 2015 22 Arbeidsformer og arbeidsmengde • Forelesninger 2 t/uke • Gruppe 2 t/uke IPensumlesning I 13 • +9 t/u samlet i gj.snitt • Obligatoriske oppgaver: • 4 sett, alle må bestås • Men: Teorioppgaver Terminalarbeid 21. januar 2015 • også ikkeobligatoriske oppgaver er eksamensstoff • Undervisningen er eksamensrelevant selv om den ikke er obligatorisk 23
© Copyright 2024