Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät Luentokalvot: Krista Lagus (päivityksiä: Timo Honkela)
|
|
- Noora Tuominen
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 Luonnollisen kielen tilastollinen käsittely T (3 ov) L Kevät 2004 Luennot: Laskuharjoitukset: Timo Honkela Vesa Siivola Luentokalvot: Krista Lagus (päivityksiä: Timo Honkela)
2 10. Sanaluokkien taggaus Esimerkki: The-AT representative-nn put-vbd chairs-nns on-in the-at table-nn. Yllä sanoille put ja chairs on olemassa sekä verbi- että substantiivitulkinta. Ilmiö on yleinen: yleensä substantiivista voi helposti tehdä myös verbin ja useilla pääasiassa verbeillä on myös harvinaisempi substantiivikäyttö. Next, you flour the pan. I want you to web our annual report. 2
3 10.1 Syntaktinen taggaus Syntaktisen taggauksen sovelluskohteita: Information extraction (jonkin nimenomaisen tyyppisen tiedon esiinkaivaminen), esim. erisnimien tunnistaminen tekstidokumenteissa) Kysymyksiin vastaaminen (question answering) Osittainen jäsentäminen (shallow/partial parsing) Yleisesti: tilanteet joissa ei tarvita täydellistä kielen analyysiä ja ymmärtä 3
4 10.2 Taggauksessa käytettävä informaatio Rakenneinformaatio, eli lähiympäristön syntaktiset tagit: tietyt tagisekvenssit tavallisempia kuin toiset Sanakohtainen informaatio: Sanan prioritn kuulua tiettyyn syntaktiseen luokkaan: eri luokkien tn-jakauma yleensä hyvin epätasainen kullekin yksittäiselle sanalle (vastaavasti kuin semanttisessa moniselitteisyydessä jokin tulkinta on hyvin tyypillinen, vaikka useita mahdollisia eri tulkintoja) 4
5 10.3 Huomioita koskien englannin kieltä Taggaus helpompi ongelma kuin jäsentäminen, tarkkuudet korkeita Parhaat taggerit luokkaa 96%-97% (oikein tagattujen sanojen osuus - tarkoittaa, että lauseissa keskimäärin 1-2 taggausvirhettä, jos lausepituus keskim. 20). Pelkkää rakenteista informaatiota käyttävälle sääntöpohjaiselle taggerille raportoitu (vain) 77% tarkkuus. Yksinkertainen menetelmä joka ei käytä tietoa rakenteista lainkaan: Luokitellaan sana aina yleisimpään POS (part of speech) -luokkaansa. Englannille raportoitu 90% tarkkuus käytetään usein baseline-menetel 5
6 10.4 Markov-malli-taggerit Tagijono mallinnetaan Markov-ketjuna, eli P (X i+1 = t j X 1,..., X i ) = P (X i+1 = t j X i ) jossa i on ajanhetki ja t j on tila jonka indeksi j. X:n arvojoukko on tilojen joukko, {t 1... t n }. Sanat ovat havaintoja (observations), todennäköisyysmalli P (w i X i ) eli sanan generointitn riippuu vain kulloisestakin tilasta. 6
7 Bigrammitaggerissa jokainen tagi vastaa yhtä tilaa. Tällöin tämänhetkise sanan tagi riippuu ainoastaan edeltävän sanan tagista. Malli opetetaan tagatulla datalla näkyvänä Markov-mallina eli tilamuuttujan arvo tunnetaan kullakin hetkellä (kullakin sanalla). Tagattaessa uutta dataa mallia käytetään HMM-mallina: tiloja ei tunneta vaan todennäköisin tilajono annetulla sanajonolla lasketaan mallista Viterbi-algoritmilla. Nyt Viterbin käyttö ei ongelmallista, koska ollaan kiinnostuttu nimenomaan todennäköisimmästä tilajonosta, ei sanajonosta. Markov-mallin rajallinen horisontti-riippumattomuusoletus ei aivan päde, edes englannille. Vielä vähemmän kielille, joissa sanajärjestyksen määräyt syntaktiset tekijät eivät ole yhtä keskeisiä. Sanojen generointitodennäköisyydet tageista: P (w 1...n t 1...n ) = n P (w i t i )P (t i t i 1 ) (1) i=1 7
8 Estimoinnissa tehtäviä muita riippumattomuusoletuksia: Sanat riippumattomia toisistaan. Sanan tn. riippuu ainoastaan sen tagista (eli tagi generoi sanan). Optimaalisen tagijonon estimointi lauseelle, sovelletaan Bayesin sääntöä: ˆt 1...n = arg max P (t 1...n w 1...n ) t 1...n (2) n = arg max t 1...n P (w i t i )P (t i t i 1 ) (3) i=1 Intuitiivisesti: Valitaan maksimaalisen todennäköinen reitti, jolla päästään markov-ketjua pitkin tagista t i 1 sanaan w i, eli maksimaalisen todennäköinen tapa generoida havaittu sana w i kun on kiinnitetty tagi t i 1. Huom: Kannattaa käyttää tasoitusta laskettaessa P (t k t j ) ja P (w l t j ) (ei siis pelkkiä ML-estimaatteja). Todennäköisimmän tagijonon haku tehokkaasti Viterbi-algoritmilla. 8
9 10.5 Tuntemattomien sanojen käsittely Tunnetuille sanoille estimointi helppoa. Kuitenkin tuntemattomat sanat aiheuttavat usein suurimmat erot taggerien välillä. Strategioita Yksinkertaisin lähestymistapa: tuntemattoman sanan tagitn:t seuraavat tagijakaumaa koko datan yli (ts. tuntemattoman sanan malli on painotettu keskiarvo kaikkien sanojen malleista). Ongelma: ei kovin hyvä estimaatti. Muiden piirteiden, esim. morfologian hyväksikäyttö: valitaan morfologialtaan samankaltaisten sanojen osajoukko ja lasketaan tn:t siitä. Esimerkki: jos sana loppuu -ed, keskiarvoistetaan tagijakauma -ed - loppuisten sanojen yli. 9
10 Lisää strategioita Eräs malli (Weichschedel jne): katsotaan todennäköisyyttä jolla tagi generoi tuntemattomia sanoja, sekä sanan eri piirteiden generointitn:iä tästä tagista: P (w l t j ) = 1 Z P (tuntematon tj )P (isoalkuk t j )P (lopuke i t j ) jossa Z on normalisointitekijä ja lopuke i sanan w l lopuke (esim. -ed ). Joissain kokeissa mallin todettiin pudottavan tuntemattomien sanojen virhetn:iä 40%:sta 20%:een (tosin ei kerrota mikä oli vertailumenetelmä, tai datan koko). Useimmat mallit olettavat piirteet riippumattomiksi (ns. Naive Bayesmalli, kuten yllämainittu), mikä yleensä ei pidä paikkaansa. Esim. yllä isoalkukirjaimiset sanat ovat melko todennäköisesti myös tuntemattomia, koska ovat todennäköisesti erisnimiä, joten ko. piirteet eivät toisistaan riippumattomia. 10
11 Variantteja 11 Tagin tn. voi riippua pidemmästä historiasta, esim. 2:sta ed. tagista. Esim....was clearly marked... ja...he clearly marked... tagattaisiin BEZ RB VBN ja PN RB VBD. Kahden edellisen tagin (ja sanan itsensä) perusteella ennustamista voidaan kutsua trigrammitaggaukseksi. Historian pidentämisestä ei aina ole hyötyä: esim. syntaktiset riippuvuudet harvoin kulkevat pilkkujen yli. Harvan datan ja puutteellisen tasoituksen takia pitkästä historiasta voi olla haittaakin, ja trigrammitaggeri voi pärjätä bigrammitaggeria huonommin. Kuten puheentunnistuksessa, voidaan myös käyttää lineaarista interpolointia eri n-grammitaggerien yli, tai muita tasoitusmenetelmiä. Variable-Memory Markov Model (VMMM): eri tiloissa voi olla tiedossa eri pituinen historia. Opetusvaiheessa tilan historian pituus valitaan informaatioteoreettisella kriteerillä. Voidaan rakentaa joko topdown (tiloja halkomalla) tai bottom-up (yhdistelemällä).
12 10.6 HMM-taggerit Piilo-Markov-mallia voidaan soveltaa myös opetusvaiheessa, jos ei ole tagattua esimerkkidataa. Esim. kieli jolle ei olemassa tagattua dataa, tai tunnetun kielen osa-alue jossa sanojen generointitn:t ja/tai kielen tyypilliset rakenteet erilaisia kuin mitä opetusdatassa. Mallin rakennusosat: Tilat S, havainnot O, tilojen lähtötodennäköisyydet π i, tilasiirtymätn:t a i j, havaintojen generointitn:t b ijk Kuten näkyvillä Markov-malleilla, tilat vastaavat jälleen tageja ja havainnot ovat sanoja. Periaatteessa voidaan initialisoida mallin parametrit eli todennäköisyydet π i,a i j, ja b ijk satunnaisesti ja estimoida niitä iteratiivisesti yhä paremmiksi (esim. forward-backward-algoritmilla). Kuitenkaan tällä tavalla ei välttämättä päädytä taggaukseen joka vastaisi jotain olemassaolevaa lingvististä tagijoukkoa ja tagien syntaktisia rooleja. Pikemminkin tällä tavalla voidaan keksiä taggaus joka toteuttaa mallin riippumattomuusoletukset. 12
13 Tavallisemmin käytettävissä on tunnettu tagijoukko, sekä sanakirja jossa kerrotaan mitkä tagit mahdollisia tai mahdottomia millekin sanalle (esim. JJ ei mahdollinen sanaluokka sanalle book ). Eri tyyppisen sanakirjatiedon vaihtoehdot on kuvattu taulukossa alempana. Vaihtoehtoisesti ryhmitellään sanat, joille sallittu samat tagit, ekvivalenssiluokiksi, joille yhteiset parametrit (ainakin mallin initialisointivaiheessa). Voidaan soveltaa myös pelkästään harvinaisille sanoille, koska yleisten osalta dataa on riittävästi. Leksikaalinen resurssi Strategia L 0 Jokaiselle sanalle tunnetaan Sallituille tageille T s sallitut tagit p(w t j ) = 1/(#T s ), muille p=0. L 1 Sallitut tagit tn-järjestyksessä Annetaan satunnaiset tn-arvot, mutta järjestyksessä. L 2 Tagien tn:t annettu kullekin sanalle Käytetään näitä. Koska tn-malli ei täysin vastaa todellisuutta, jos on käytettävissä riittävästi tagattua dataa, kannattaa opettaa pääasiassa sillä. 13
14 Täysin ohjaamattomasta oppimisesta vaikuttaisi olevan hyötyä lähinnä mikäli tagattua dataa on kovin vähän tai ei ollenkaan, tai jos tagattu testiaineisto (tai sovelluskäyttö) on melko erilaista kuin tagattu opetusaineisto. Eräs tapa hahmottaa syy tähän: mallin rakenne sinällään ei vastaa kovin hyvin tarkoitusta, ja ilman tagattua opetusaineistoa mallin rakenteen merkitys dominoi. Parametrien optimoinnissa voidaan käyttää erillistä (tagattua) validointijoukkoa, jolla varmistetaan, että opetusta jatketaan vain niin kauan kuin tarkkuus validointijoukolla paranee. 14
15 10.7 Muunnoksiin perustuva taggaus Edellä kuvatut mallirakenteet, eli mallien tekemät riippumattomuusoletukset, eivät erityisen hyvin soveltuneet luonnollisen kielen kuvaamiseen. Tarvitaan siis parempia malleja. Kontekstia (n-grammin n) voitaisiin pidentää. Tai tagin tn voisi riippua myös edeltävistä sanoista (ei pelkästään tageista). Ongelma: parametrien määrä moninkertaistuu, estimointiongelmia. Toisenlainen lähestymistapa: Muunnoksiin perustuva taggaus (transformation-based tagging) Soveltaminen ohjatun oppimisen ongelmaan: Tagattua dataa Sanakirja, jossa kerrotaan sanalle sallitut tagit ja näiden tn:t. 15
16 joukko kontekstiriippuvia muunnossääntöjä ( virheenkorjauksia ) joita taggaukselle voidaan tehdä. Algoritmi, jolla valitaan mitä muunnoksia milloinkin kannattaa soveltaa (ohjattu oppiminen) Perusalgoritmi: 1. Tagataan aluksi jokainen sana todennäköisimmän taginsa mukaan. 2. Valitaan muunnoksia, jotka vievät taggausta vähitellen lähemmäksi oikeaa (opetusaineistossa olevaa) taggausta. Muunnokset Muunnossääntö joka kertoo mikä tagi korvataan millä. Esim. korvaa tagi VBD tagilla NN 16
17 Heräteympäristö (triggering environment): olosuhteet, joissa muunnos aktivoituu. Esim. Tagi t j esiintyy 2-3 sanaa ennen korvattavaa tagia ja t k korvattavaa tagia seuraavassa sanassa. ks. kirjan taulukko Heräteympäristöön voidaan ottaa myös sanoja tai näiden ominaisuuksia, ei pelkästään tageja: Tag-triggered: heräteympäristössä voi olla tageja Word-triggered: heräteympäristössä voi olla sanoja Morphology-triggered: heräteympäristössä voi olla morfologisia piirteitä Esimerkkejä muunnossäännöistä ja herätteistä englannille: Muunnos NN VB VBP VB JJR RBR VBP VB Heräte edellinen tagi oli TO jokin kolmesta edellisestä tagista oli MD seuraava tagi on JJ toinen kahdesta edellisestä sanasta ei ole n t 17
18 Oppimisalgoritmi Sovelletaan ahnetta optimointia, valitaan joka kierroksella se transformaatio joka eniten vähentää virheellisten taggausten lukumäärää. Notaatio: Transformaatiot u i ( ), v( ), C k on korpus k:n transformaation soveltamisen jälkeen. E( ) on virhemäärä ja ɛ virheen pieni kynnysarvo. Algoritmi: Alustus: C 0, korpus jossa jokainen sana tagattuna yleisimmällä tagillaan. for (k=1; ; k++) v:= valitse transformaatio u joka minimoi virheen E(u i (C k )) Jos v ei pienennä virhettä tämänhetkiseen verrattuna enempää kuin ɛ, lopeta. Sovella transformaatiota korpukseen: C k+1 = v(c k ) 18
19 Tulosta tagijono. Päätettävä: muunnosten soveltamisjärjestys datassa (esim. vasemmalta oikealle) ja käytetäänkö välitöntä muuntamista vai viivästettyä. Jos välitöntä, muunnosten soveltamisjärjestyksellä on väliä. Soveltaminen ohjaamattomassa oppimistilanteessa Tilanne: ei tagattua dataa, mutta tunnetaan joka sanalle sallitut tagit (sanakirjasta). Huom: Useimmilla sanoilla vain yksi sallittu tagi, eli useimpien sanojen tagi tiedetään ennalta. Vain osa tageista epäselviä. Periaate: Käytetään samassa kontekstissa esiintyvien, tagiltaan yksiselitteisten sanojen tagijakaumaa epäselvän tagin ennustamiseen. Transformaation hyvyys lasketaan siten, että kuvitellaan tunnetut, yksikäsitteis sanojen luokat tuntemattomiksi ja sovelletaan transformaatiota niiden luokitteluun. Pienimmän osuuden virheluokituksia aiheuttava transformaatio on 19
20 paras. Esimerkki. The can is open AT IS Kontekstissa AT IS olevat sanaluokaltaan yksikäsitteiset sanat ovat (lähes) aina substantiiveja, eivät verbejä. can tagataan verbiksi. Tämänkaltainen ohjaamaton soveltaminen: 95,6% (Brill, 1995) Hyvä puoli: ei juuri ylioppimista, toisin kuin HMM:llä. [Huomautus: HMM:illäkin voidaan periaatteessa välttää ylioppimista soveltamalla mallin rakenteen optimoimista (parametrien karsimista), jos käytetään täyttä Bayeslaista estimointia, esim. enseble-oppimista (variaatioanalyysiä). ] Haaste: potentiaalisia transformaatioita (erityisesti herätekonteksteja) hyvin suuri joukko. 20
21 10.8 Yhteys muihin menetelmiin Päätöspuut (Decision Trees) Labeloidaan kaikki puun haaraan kytkeytyvä data k.o. haaran majority-luokalla. Puuta haaroitetaan sen mukaan että alemman tason datan luokittelussa tehtäisiin mahdollisimman pieni osuus virheitä. Huono puoli: potentiaalisia sääntöjä hyvin suuri joukko. Hakua sääntöjoukossa voidaan kuitenkin nopeuttaa. Pääasiallinen ero muunnostaggaukseen: Päätöspuu jakaa datajoukon osiin, ja myöhemmät transformaatiot operoivat ainoastaan ko. haaran osadatalla. Muunnostaggauksessa datan osajoukko, johon muunnosta sovelletaan, valitaan heräteympäristön perusteella koko datasta. 21
22 Eroja aitoon probabilistiseen mallinnukseen verrattuna Ei käytettävissä prob. mallinnuksen kaikkea välineistöä. Esim. laajentaminen tilanteeseen, jossa tuotetaan yhden parhaan tagin sijaan k parasta, ei ole yhtä suoraviivaista Prioritiedon huomioiminen: Muunnostaggaus pystyy helposti huomioimaan heräteympäristojen muodossa annetun prioritiedon. Ei kykene hyödyntämään eri luokkien prioritn:iä, ainoastaan tiedon sanan todennäköisimmästä luokasta (initialisoinnissa). Muita eroja: Joustavuus: Muunnostaggauksessa hyödynnetään hyvin joustavaa kokoelmaa potentiaalisia vaikuttavia tekijöitä (piirteitä) kussakin vaiheessa ja kullekin transformaatiolle. 22
23 Ymmärrettävyys: Binääriset säännöt ovat yksinkertaisempia ihmiselle ymmärtä Kuitenkin sekvenssistä jonkin yksittäisen säännön muuttamisen vaikutusta on vaikea ennustaa johtuen sääntöjen välisestä interaktiosta. Yhteys automaatteihin Taggerin sääntöjen oppiminen tapahtuu kvantitatiivisesti. Valmis muunnostaggeri voidaan kuitenkin muuttaa deterministiseksi FST:ksi ja saada sille näin tehokas toteutus. 23
24 10.9 Taggauksen evaluoinnista Taggausprosentit englannille tyypillisesti luokkaa 95-97%, kun raportoidaan kaikkien sanojen yli (ei vain moniselitteisten). Tulokseen vaikuttavat mm. seuraavat tekijät: Datan määrä (isommalla datalla tulee parempia tuloksia) Tagijoukko: yleensä, mitä enemmän tageja, sen vaikeampi ongelma. Toisaalta, jos käytetän joillekin sanoille ihka omia tageja (esim. to = TO) ei näitä voi tagata väärin. Erot opetusdatan, sanakirjan ja sovelluksen (testidatan) välillä Tuntemattomien sanojen tn: vaikuttaa suuresti onnistumisprosenttiin. Eri (hyvien) menetelmien väliset erot ovat puolen prosentin luokkaa. Yllämainit mm. aineistokohtaisten ominaisuuksien aiheuttamat erot ovat usein paljon suurempia. 24
25 Kuitenkin pienikin sanakohtainen parannus menetelmässä aiheuttaa merkittävän lausekohtaisen parannuksen, mikä on taggausta hyödyntävien sovellusten kannalta relevanttia. Eräs parhaista tunnetuista taggereista englannille: Helsingin Yliopistossa kehitetty EngCG (Voutilainen, Tapanainen et.al): ihmisen kehittämä sääntöpohja taggeri (asiantuntijajärjestelmä taggaukseen). 99% tarkkuus. Muistuttaa trans formaatitaggausta paitsi että sääntöjen valinnan tekee ihmisasiantuntija. Taggausten sovelluksista Yllättävän vähän julkaisuja taggauksen sovelluksista. Useissa sovelluksissa tarvitaan lisäksi osittaisjäsennys Information extraction: taggausta jossa syntaktisten kategorioiden sijaan pyritään tunnistamaan (tiettyjä) semanttisia kategorioita (esim. erisnimet). Syntaktisesta kategoriasta voi olla apua. 25
26 Tiedonhaun indeksointitermien valinta tai painotus (sekä taggaus että osittaisjäsennys) Kysymyksiin vastaus: Who killed president Kennedy, vastaus Oswald edellyttää että ymmärretään mikä asiaan liittyvä tieto (esim. aika, paikka, vai henkilö) kysyjälle pitäisi kertoa. Lisäksi on pystyttävä eristämään oikea tieto dokumenteista jotka aiheeseen liittyvät. Molemmissa voi olla hyötyä taggauksesta. Negatiivinen tulos taggauksen hyödyllisyyden kannalta: parhaat sanatietoa hyödyntävät prob.jäsentimet toimivat paremmin lähtemällä taggaamattomasta tekstistä ja taggaamalla sitä itse kuin hyödyntämällä valmista taggausta. 26
27 11. Probabilistinen jäsentäminen ja PCFG:t PCFG=Probabilistic Context Free Grammar Todennäköisyyksiin perustuva yhteysvapaa kielioppi Motivaatio 27 Tähän asti kielen säännönmukaisuuksia kuvattu vain sanatasolla (ngrammitmallit) tai sanakategoriatasolla (sanaluokat ja HMM) Sekventiaalisten riippuvuuksien lisäksi muunkinlaisia ilmiöitä, esim. rekursiivisia. Esim. The velocity of the seismic waves rises to... P( waves rises ) on hyvin pieni esim. sanaluokkiin perustuvalla HMMtaggerilla, koska yksiköllistä verbimuotoa harvoin edeltää monikollinen substantiivi (yleensä sitä edeltää yksiköllinen substantiivi, verbin subjekti. Ilmiötä kutsutaan nimellä verb agreement ). Keskeinen havainto: yksittäisten sanojen sijaan riipuvuudet voidaan
28 ehkä paremmin kuvata suurempien kokonaisuuksien välillä oletetaan hierarkkinen rakenne myös lauseiden tai virkkeiden sisällä. (Vastaava hierarkkisuus yleisemmällä tasolla itsestäänselvä: dokumentti, kappale, lause, sana, kirjain, veto). Vastaavaa hierarkkisuutta myös muualla kuin kielessä, esim. konenäön hahmontunnistusongelmat, joihin myös voidaan soveltaa syntaktisia hahmontunnistusmenetelmiä. 28
29 Esimerkki lauseen sisäisestä hierarkkisesta rakenteesta (kirjan kuva 11.2). Voidaan ajatella että riippuvuus on tässä peräkkäiden rakenneosien NP SG ja V P SG välillä. 29
30 11.1 Mikä on PCFG CFG:n luonteva laajennus: CFG jonka sääntöihin on liitetty laukeamistodennäköisyydet. [CFG = kontekstivapaa kielioppi] PCFG on probabilististen kielioppien eräs alalaji, ts. vain eräs tapa. mallintaa hierarkkista rakennetta probabilistisesti. Tekemällä erilaisia riippumattomuusoletuksia päädytään erilaiseen malliperheeseen. 30
Kevät 2003 Timo Honkela ja Kris- ta Lagus
Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2003 Timo Honkela ja Kris- Luennot: ta Lagus Laskuharjoitukset: Vesa Siivola Luentokalvot: Krista Lagus ja Timo Honkela 10. Probabilistinen
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010 Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin
T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
Avainsanojen poimiminen Eeva Ahonen
Avainsanojen poimiminen 5.10.2004 Eeva Ahonen Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle
1. TILASTOLLINEN HAHMONTUNNISTUS
1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
8. Sananmerkitysten yksikäsitteistäminen (word sense disambiguation, WSD)
8. Sananmerkitysten yksikäsitteistäminen (word sense disambiguation, WSD) Ongelman määrittely: Oletetaan sana w, jolle olemassa k erillistä merkitystä s 1... s k. Tehtävänä on päätellä yksittäisen esiintymän
T Luonnollisten kielten tilastollinen käsittely
T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen
1. Markov-mallit. 1.1 Näkyvät Markov-mallit (Markov-ketjut)
1. Markov-mallit 1.1 Näkyvät Markov-mallit (Markov-ketjut) Olkoon X jono satunnaismuuttujia X = (X 1,..., X t ), ja olkoon satunnaismuuttujien arvot joukosta S = {s 1,..., s N }. Jono on ns. Markovin ketju,
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu
pitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi
TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 16. marraskuuta 2015
ja ja TIEA241 Automaatit ja kieliopit, syksy 2015 Antti-Juhani Kaijanaho NFA:ksi TIETOTEKNIIKAN LAITOS 16. marraskuuta 2015 Sisällys ja NFA:ksi NFA:ksi Kohti säännöllisiä lausekkeita ja Nämä tiedetään:
Kevät 2003 Timo Honkela ja Kris- ta Lagus
Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2003 Timo Honkela ja Kris- Luennot: ta Lagus Laskuharjoitukset: Vesa Siivola Luentokalvot: Krista Lagus (päivityksiä: Timo Honkela) 8.
9. N-grammi-kielimallit
9. N-grammi-kielimallit 9.1 Tilastollinen mallinnus 1. Otetaan dataa (generoitu tuntemattomasta tn-jakaumasta) 2. Tehdään estimaatti jakaumasta datan perusteella 3. Tehdään päätelmiä uudesta datasta jakaumaestimaatin
Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät 2004 Timo Honkela ja Kris- ta Lagus
Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2004 Timo Honkela ja Kris- Luennot: ta Lagus Laskuharjoitukset: Vesa Siivola 1. Markov-mallit........................ 3 1.1 Näkyvät Markov-mallit...............
Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly
Bayesin pelit Kalle Siukola MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 12.10.2016 Toistetun pelin esittäminen automaatin avulla Ekstensiivisen muodon puu on tehoton esitystapa, jos peliä
Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
JOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS LUONNOLLISEN KIELEN KÄSITTELY (NATURAL LANGUAGE PROCESSING, NLP) TEKOÄLYSOVELLUKSET, JOTKA LIITTYVÄT IHMISTEN KANSSA (TAI IHMISTEN VÄLISEEN) KOMMUNIKAATIOON, OVAT TEKEMISISSÄ
Osa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
pitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
TILASTOLLINEN OPPIMINEN
301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25%
Dynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen
Mallipohjainen klusterointi
Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio
TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011
TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho TIETOTEKNIIKAN LAITOS 31. maaliskuuta 2011 Sisällys Sisällys Chomskyn hierarkia kieli säännöllinen kontekstiton kontekstinen rekursiivisesti
1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
Ctl160 Tekstikorpusten tietojenkäsittely p.1/15
Ctl160 490160-0 Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0 p.1/15 Lisää säännöllisistä lausekkeista Aikaisemmin esityt * ja + yrittävät osua mahdollisimman pitkään merkkijonoon
T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.
T-61.281 Luonnollisen kielen tilastollinen käsittely astaukset 8, ti 16.3.2004, 8:30-10:00 Tilastolliset yhteydettömät kielioit, ersio 1.0 1. Jäsennysuun todennäköisyys lasketaan aloittelemalla se säännöstön
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy
Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät ta Lagus. Luentokalvot: Krista Lagus ja Timo Honkela
Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2003 Luennot: ta Lagus Laskuharjoitukset: Timo Honkela and Kri Vesa Siivola Luentokalvot: Krista Lagus ja Timo Honkela 12. Sananmerkitysten
Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 29. toukokuuta 2013
TIEA241 Automaatit ja kieliopit, kesä 2013 Antti-Juhani Kaijanaho TIETOTEKNIIKAN LAITOS 29. toukokuuta 2013 Sisällys Chomskyn hierarkia (ja muutakin) kieli LL(k) LR(1) kontekstiton kontekstinen rekursiivisesti
Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat
Luento 2. Kieli merkitys ja logiikka 2: Helpot ja monimutkaiset Helpot ja monimutkaiset ongelmat Tehtävä: etsi säkillinen rahaa talosta, jossa on monta huonetta. Ratkaisu: täydellinen haku käy huoneet
Kontekstittomat jäsennysmenetelmät
Kontekstittomat jäsennysmenetelmät Yleistä, kontekstittomat kieliopit, kokoava ja osittava jäsentäminen Lili Aunimo lili.aunimo@helsinki.fi Helsingin yliopisto Kieliteknologia Lili Aunimo Kontekstittomat
T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti 24.2.2004, 8:30-0:00 N-grammikielimallit, Versio.. Alla on erään henkilön ja tilaston estimaatit sille, miten todennäköistä on, että
Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]
Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn
Tilastolliset mallit hakkuukoneen katkonnan ohjauksessa. Tapio Nummi Tampereen yliopisto
Tilastolliset mallit hakkuukoneen katkonnan ohjauksessa Tapio Nummi Tampereen yliopisto Runkokäyrän ennustaminen Jotta runko voitaisiin katkaista optimaalisesti pitäisi koko runko mitata etukäteen. Käytännössä
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto 9.6.2003
Männyn laaturajojen integrointi runkokäyrän ennustamisessa Laura Koskela Tampereen yliopisto 9.6.2003 Johdantoa Pohjoismaisen käytännön mukaan rungot katkaistaan tukeiksi jo metsässä. Katkonnan ohjauksessa
ALGORITMIT & OPPIMINEN
ALGORITMIT & OPPIMINEN Mitä voidaan automatisoida? Mikko Koivisto Avoimet aineistot tulevat Tekijä: Lauri Vanhala yhdistä, kuvita, selitä, ennusta! Tekijä: Logica Mitä voidaan automatisoida? Algoritmi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Helsingin yliopisto/tktl Kyselykielet, s 2006 Optimointi Harri Laine 1. Kyselyn optimointi. Kyselyn optimointi
Miksi optimoidaan Relaatiotietokannan kyselyt esitetään käytännössä SQLkielellä. Kieli määrittää halutun tuloksen, ei sitä miten tulos muodostetaan (deklaratiivinen kyselykieli) Tietokannan käsittelyoperaatiot
jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor
T-1.81 Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ti 8.4., 1:1-18: Klusterointi, Konekääntäminen. Versio 1. 1. Kuvaan 1 on piirretty klusteroinnit käyttäen annettuja algoritmeja. Sanojen
1. Kuinka monella tavalla joukon kaikki alkiot voidaan järjestää jonoksi? Tähän antaa vastauksen: tuloperiaate ja permutaatio
TOD.NÄK JA TILASTOT, MAA10 Kombinatoriikka Todennäköisyyksiä (-laskuja) varten tarvitaan tieto tapahtumille suotuisien alkeistapausten lukumäärästä eli tapahtumaa vastaavan osajoukon alkioiden lukumäärästä.
Tilastollisia peruskäsitteitä ja Monte Carlo
Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 14. syyskuuta 2007 Antti Rasila () TodB 14. syyskuuta 2007 1 / 21 1 Kokonaistodennäköisyys ja Bayesin kaava Otosavaruuden ositus Kokonaistodennäköisyyden
Martingaalit ja informaatioprosessit
4A Martingaalit ja informaatioprosessit Tämän harjoituksen tavoitteena on tutustua satunnaisvektorin informaation suhteen lasketun ehdollisen odotusarvon käsitteeseen sekä oppia tunnistamaan, milloin annettu
ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 3
ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 3 Ratkaisuehdotuksia 1. (a) Päätöspuu on matala, jos mitään sattumasolmua ei välittömästi seuraa sattumasolmu eikä mitään päätössolmua
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
T Syksy 2002 Tietojenkäsittelyteorian perusteet Harjoitus 8 Demonstraatiotehtävien ratkaisut
T-79.148 Syksy 2002 Tietojenkäsittelyteorian perusteet Harjoitus 8 Demonstraatiotehtävien ratkaisut 4. Tehtävä: Laadi algoritmi, joka testaa onko annetun yhteydettömän kieliopin G = V, Σ, P, S tuottama
Oppijan saama palaute määrää oppimisen tyypin
281 5. KONEOPPIMINEN Älykäs agentti voi joutua oppimaan mm. seuraavia seikkoja: Kuvaus nykytilan ehdoilta suoraan toiminnolle Maailman relevanttien ominaisuuksien päätteleminen havaintojonoista Maailman
Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi
Kurssin loppuosa Diskreettejä menetelmiä laajojen 0-1 datajoukkojen analyysiin Kattavat joukot ja niiden etsintä tasoittaisella algoritmilla Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa
P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:
S BAB ABA A aas bba B bbs c
T-79.148 Kevät 2003 Tietojenkäsittelyteorian perusteet Harjoitus 8 Demonstraatiotehtävien ratkaisut 4. Tehtävä: Laadi algoritmi, joka testaa onko annetun yhteydettömän kieliopin G = V, Σ, P, S) tuottama
Tilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään
Teema 8: Parametrien estimointi ja luottamusvälit
Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.
Harha mallin arvioinnissa
Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö
Algoritmit 2. Luento 11 Ti Timo Männikkö
Algoritmit 2 Luento 11 Ti 24.4.2018 Timo Männikkö Luento 11 Rajoitehaku Kapsäkkiongelma Kauppamatkustajan ongelma Paikallinen etsintä Lyhin virittävä puu Vaihtoalgoritmit Algoritmit 2 Kevät 2018 Luento
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
Tarkastelemme ensin konkreettista esimerkkiä ja johdamme sitten yleisen säännön, joilla voidaan tietyissä tapauksissa todeta kielen ei-säännöllisyys.
Ei-säännöllisiä kieliä [Sipser luku 1.4] Osoitamme, että joitain kieliä ei voi tunnistaa äärellisellä automaatilla. Tulos ei sinänsä ole erityisen yllättävä, koska äärellinen automaatti on äärimmäisen
Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:
4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä
ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008. päätöspuiden avulla tarkastellaan vasta seuraavissa harjoituksissa.
ORMS00 Päätöksenteko epävarmuuden vallitessa Syksy 008 Harjoitus Ratkaisuehdotuksia Nämä harjoitukset liittyvät päätöspuiden rakentamiseen: varsinaista päätöksentekoa päätöspuiden avulla tarkastellaan
TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)
JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.
7.4 Sormenjälkitekniikka
7.4 Sormenjälkitekniikka Tarkastellaan ensimmäisenä esimerkkinä pitkien merkkijonojen vertailua. Ongelma: Ajatellaan, että kaksi n-bittistä (n 1) tiedostoa x ja y sijaitsee eri tietokoneilla. Halutaan
TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010
TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta Yliassistentti Jussi Hakanen jussi.hakanen@jyu.fi syksy 2010 Optimaalisuus: objektiavaruus f 2 min Z = f(s) Parhaat arvot alhaalla ja vasemmalla
Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä
Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä olevilla komponenteilla? Voisiko jollakin ohjelmointikielellä
Rajoittamattomat kieliopit (Unrestricted Grammars)
Rajoittamattomat kieliopit (Unrestricted Grammars) Laura Pesola Laskennanteorian opintopiiri 13.2.2013 Formaalit kieliopit Sisältävät aina Säännöt (esim. A -> B C abc) Muuttujat (A, B, C, S) Aloitussymboli
Algoritmit 1. Luento 12 Ti Timo Männikkö
Algoritmit 1 Luento 12 Ti 19.2.2019 Timo Männikkö Luento 12 Osittamisen tasapainoisuus Pikalajittelun vaativuus Lajittelumenetelmien vaativuus Laskentalajittelu Lokerolajittelu Kantalukulajittelu Algoritmit
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
Luonnollisen kielen tilastollinen käsittely. T-61.281 (3 ov) L. Kevät 2005. Luentokalvot: Krista Lagus ja Timo Honkela
Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2005 Luennot: Laskuharjoitukset: Krista Lagus Sami Virpioja Luentokalvot: Krista Lagus ja Timo Honkela 12. Sananmerkitysten yksikäsitteistäminen
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
Otannasta ja mittaamisesta
Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,
Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta
Tuloperiaate Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta ja 1. vaiheessa valinta voidaan tehdä n 1 tavalla,. vaiheessa valinta voidaan tehdä n tavalla,
Sana rakenteen kategoriana (A. Radford: Transformational Grammar. A First Course)
Sanaluokista Lauseet eivät ole mitä tahansa äännejonoja; niillä on hierarkkinen konstituenttirakenne, jossa äänteet muodostavat sanoja, sanat lausekkeita ja lausekkeet lauseita. konstituentit kuuluvat
Algoritmit 1. Luento 13 Ti 23.2.2016. Timo Männikkö
Algoritmit 1 Luento 13 Ti 23.2.2016 Timo Männikkö Luento 13 Suunnittelumenetelmät Taulukointi Kapsäkkiongelma Ahne menetelmä Verkon lyhimmät polut Dijkstran menetelmä Verkon lyhin virittävä puu Kruskalin
Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto
Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto Esimerkki Tarkastelemme ilmiötä I, joka on a) tiettyyn kauppaan tulee asiakkaita
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin
Aineistoista 11.2.09 IK Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Muotoilussa kehittyneet menetelmät, lähinnä luotaimet Havainnointi:
T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.
T-61.020 Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke 18.4.2007, 12:1 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.0 1. Käytämme siis jälleen viterbi-algoritmia todennäköisimmän
l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on
HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka
Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti
Luku 6 Dynaaminen ohjelmointi Dynaamisessa ohjelmoinnissa on ideana jakaa ongelman ratkaisu pienempiin osaongelmiin, jotka voidaan ratkaista toisistaan riippumattomasti. Jokaisen osaongelman ratkaisu tallennetaan
Valitaan alkio x 1 A B ja merkitään A 1 = A { x 1 }. Perinnöllisyyden nojalla A 1 I.
Vaihto-ominaisuudella on seuraava intuition kannalta keskeinen seuraus: Olkoot A I ja B I samankokoisia riippumattomia joukkoja: A = B = m jollain m > 0. Olkoon vielä n = m A B, jolloin A B = B A = n.
Luento 5 Riippuvuudet vikapuissa Esimerkkejä PSA:sta
Luento 5 Riippuvuudet vikapuissa Esimerkkejä S:sta hti Salo Teknillinen korkeakoulu L 1100, 0015 TKK 1 Toisistaan riippuvat vikaantumiset Riippuvuuksien huomiointi erustapahtumien taustalla voi olla yhteisiä
SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5
SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 Jussi Tohka jussi.tohka@tut.fi Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto SGN-2500 Johdatus hahmontunnistukseen 2007Luennot 4 ja
Luku 8. Aluekyselyt. 8.1 Summataulukko
Luku 8 Aluekyselyt Aluekysely on tiettyä taulukon väliä koskeva kysely. Tyypillisiä aluekyselyitä ovat, mikä on taulukon välin lukujen summa tai pienin luku välillä. Esimerkiksi seuraavassa taulukossa
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
Informaation arvo. Ohjelmistotekniikan laitos OHJ-2550 Tekoäly, kevät
259 Informaation arvo Öljykenttään myydään porausoikeuksia, palstoja on n kappaletta, mutta vain yhdessä niistä on C euron edestä öljyä Yhden palstan hinta on C/n euroa Seismologi tarjoaa yritykselle tutkimustietoa
TIEA241 Automaatit ja kieliopit, kevät Antti-Juhani Kaijanaho. 2. helmikuuta 2012
TIEA241 Automaatit ja, kevät 2012 Antti-Juhani Kaijanaho TIETOTEKNIIKAN LAITOS 2. helmikuuta 2012 Sisällys Sisällys Chomskyn hierarkia kieli säännöllinen kontekstiton kontekstinen rekursiivisesti lueteltava
Regressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
30A02000 Tilastotieteen perusteet
30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI Ohjaamattomassa oppimisessa on tavoitteena muodostaa hahmoista ryhmiä, klustereita, joiden sisällä hahmot ovat jossain mielessä samankaltaisia ja joiden välillä
Yhteydettömät kieliopit [Sipser luku 2.1]
Yhteydettömät kieliopit [ipser luku 2.1] Johdantoesimerkkinä tarkastelemme kieltä L = { a n b m a n n > 0, m > 0 }, joka on yhteydetön (mutta ei säännöllinen). Vastaavan kieliopin ytimenä on säännöt eli
Estimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala
Tekoäly tukiäly Eija Kalliala, Marjatta Ikkala 29.11.2018 Mitä on tekoäly? Unelma koneesta, joka ajattelee kuin ihminen Hype-sana, jota kuulee joka paikassa Väärinymmärretty sana -> vääriä odotuksia, pelkoja