Avainsanojen poimiminen tekstistä

Koko: px
Aloita esitys sivulta:

Download "Avainsanojen poimiminen tekstistä"

Transkriptio

1 HELSINGIN YLIOPISTO TIETOJENKÄSITTELYTIETEEN LAITOS Seminaaritutkielma Avainsanojen poimiminen tekstistä Eeva Ahonen Ohjaaja: Helena Ahonen-Myka Helsinki,

2 Tiivistelmä Avainsanat kertovat tiivisti dokumentin olennaisen sisällön niin ihmislukijalle kuin hakukoneillekin. Vain murto-osassa olemassa olevista dokumenteista on avainsanat valmiina, ja niiden määrittäminen käsityönä on todella hidasta ja työlästä. Olisi siis tarpeellista pystyä automaattisin keinoin löytämään ne valmiista dokumentista. Tässä työssä tutustutaan kahteen projektiin, GeEx ja Kea, joissa kokeiltiin erilaisia menetelmiä oppia avainsanojen eristäminen valmiiksi merkitystä harjoitusmateriaalista. Kuvataan käytetyt menetelmät, sekä se millaisia tuloksia saatiin sovellettaessa niitä. 1

3 Sisällys 1. JOHDANTO KÄYTETYT MENETELMÄT C4.5 PÄÄTÖSPUUT GENEETTINEN OPPIMINEN JA EXTRACTOR -ALGORITMI BAYESILAINEN OPPIMINEN AVAINSANOJEN POIMIMINEN C GENEX KEA TULOKSEN LAATU YHTEENVETO LÄHTEET

4 1. Johdanto Avainsanoilla pyritään lyhyesti kuvaamaan dokumentin olennainen sisältö. Ne antavat dokumentin käsiinsä saaneelle lukijalle nopeasti käsityksen siitä kannattaako hänen lukea koko teksti. Tiedonhakijalle ne tarjoavat mahdollisuuden hakea tarkemmin relevantteja dokumentteja avainsanoihin kohdistetuilla hauilla. Lisäksi avainsanoja voidaan käyttää mm. edullisena keinona määritellä dokumenttien välisiä samankaltaisuuksia. Suurimmassa osassa olemassa olevista dokumenteista ei ole määritetty avainsanoja. Niiden määrittäminen jälkikäteen on työlästä puuhaa, ja sen automatisoimiselle olisikin kysyntää. Tässä dokumentissa tutustun kahteen projektiin, joissa testattiin automaattista avainsanojen poimimista, GenEx [Turney, 2000] ja Kea [Frank et al., 1999]. Molemmat projektit suhtautuvat avainsanojen poimimiseen ohjatun koneoppimisen ongelmana, jossa tehtävänä on rakentaa malli, joka pystyy luokittelemaan kaikki dokumentin sanat (tai oikeammin lausekkeet) avainsanoiksi tai ei-avainsanoiksi. Luvussa 2 kuvaan projekteissa käytetyt koneoppimisen menetelmät. Luotuja sovelluksia testattiin molemmissa projekteissa valmiiksi merkityillä korpusmateriaaleilla, testien toteutuksesta ja tuloksista kerron tarkemmin luvussa 3. Lopuksi luvussa 4 pohdin sovellusten käyttökelpoisuutta tulosten perusteella, ja kerron mitä mieltä projektien tekijät olivat itse omista testituloksistaan. Avainsanat voivat koostua useista toisiinsa liittyvistä sanoista, joten ne ovat itse asiassa avainlausekkeita (englanniksi keyphrases). Suomen kielessä tutumpi termi on kuitenkin avainsana, joten puhun tässä dokumentissa avainsanoista tarkoittaen sillä sekä sanoja että lausekkeita. 2. Käytetyt menetelmät Tässä luvussa tutustutaan GenEx ja Kea -projekteissa käytettyihin koneoppimisen menetelmiin. Molemmissa projekteissa lähestyttiin avainsanojen poimimista ohjatun koneoppimisen ongelmana, jossa rakennettavan mallin tulee pystyä luokittelemaan kaikki ehdokkaat joko avainsanoiksi tai ei-avainsanoiksi. Malli opitaan korpusmateriaalista, jonka dokumentteihin on valmiiksi merkitty avainsanat (harjoituskorpus). Käsiteltävä dokumentti jaetaan aluksi lausekkeiksi, joista jokainen edustaa avainsana-merkintöjen perusteella positiivista tai negatiivista esimerkkiä avainsanasta. Oppimiskorpuksesta jotakin oppimisalgoritmia soveltaen johdettu malli pystyy sitten uusien dokumenttien kohdalla vastaavasti päättämään jokaisen lausekkeen kohdalla, onko se avainsana vai ei. Avainsanoiksi luokitellut esimerkit järjestetään jollain periaatteella paremmuusjärjestykseen, josta poimitaan dokumentin avainsanoiksi niin monta parasta ehdokasta, kuin kyseisessä tapauksessa haluttiin. GenEx projektissa testattiin avainsanojen poimimista mallista oppimalla käyttäen ensin oppimisessa C4.5 päätöspuita. Sen jälkeen tekijät muodostivat oman algoritminsa yhdistämällä geneettisen oppimisalgoritmin Extractor -tiedoneristämisalgoritmiin, ja testasivat tuottaako nimenomaisesti tarkoitusta varten luotu algoritmi parempaa tulosta kuin yleinen luokittelualgoritmi. 3

5 Kea projektissa puolestaan pyrittiin todistamaan, että yksinkertaisella Bayesilaisella mallilla päästään huomattavasti lyhyemmällä oppimisajalla avainsanojen poimimisessa vähintään yhtä hyviin tuloksiin kuin mutkikkaalla GenEx:illä C4.5 päätöspuut Päätöspuut ovat luokittelumalleja, jotka rakennetaan valmiiksi luokitellun materiaalin pohjalta, ja joilla pyritään sitten mahdollisimman tarkasti ennustamaan luokittelemattomasta materiaalista uusille tapauksille oikeat luokat [Turney, 2000]. Harjoitusmateriaali jaetaan tapauksiin (dokumentin lausekkeet), joista muodostetaan piirrevektoreita (kuva 1). Jokaiselle piirrevektorille määritetään luokka (avainsana tai eiavainsana). C4.5 ottaa syötteenään harjoitusmateriaalin, joka koostuu piirrevektoreista ja niiden luokista, ja tuottaa tuloksenaan päätöspuun, joka mallintaa piirteiden ja luokkien väliset suhteet. Päätöspuun jokaisessa solmussa testataan jonkin piirteen arvo. Piirre voisi olla esimerkiksi lausekkeen sanojen lukumäärä (integer arvo), ja testi päätöspuun solmussa Onko lausekkeessa yli kaksi sanaa?. Tämän testin tulos voisi olla true tai false. Puussa kuljetaan eteenpäin sitä särmää pitkin, jolle on määritetty arvoksi saatu tulos. Näin jatketaan, kunnes päästään puun lehteen. Jokainen lehti vastaa jotakin mahdollisista luokista, ja kertoo siis tapaukselle ennustetun luokan. Kuva 1. C4.5 piirrevektorin kuvaus [Turney, 2000] 4

6 Päättelyssä käytettävät piirteet on Turneyn mukaan valittu 110 testatun piirteen joukosta. C4.5 käyttää puun rakentamisessaan piirteitä Stemmed phrase viittaa alkuperäisestä tekstissä esiintyvästä muodosta typistettyyn versioon. Typistäminen tarkoittaa taivutus- ja johtopäätteiden poistamista sanan lopusta, ja se toteutettiin käyttäen Lovinsin algoritmia 1. Koska standardi päätöspuu ei anna mahdollisuutta päättää, kuinka monta piirrevektoria luokitellaan kuuluvaksi yhteen luokkaan (luokkaan 1, avainsanat), käytettiin Turneyn projektissa soft-threshold 2 -puita (C4.5 optiolla -p). Ne laskevat todennäköisyyden kunkin vektorin luokalle, jolloin vektorit voidaan asettaa paremmuusjärjestykseen ja käyttäjälle palauttaa hänen haluamansa lukumäärä todennäköisimpiä avainsanoja. Lisäksi puiden rakentamisessa käytettiin bagging -menetelmää, jossa muodostetaan kutakin tapausta varten useita puita erilaisista harjoitusmateriaalin näytteistä, ja annetaan puiden äänestää oikeasta ratkaisusta. Koska Turney käytti puissa myös todennäköisyyksiä (soft-threshold), tehtiin ratkaisu äänestämisen sijaan laskemalla puiden todennäköisyyksistä keskiarvo Geneettinen oppiminen ja Extractor -algoritmi Toisessa testissään Turney käytti varta vasten avainsanojen poimimiseen kehitettyä Extractor -algoritmia 3, jolle annettavien parametrien optimaaliset arvot etsitään geneettisellä algoritmilla (Genitor 4 ). Geneettiset algoritmit ottavat mallia evoluutiosta ja niitä käytetään mm. erilaisten mutkikkaiden optimointiongelmien ratkaisuun. Algoritmi lähtee liikkeelle luomalla satunnaismenetelmin alkupopulaation, joukon bittijonoja (tässä tapauksessa bittijono määrittää siis arvot Extractorin parametreille) eli populaation yksilöitä. Yksilöt pisteytetään mittaamalla niiden laatua jollakin tapaukseen sopivalla mitalla. Tässä yksilön laadun mittana toimii siis kyseisellä parametriyhdistelmällä Extractorin tuottamien avainsanojen tarkkuus. Vanhoista yksilöistä luodaan uusia risteyttämällä, eli ottamalla kahdesta yksilöstä osa bittijonosta uuteen yksilöön, sekä mutaatiolla eli muuttamalla jo olemassa olevia yksilöitä. Luonnon valinta toteutetaan algoritmissa siten, että paremmat pisteet saaneet yksilöt saavat enemmän jälkeläisiä. Genitorissa uusi yksilö korvaa vanhoista huonoimmat pisteet saaneen yksilön. Näin populaatio kehittyy varsin nopeasti parempaan suuntaan [Turney, 2000]. Extractor algoritmi poimii syötteenä saamastaan dokumentista avainsanat, ja ohjaa toimintaansa 12 säädettävissä olevan parametrin avulla. Oppimisprosessissa siis käytetään Genitor algoritmia eri parametrikombinaatioiden tuottamiseen, ja Extractor algoritmia niiden testaamiseen. Niinpä oppiva järjestelmä on nimeltään GenEx. Kun optimaaliset parametrit on löydetty, avainsanojen hakuvaiheessa ei tarvita enää Genitoria, vaan itse avainsanat haetaan pelkkää Extractoria käyttäen. Extractorin säädettävät 1 Iterated Lovins stemmer, katso J.B. Lovins: Development of a Stemming Algorithm. In Mechanical Translation and Computational Linguistics, 11(1-2), 11-31, Soft-threshold puista katso esim. Carter and Catlett, Extractor algoritmista tarkemmin esim. Turney 1997, Genitor algoritmista tarkemmin esim. Whitley

7 parametrit ovat lähinnä erilaisia kertoimia, joilla voidaan painottaa haluttuja piirteitä avainsanojen luokittelussa Bayesilainen oppiminen Bayesilaisella mallilla tarkoitetaan tilastollisiin todennäköisyyksiin perustuvaa luokittelua. Todennäköisyydet tapausten eri piirteille lasketaan mallikorpusten valmiiksi luokitellusta materiaalista. Kea projektissa todettiin avainsanojen tunnistamisen kannalta olennaisiksi vain kaksi piirrettä: lausekkeen TF IDF paino, ja lausekkeen ensimmäisen esiintymän etäisyys dokumentin alusta laskettuna. TF IDF paino on tiedonhaun perusmääreitä. TF tulee sanoista term frequency, eli lausekkeen esiintymien lukumäärä dokumentissa. IDF on lyhenne sanoista inverse document frequency, joka tarkoittaa kokoelmassa niiden dokumenttien lukumäärää, joissa lauseke esiintyy, hillittynä logaritmilla. TF IDF paino lausekkeelle P dokumentissa D siis lasketaan: TF IDF(P,D) = Pr[phrase in D is P] log Pr[P in a document] [Frank et al. 1999] Lausekkeen etäisyys dokumentin alussa on sitä edeltävien sanojen lukumäärä jaettuna koko dokumentin sanojen lukumäärällä. TF IDF paino ja lausekkeen etäisyys ovat reaalilukuja. Naiivi Bayes oppiminen voi käsitellä reaalilukuja olettaen, että ne ovat normaalisti jakautuneet. Frank et al. huomasivat kuitenkin tulosten paranevan, kun he käyttivät mallissa diskretisoituja arvoja. Tämä viittaa heidän mukaansa siihen, että alkuperäiset arvot eivät olleet normaalisti jakautuneet. Naiivi Bayesin oppimismalli on yksinkertainen sovellus Bayesin kaavasta. Todennäköisyys sille, että lauseke on dokumentissaan avainsana, kun sillä on diskretisoitu TF IDF arvo T ja diskretisoitu etäisyysarvo D, lasketaan seuraavasti: Pr[key T,D] = Pr[T key] Pr[D key] Pr[key] Pr[T,D] [Frank et al. 1999] Kaavassa Pr[T key] on todennäköisyys, että avainsanan TF IDF arvo on T, Pr[D key] todennäköisyys, että sen etäisyysarvo on D ja Pr[key] a priori todennäköisyys, että sana on avainsana. Pr[T,D] normalisoi tuloksen 0 ja 1 välille. 6

8 3. Avainsanojen poimiminen Edellä kuvattuja menetelmiä käytettiin siis vertailevasti avainsanojen poimimiseen tarkoitetun mallin oppimiseen. Opittujen mallien toimivuus testattiin soveltamalla niitä testikorpuksiin. Ensimmäisen vaiheen kriittiseksi piirteeksi tulee oppimisprosessin raskaus, kuinka kauan mallin opettaminen kestää ja kuinka suuren harjoitusmateriaalin menetelmä tarvitsee. Mallin testausvaiheessa tutkitaan poimittujen avainsanojen kelvollisuutta vertaamalla niitä valmiiksi annettuihin avainsanoihin. Seuraavassa on kuvattu eri menetelmillä tehdyt testit ja niissä saadut tulokset C4.5 Ensimmäisessä testiasetelmassa käytetään 50 puun bagging menetelmää, jossa puut luodaan 1 % näytteestä, siten että näyte sisältää yhtä paljon molempiin luokkiin kuuluvia esimerkkejä. Testeissä haetaan 5, 7, 9, 11, 13 ja 15 avainsanaa dokumentista. Tulokseksi lasketaan keskiarvo haettujen avainsanojen tarkkuudesta kullekin korpukselle. Dokumentille saadun tuloksen tarkkuudella tarkoitetaan yhteisten avainsanojen lukumäärää koneellisesti löydettyjen ja valmiiden avainsanojen välillä, jaettuna testissä haluttujen avainsanojen lukumäärällä. Toisessa asetelmassa testataan baggingin vaikutusta avainsanojen löytymiseen. Ensimmäisen asetelman testit toistetaan siten, että baggingissä käytettävien puiden määrä on 1, 25 ja 50. Testissä käy ilmi, että 50 puuta antaa tilastollisestikin merkittävästi tarkempia tuloksia, kuin 1 puu, silloin kun haettavien avainsanojen määrä on 15. Luokkien jakautuminen materiaalissa on hyvin epätasainen, satunnaisesti poimitussa näytteessä on moninkertaisesti enemmän ei-avainsana -luokkaan kuuluvia esimerkkejä, kuin avainsana -luokkaan kuuluvia. Tällaista vinoa luokkajakoa voidaan näytteenotossa korjata valitsemalla näytteet esimerkiksi siten, että näytteeseen tulee yhtä paljon kummankin luokan edustajia, kuten ensimmäisessä testiasetelmassa tehtiin. Kolmannessa testissä kokeillaan tällaisen näytteenoton vaikutusta tuloksiin. Testit toistetaan valitsemalla näytteeseen 1 %, 25 % ja 50 % positiivisia esimerkkejä (avainsanoja). Hypoteesi on, että tasoitettu luokkajakauma näytteessä tuottaa parempia tuloksia. Näin ei kuitenkaan näytteiden perusteella näytä käyvän, vaan päinvastoin monien korpusten kohdalla tarkkuus laskee, kun positiivisten esimerkkien prosenttiosuus näytteessä kasvaa. Hypoteesi joudutaan siis toteamaan vääräksi. Viimeisessä testissä kokeillaan näytteen laajuuden vaikutusta. Hypoteesi on, että 1 % näyte tuottaa tarkemman tuloksen, kuin laajempi. Testit tehdään 1 %, 25 % ja 50 % näytteillä. Hypoteesi saa vahvistuksen testeistä, tuloksille tehty t-testi todistaa, että pieni näytekoko tuottaa tarkempia tuloksia. Parhaat tulokset saatiin kolmannessa testissä, jossa samalla osoitettiin vääräksi tekijöiden hypoteesi siitä, että luokkien jakauman tasoittaminen näytteenotossa antaisi parempia tuloksia. Muissa testeissähän käytettiin tältä osin vain perusasetusta, jossa näytteeseen otettiin 50 % molempien luokkien esimerkkejä. C4.5:n suoriutuu oppimisestaan varsin nopeasti, ainakin verrattuna seuraavaksi kuvattavaan GenExiin. Koko korpuksen läpikäyminen kaikille avainsanojen lukumäärille kestää yhteensä noin 4 min. 7

9 3.2. GenEx Extractor -algoritmin optimaaliset parametrit etsitään Genitor -algoritmilla. Genitorin populaation kooksi asetettiin testeissä 50 yksilöä, ja koeajoja suoritettiin Koeajo tarkoittaa yhden yksilön määrittämien parametriarvojen käyttämistä Extractor algoritmilla koko harjoitusmateriaalille. Yksilön laatupisteet saadaan Extractorin löytämien avainsanojen tarkkuudesta. Koko suorituksen jälkeen Genitorista saadaan parhaat pisteet saanut yksilö, eli paras testattu Extractorin parametrien arvokombinaatio. GenEx testit tehdään vertailevasti C4.5:lla tehtyjen testien pohjalta. Sen suoritusta verrataan C4.5 tehdyistä kokeista ensimmäiseen (perusasetukset) sekä kolmanteen, jossa saatiin parhaat tulokset. Kokeiden tulokset osoittavat GenExin saavan merkittävästi parempia tuloksia katsottaessa kaikkia korpuksia yhdessä. Minkään korpuksen kohdalla C4.5 ei tuota parempia tuloksia kuin GenEx. GenExin oppimisprosessi on huomattavan hidas. Koko korpuksen läpikäyminen kaikille haluttujen avainsanojen lukumäärille kestää GenExillä noin 48 ja puoli tuntia Kea Kea laskee Bayes -mallissa käytetyt kaksi piirrettä, TF IDF painon ja etäisyyden, jokaiselle uuden dokumentin lausekkeelle. Näiden arvojen perusteella voidaan harjoitusmateriaalista opitun naiivin Bayes mallin avulla laskea todennäköisyys sille, että kandidaatti on avainsana. Tuloksena saadaan lista avainsanoja todennäköisyytensä mukaan järjestettynä. Jos kahdella kandidaatilla on sama todennäköisyysarvo, ne järjestetään TF IDF painonsa mukaan. Jos lauseke on jonkin toisen lausekkeen alilauseke (eli sisältyy johonkin toiseen, pidempään lausekkeeseen), se hyväksytään avainsanaksi vain mikäli sen saama todennäköisyys on suurempi. Näillä asetuksilla Kealla toistettiin GenExillä tehdyt testit. Harjoitukseen ja testaamiseen käytettiin samoja materiaaleja, ja testeissä onnistumista mitattiin samalla tarkkuuden mitalla. Näin haluttiin saada testeistä keskenään vertailukelpoisia. Testitulosten perusteella Kea suoriutuu testeistä välillä huonommin, välillä paremmin kuin GenEx, mutta Frank et al:in mukaan erot eivät missään kohtaa ole tilastollisesti merkittäviä. Heidän mukaansa GenEx ja Kea näyttävät siis yleisesti toimivan tulosten kannalta yhtä hyvin. Vertailevan testin lisäksi Keaa testattiin joidenkin ominaisuuksien ja asetusten osalta. Ensin testattiin harjoitusmateriaalin laajuuden vaikutusta tulokseen. Testeissä kävi ilmi, että yli 20 dokumentin käyttö harjoituksessa vaikuttaa enää vain vähän tuloksen laatuun. 50 dokumentin jälkeen tulos ei enää parane. 50 dokumenttia kattava harjoitusmateriaali on siis riittävä, jotta Kea toimisi niin hyvin kuin sen on mahdollista toimia. Alle 20 dokumentin materiaaleissa dokumenttien määrän kasvaessa tuloksen laatu sen sijaan paranee huomattavasti. Lopuksi kokeiltiin vielä aihealue-kohtaisen tiedon lisäämistä Keaan. Tässä kokeessa otettiin mallin luomisessa huomioon kolmas piirre, tietyn lausekkeen todennäköisyydestä olla avainsana. Tätä varten laskettiin kunkin lausekkeen osalta, kuinka usein se esiintyi 8

10 avainsanana aihealueeseen liittyvissä dokumenteissa, ja lisättiin tämä kolmas piirre opittavaan Bayes malliin. Näin uudeksi kaavaksi saadaan: Pr[key K,T,D] = Pr[K key] Pr[T key] Pr[D key] Pr[key] Pr[K,T,D] [Frank et al. 1999] Jossa K on lukumäärä kuinka monta kertaa P esiintyy avainsanana harjoitusdokumenteissa. Testitulokset osoittavat, että tällaisen aihealue-kohtaisen tiedon hyödyntäminen parantaa tuloksen tarkkuutta huomattavasti. Lisäksi tässä testissä huomataan harjoitusdokumenttien määrän edelleen parantavan tulosta dokumentin harjoitusmateriaalilla saadaan parempia tuloksia kuin 100 dokumentin materiaalilla, jolla silläkin saadaan parempia tuloksia kuin alkuperäisellä domain-riippumattomalla mallilla. 4. Tuloksen laatu Turney huomauttaa GenExin hitaudesta sen, että vaikka oppimisvaihe on hidas, itse suoritusvaihe on kuitenkin nopeampi kuin C4.5:llä. Kuitenkin suoritusvaiheen eroissa puhutaan sekunneista, kun taas oppimisvaiheessa erot lasketaan kymmenissä tunneissa. Oppimisvaiheen erot ovat niin valtavat, että tällä perusteella GenExiä voidaan pitää käyttökelpoisena vain siinä tapauksessa, että kerran opittu malli toimii kaikille teksteille. Eri testeissä saatujen tulosten perusteella huomataan kuitenkin, että eri alueisiin liittyvien tekstien välillä on huomattavia eroja riippuen siitä, millä tekstillä malli on harjoitettu. Niinpä mielestäni ei ole järkevää yrittää luoda mallia joka toimisi kaikissa mahdollisissa konteksteissa, vaan ennemmin yrittää saada oppimisprosessi niin kevyeksi, että uudelle kontekstille voidaan harjoittaa helposti ja nopeasti uusi malli. Itse suoritusajan lisäksi siis oppimisaika on kriittinen menetelmien paremmuutta vertailtaessa, ja tässä suhteessa GenEx ei pärjää kovin hyvin. Kealla tehdyt testit aihealue-kohtaisen harjoituksen vaikutuksesta todistavat, että tuloksia voidaan todellakin parantaa huomattavasti opettamalla malli uudestaan eri aihealueille. Edelleen samassa kokeessa todistettiin, että harjoitusmateriaalin koon kasvattamisella tässä tapauksessa saavutettiin huomattavia parannuksia. Nämä seikat puhuvat sen puolesta, että käytettävälle menetelmälle on kriittistä opetteluvaiheen keveys ja nopeus. Vain se mahdollistaa suurten domain-kohtaisten harjoitusmateriaalien käytön. Tähän saakka kuvatuissa kokeissa on käytetty tulosten mittaamiseen vain laskettua tarkkuutta, eli yhteisiä avainsanoja koneellisesti löydettyjen ja kirjoittajan antamien välillä. Tämä ei kuitenkaan kerro koko totuutta poimittujen avainsanojen laadusta. Turney testasi saamiaan avainsanoja lisäksi antamalla dokumentit ja GenExin niille löytämät avainsanat ihmislukijoiden arvioitavaksi. Lukijat arvioivat koneen löytämistä avainsanoista 80 % hyväksyttäviksi. Tällä perusteella voitaneen sanoa, että testatuilla 9

11 menetelmillä saadut tulokset ovat kuitenkin parempia kuin laskennalliset tarkkuuslukemat antavat ymmärtää. Lisäksi mielestäni on syytä ottaa huomioon vertailuna käytettyjen oikeiden avainsanojen laatu. Kokeissa vertailukohteina olivat nimenomaan kirjoittajan itsensä määrittämät avainsanat. On helppo kuvitella, että kirjoittajalla saattaa olla houkutus listata avainsanoihin hienoja ja juuri nyt pinnalla olevia termejä, joita tekstissä sivutaan, mutta jotka eivät ehkä ulkopuolisen arvioijan mukaan kuvaisi tekstin olennaista sisältöä. Ehkä olisi ollut syytä arvioittaa lukijoilla sokkotestinä myös kirjoittajan antamien avainsanojen kelvollisuus. 5. Yhteenveto Tässä työssä kuvattiin kahden eri projektin kokeiluja automaattisen dokumentin avainsanojen poimimiseksi. GenEx projektissa testattiin ensin avainsanojen poimimismallin luomista C4.5 päätöspuita käyttäen. Sitten kokeiltiin päästäänkö parempiin tuloksiin käyttämällä avainsanojen poimimisen luotua algoritmia, jonka parametrit optimoidaan geneettistä mallista oppimisalgoritmia käyttäen. Tulokset olivat sikäli odotetunlaisia, että jälkimmäisellä metodilla päästiin parempiin tuloksiin löydettyjen avainsanojen suhteen. Sen sijaan järjestelmän oppimisvaihe osoittautui todella raskaaksi ja hitaaksi verrattuna C4.5:een. Toisessa projektissa pyrittiin todistamaan, että tilastollisiin todennäköisyyksiin perustuvalla naiivilla Bayes-algoritmilla päästään yhtä hyviin tuloksiin huomattavasti kevyemmällä prosessoinnilla. Saadut tulokset olivatkin suurin piirtein samalla tasolla, kuin aikaisemmassa projektissa. Lisäksi huomattiin, että lisäämällä Bayes-malliin aihealuekohtaista tietoa, saadaan tulosta edelleen tarkemmaksi. Kaiken kaikkiaan tuloksista voidaan päätellä, että avainsanat ovat mallista oppimisen menetelmillä melko hyvin löydettävissä dokumenteista. Jo näiden projektien tulokset vaikuttavat käyttökelpoisilta. Tapoja, joilla voitaisiin tulosta edelleen parantaa, on varmasti vielä löydettävissä (ja on jo varmaan ehditty kokeillakin näiden artikkelien julkaisun jälkeen). Käyttöä tällaiselle työkalulle varmasti olisi. Relevanttien dokumenttien löytäminen suurista tietovarastoista on perinteisin menetelmin hankalaa, kuten kaikki www:tä käyttäneet tietävät. Avainsanoihin kohdistuva haku auttaa tiedonhakijaa huomattavasti, olettaen että avainsanat on lisätty dokumenttiin oikein (eikä esimerkiksi hakukoneen harhauttamiseksi). Jos prosessi saataisiin riittävän kevyeksi, automatisoitua avainsanojen poimintaa voitaisiin ehkä hyödyntää hakukoneissa dokumentin aihepiirin päättelyssä muutenkin kuin suoraan valmiisiin (staattisiin) avainsanoihin kohdistuvissa hauissa. 10

12 Lähteet [Frank et al., 1999] [Turney, 2000] Frank, E., Paynter, G.W., Witten, I.H., et al. Domain-specific keyphrase extraction. Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), pp Turney, P.D. Learning algorithms for keyphrase extraction. Information Retrieval, 2, ,

Avainsanojen poimiminen Eeva Ahonen

Avainsanojen poimiminen Eeva Ahonen Avainsanojen poimiminen 5.10.2004 Eeva Ahonen Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle

Lisätiedot

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0. T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010 Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin

Lisätiedot

1 Bayesin teoreeman käyttö luokittelijana

1 Bayesin teoreeman käyttö luokittelijana 1 Bayesin teoreeman käyttö luokittelijana Bayesin kaavan mukaan merkityksen kontekstille c ehdollistettu todennäkköisyys voidaan määrittää alla olevan yhtälön perusteella: P ( c) = P (c )P ( ) P (c) (1)

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Monitavoitteiseen optimointiin soveltuvan evoluutioalgoritmin tarkastelu

Monitavoitteiseen optimointiin soveltuvan evoluutioalgoritmin tarkastelu Monitavoitteiseen optimointiin soveltuvan evoluutioalgoritmin tarkastelu (Valmiin työn esittely) 11.4.2011 Ohjaaja: Ville Mattila Valvoja: Raimo Hämäläinen Työn tavoite Tutkia evoluutioalgoritmia (Lee

Lisätiedot

Arkkitehtuurien tutkimus Outi Räihä. OHJ-3200 Ohjelmistoarkkitehtuurit. Darwin-projekti. Johdanto

Arkkitehtuurien tutkimus Outi Räihä. OHJ-3200 Ohjelmistoarkkitehtuurit. Darwin-projekti. Johdanto OHJ-3200 Ohjelmistoarkkitehtuurit 1 Arkkitehtuurien tutkimus Outi Räihä 2 Darwin-projekti Darwin-projekti: Akatemian rahoitus 2009-2011 Arkkitehtuurisuunnittelu etsintäongelmana Geneettiset algoritmit

Lisätiedot

Järvitesti Ympäristöteknologia T571SA 7.5.2013

Järvitesti Ympäristöteknologia T571SA 7.5.2013 Hans Laihia Mika Tuukkanen 1 LASKENNALLISET JA TILASTOLLISET MENETELMÄT Järvitesti Ympäristöteknologia T571SA 7.5.2013 Sarkola Eino JÄRVITESTI Johdanto Järvien kuntoa tutkitaan monenlaisilla eri menetelmillä.

Lisätiedot

Bayesilainen päätöksenteko / Bayesian decision theory

Bayesilainen päätöksenteko / Bayesian decision theory Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena

Lisätiedot

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Satunnaisalgoritmit Topi Paavilainen Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Helsinki, 23. helmikuuta 2014 1 Johdanto Satunnaisalgoritmit ovat algoritmeja, joiden

Lisätiedot

GA & robot path planning. Janne Haapsaari AUTO Geneettiset algoritmit

GA & robot path planning. Janne Haapsaari AUTO Geneettiset algoritmit GA & robot path planning Janne Haapsaari AUTO3070 - Geneettiset algoritmit GA robotiikassa Sovelluksia liikkeen optimoinnissa: * eri vapausasteisten robottien liikeratojen optimointi * autonomisten robottien

Lisätiedot

1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:

1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa: Tietorakenteet, laskuharjoitus 10, ratkaisuja 1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa: SamaLuku(T ) 2 for i = 1 to T.length 1 3 if T [i] == T [i + 1] 4 return True 5 return

Lisätiedot

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Heikki Mannila, Jouni Seppänen 12.12.2007 Webin lyhyt historia http://info.cern.ch/proposal.html http://browser.arachne.cz/screen/

Lisätiedot

Oppijan saama palaute määrää oppimisen tyypin

Oppijan saama palaute määrää oppimisen tyypin 281 5. KONEOPPIMINEN Älykäs agentti voi joutua oppimaan mm. seuraavia seikkoja: Kuvaus nykytilan ehdoilta suoraan toiminnolle Maailman relevanttien ominaisuuksien päätteleminen havaintojonoista Maailman

Lisätiedot

Määrittelydokumentti

Määrittelydokumentti Määrittelydokumentti Aineopintojen harjoitustyö: Tietorakenteet ja algoritmit (alkukesä) Sami Korhonen 014021868 sami.korhonen@helsinki. Tietojenkäsittelytieteen laitos Helsingin yliopisto 23. kesäkuuta

Lisätiedot

Laskut käyvät hermoille

Laskut käyvät hermoille Laskut käyvät hermoille - Miten ja miksi aivoissa lasketaan todennäköisyyksiä Aapo Hyvärinen Matematiikan ja tilastotieteen laitos & Tietojenkäsittelytieteen laitos Helsingin Yliopisto Tieteen päivät 13.1.2011

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A) Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 017 Insinöörivalinnan matematiikan koe 30..017, Ratkaisut (Sarja A) 1. a) Lukujen 9, 0, 3 ja x keskiarvo on. Määritä x. (1 p.) b) Mitkä reaaliluvut

Lisätiedot

Tietotekniikan valintakoe

Tietotekniikan valintakoe Jyväskylän yliopisto Tietotekniikan laitos Tietotekniikan valintakoe 2..22 Vastaa kahteen seuraavista kolmesta tehtävästä. Kukin tehtävä arvostellaan kokonaislukuasteikolla - 25. Jos vastaat useampaan

Lisätiedot

811312A Tietorakenteet ja algoritmit, , Harjoitus 3, Ratkaisu

811312A Tietorakenteet ja algoritmit, , Harjoitus 3, Ratkaisu 811312A Tietorakenteet ja algoritmit, 2018-2019, Harjoitus 3, Ratkaisu Harjoituksessa käsitellään algoritmien aikakompleksisuutta. Tehtävä 3.1 Kuvitteelliset algoritmit A ja B lajittelevat syötteenään

Lisätiedot

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea. Roolit Tommi Perälä Department of Mathematics, Hypermedia Laboratory Tampere University of Technology 25.3.2011 J. Kleinberg kehitti -algoritmin (Hypertext Induced Topic Search) hakukoneen osaksi. n taustalla

Lisätiedot

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Esimerkki otteluvoiton todennäköisyys A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Yksittäisessä pelissä A voittaa todennäköisyydellä p ja B todennäköisyydellä q =

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

Testausraportti. Orava. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Testausraportti. Orava. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Testausraportti Orava Helsinki 5.5.2005 Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Kurssi 581260 Ohjelmistotuotantoprojekti (6 ov) Projektiryhmä Juhani Bergström Peter

Lisätiedot

Tilastotiede ottaa aivoon

Tilastotiede ottaa aivoon Tilastotiede ottaa aivoon kuinka aivoja voidaan mallintaa todennäköisyyslaskennalla, ja mitä yllättävää hyötyä siitä voi olla Aapo Hyvärinen Laskennallisen data-analyysin professori Matematiikan ja tilastotieteen

Lisätiedot

Demo 1: Simplex-menetelmä

Demo 1: Simplex-menetelmä MS-C2105 Optimoinnin perusteet Malliratkaisut 3 Ehtamo Demo 1: Simplex-menetelmä Muodosta lineaarisen tehtävän standardimuoto ja ratkaise tehtävä taulukkomuotoisella Simplex-algoritmilla. max 5x 1 + 4x

Lisätiedot

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008. päätöspuiden avulla tarkastellaan vasta seuraavissa harjoituksissa.

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008. päätöspuiden avulla tarkastellaan vasta seuraavissa harjoituksissa. ORMS00 Päätöksenteko epävarmuuden vallitessa Syksy 008 Harjoitus Ratkaisuehdotuksia Nämä harjoitukset liittyvät päätöspuiden rakentamiseen: varsinaista päätöksentekoa päätöspuiden avulla tarkastellaan

Lisätiedot

Tilastotiede ottaa aivoon

Tilastotiede ottaa aivoon Tilastotiede ottaa aivoon kuinka aivoja voidaan mallintaa todennäköisyyslaskennalla, ja mitä yllättävää hyötyä siitä voi olla Aapo Hyvärinen Laskennallisen data-analyysin professori Matematiikan ja tilastotieteen

Lisätiedot

Algoritmit 1. Luento 3 Ti Timo Männikkö

Algoritmit 1. Luento 3 Ti Timo Männikkö Algoritmit 1 Luento 3 Ti 17.1.2017 Timo Männikkö Luento 3 Algoritmin analysointi Rekursio Lomituslajittelu Aikavaativuus Tietorakenteet Pino Algoritmit 1 Kevät 2017 Luento 3 Ti 17.1.2017 2/27 Algoritmien

Lisätiedot

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Puhesynteesin perusteet Luento 5: unit selection -synteesi Puhesynteesin perusteet Luento 5: unit selection -synteesi Nicholas Volk 14.2.2008 Käyttäytymistieteellinen tiedekunta Idea Aitoa puhetta on tallennettu tietokantaan tuhansien äänteiden verran Jopa yksittäisen

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi

Lisätiedot

58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen)

58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen) 58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen) 1. Avaimet 1, 2, 3 ja 4 mahtuvat samaan lehtisolmuun. Tässä tapauksessa puussa on vain yksi solmu, joka on samaan aikaan juurisolmu

Lisätiedot

Rekursiolause. Laskennan teorian opintopiiri. Sebastian Björkqvist. 23. helmikuuta Tiivistelmä

Rekursiolause. Laskennan teorian opintopiiri. Sebastian Björkqvist. 23. helmikuuta Tiivistelmä Rekursiolause Laskennan teorian opintopiiri Sebastian Björkqvist 23. helmikuuta 2014 Tiivistelmä Työssä käydään läpi itsereplikoituvien ohjelmien toimintaa sekä esitetään ja todistetaan rekursiolause,

Lisätiedot

Tietorakenteet, laskuharjoitus 7, ratkaisuja

Tietorakenteet, laskuharjoitus 7, ratkaisuja Tietorakenteet, laskuharjoitus, ratkaisuja. Seuraava kuvasarja näyttää B + -puun muutokset lisäysten jälkeen. Avaimet ja 5 mahtuvat lehtisolmuihin, joten niiden lisäys ei muuta puun rakennetta. Avain 9

Lisätiedot

ASUINKERROSTALON ÄÄNITEKNISEN LAADUN ARVIOINTI. Mikko Kylliäinen

ASUINKERROSTALON ÄÄNITEKNISEN LAADUN ARVIOINTI. Mikko Kylliäinen ASUINKERROSTALON ÄÄNITEKNISEN LAADUN ARVIOINTI Mikko Kylliäinen Insinööritoimisto Heikki Helimäki Oy Dagmarinkatu 8 B 18, 00100 Helsinki kylliainen@kotiposti.net 1 JOHDANTO Suomen rakentamismääräyskokoelman

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Tietorakenteet, laskuharjoitus 10, ratkaisuja. 1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:

Tietorakenteet, laskuharjoitus 10, ratkaisuja. 1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa: Tietorakenteet, laskuharjoitus 10, ratkaisuja 1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa: SamaLuku(T ) 2 for i = 1 to T.length 1 3 if T [i] = = T [i + 1] 4 return True 5

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

metsämatikkaa Sata käpyä Lukuja metsästä Laskutarina Mittaaminen punaisella narulla Päin mäntyä (metsän yleisin puu)

metsämatikkaa Sata käpyä Lukuja metsästä Laskutarina Mittaaminen punaisella narulla Päin mäntyä (metsän yleisin puu) metsämatikkaa Sata käpyä Lukuja metsästä Laskutarina Mittaaminen punaisella narulla Päin mäntyä (metsän yleisin puu) Vinkki! MAPPAsta www.mappa.fi löytyy haulla matematiikkaa ulkona valmiita tuntisuunnitelmia

Lisätiedot

2. TILASTOLLINEN TESTAAMINEN...

2. TILASTOLLINEN TESTAAMINEN... !" # 1. 1. JOHDANTO... 3 2. 2. TILASTOLLINEN TESTAAMINEN... 4 2.1. T-TESTI... 4 2.2. RANDOMISAATIOTESTI... 5 3. SIMULOINTI... 6 3.1. OTOSTEN POIMINTA... 6 3.2. TESTAUS... 7 3.3. TESTIEN TULOSTEN VERTAILU...

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Luku 7. Verkkoalgoritmit. 7.1 Määritelmiä

Luku 7. Verkkoalgoritmit. 7.1 Määritelmiä Luku 7 Verkkoalgoritmit Verkot soveltuvat monenlaisten ohjelmointiongelmien mallintamiseen. Tyypillinen esimerkki verkosta on tieverkosto, jonka rakenne muistuttaa luonnostaan verkkoa. Joskus taas verkko

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30. FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.

Lisätiedot

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.

Lisätiedot

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi Historiaa Bayesin kaavan hyödyntäminen BN-ohjelmistoja ollut ennenkin Tanskalaisten Hugin

Lisätiedot

Datatähti 2019 loppu

Datatähti 2019 loppu Datatähti 2019 loppu task type time limit memory limit A Summa standard 1.00 s 512 MB B Bittijono standard 1.00 s 512 MB C Auringonlasku standard 1.00 s 512 MB D Binääripuu standard 1.00 s 512 MB E Funktio

Lisätiedot

Algoritmit 2. Luento 13 Ti Timo Männikkö

Algoritmit 2. Luento 13 Ti Timo Männikkö Algoritmit 2 Luento 13 Ti 30.4.2019 Timo Männikkö Luento 13 Simuloitu jäähdytys Merkkijonon sovitus Horspoolin algoritmi Ositus ja rekursio Rekursion toteutus Algoritmit 2 Kevät 2019 Luento 13 Ti 30.4.2019

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:

Lisätiedot

4 Tehokkuus ja algoritmien suunnittelu

4 Tehokkuus ja algoritmien suunnittelu TIE-20100 Tietorakenteet ja algoritmit 52 4 Tehokkuus ja algoritmien suunnittelu Tässä luvussa pohditaan tehokkuuden käsitettä ja esitellään kurssilla käytetty kertaluokkanotaatio, jolla kuvataan algoritmin

Lisätiedot

TAMPEREEN TEKNILLINEN YLIOPISTO

TAMPEREEN TEKNILLINEN YLIOPISTO TAMPEREEN TEKNILLINEN YLIOPISTO Digitaali- ja Tietokonetekniikan laitos TKT-3200 Tietokonetekniikka ASSEMBLER: QSORT 11.08.2010 Ryhmä 00 nimi1 email1 opnro1 nimi2 email2 opnro2 nimi3 email3 opnro3 1. TEHTÄVÄ

Lisätiedot

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi Kurssin loppuosa Diskreettejä menetelmiä laajojen 0-1 datajoukkojen analyysiin Kattavat joukot ja niiden etsintä tasoittaisella algoritmilla Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa

Lisätiedot

Geneettiset algoritmit

Geneettiset algoritmit Geneettiset algoritmit Evoluution piirteitä laskennassa Optimoinnin perusteet - Kevät 2002 / 1 Sisältö Geneettisten algoritmien sovelluskenttä Peruskäsitteitä Esimerkkejä funktion ääriarvon etsintä vangin

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2

Lisätiedot

Algoritmit 2. Luento 6 Ke Timo Männikkö

Algoritmit 2. Luento 6 Ke Timo Männikkö Algoritmit 2 Luento 6 Ke 29.3.2017 Timo Männikkö Luento 6 B-puun operaatiot B-puun muunnelmia Nelipuu Trie-rakenteet Standarditrie Pakattu trie Algoritmit 2 Kevät 2017 Luento 6 Ke 29.3.2017 2/31 B-puu

Lisätiedot

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1 35 Naiivi Bayes Luokkamuuttua C o Bayes-verko uuri a attribuutit X i ovat se lehtiä Naiivi oletus o, että attribuutit ovat ehdollisesti riippumattomia toisistaa aettua luokka Ku käytössä o Boole muuttuat,

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset Todennäköisyyslaskenta IIa, syyslokakuu 019 / Hytönen. laskuharjoitus, ratkaisuehdotukset 1. Kurssilla on 0 opiskelijaa, näiden joukossa Jutta, Jyrki, Ilkka ja Alex. Opettaja aikoo valita umpimähkään opiskelijan

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

CIRI Ontologiaperustainen tiedonhakuliittymä

CIRI Ontologiaperustainen tiedonhakuliittymä CIRI Ontologiaperustainen tiedonhakuliittymä Eija Airio, Kalervo Järvelin, Sari Suomela, Pirkko Saatsi ja Jaana Kekäläinen Tampereen yliopisto Informaatiotutkimuksen laitos Ontologian kolmitasomalli kehitetty

Lisätiedot

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor T-1.81 Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ti 8.4., 1:1-18: Klusterointi, Konekääntäminen. Versio 1. 1. Kuvaan 1 on piirretty klusteroinnit käyttäen annettuja algoritmeja. Sanojen

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten

Lisätiedot

Esimerkkejä vaativuusluokista

Esimerkkejä vaativuusluokista Esimerkkejä vaativuusluokista Seuraaville kalvoille on poimittu joitain esimerkkejä havainnollistamaan algoritmien aikavaativuusluokkia. Esimerkit on valittu melko mielivaltaisesti laitoksella tehtävään

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 14. syyskuuta 2007 Antti Rasila () TodB 14. syyskuuta 2007 1 / 21 1 Kokonaistodennäköisyys ja Bayesin kaava Otosavaruuden ositus Kokonaistodennäköisyyden

Lisätiedot

LITTEEPALTTOOSET PALLAUTTELIJAT. Jaktlig avkommebeskrivning metsästysominaisuuksien jälkeläiskuvaus

LITTEEPALTTOOSET PALLAUTTELIJAT. Jaktlig avkommebeskrivning metsästysominaisuuksien jälkeläiskuvaus LITTEEPALTTOOSET PALLAUTTELIJAT Jaktlig avkommebeskrivning metsästysominaisuuksien jälkeläiskuvaus Jälkeläisarviointi Yksilön jalostusarvoa arvioidaan sen jälkeläisten perusteella Mitä enemmän jälkeläisiä

Lisätiedot

Visma Fivaldi -käsikirja Tehtävienhallinta- ohje käyttäjälle

Visma Fivaldi -käsikirja Tehtävienhallinta- ohje käyttäjälle Visma Fivaldi -käsikirja Tehtävienhallinta- ohje käyttäjälle 2 Sisällys 1 Palvelunhallinta... 3 1.1 Käyttäjäryhmän luominen... 3 2 Tehtävienhallinta- perustiedot... 4 2.1 Yhtiön perustiedot... 4 2.2 Tehtävä-/

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

v 8 v 9 v 5 C v 3 v 4

v 8 v 9 v 5 C v 3 v 4 Verkot Verkko on (äärellinen) matemaattinen malli, joka koostuu pisteistä ja pisteitä toisiinsa yhdistävistä viivoista. Jokainen viiva yhdistää kaksi pistettä, jotka ovat viivan päätepisteitä. Esimerkiksi

Lisätiedot

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu Puumenetelmät Topi Sikanen Puumenetelmät Periaate: Hajota ja hallitse Jaetaan havaintoavaruus alueisiin. Sovitetaan kuhunkin alueeseen yksinkertainen malli (esim. vakio) Tarkastellaan kolmea mallia Luokittelu-

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Ohjelmoinnin peruskurssi Y1

Ohjelmoinnin peruskurssi Y1 Ohjelmoinnin peruskurssi Y1 CSE-A1111 30.9.2015 CSE-A1111 Ohjelmoinnin peruskurssi Y1 30.9.2015 1 / 27 Mahdollisuus antaa luentopalautetta Goblinissa vasemmassa reunassa olevassa valikossa on valinta Luentopalaute.

Lisätiedot

Tekoäly ja koneoppiminen metsävaratiedon apuna

Tekoäly ja koneoppiminen metsävaratiedon apuna Tekoäly ja koneoppiminen metsävaratiedon apuna Arbonaut Oy ja LUT University 26. marraskuuta 2018 Metsätieteen päivä 2018 Koneoppimisen kohteena ovat lukujen sijasta jakaumat Esimerkki 1 Koneoppimisessa

Lisätiedot

Kirjoita oma versio funktioista strcpy ja strcat, jotka saavat parametrinaan kaksi merkkiosoitinta.

Kirjoita oma versio funktioista strcpy ja strcat, jotka saavat parametrinaan kaksi merkkiosoitinta. Tehtävä 63. Kirjoita oma versio funktiosta strcmp(),joka saa parametrinaan kaksi merkkiosoitinta. Tee ohjelma, jossa luetaan kaksi merkkijonoa, joita sitten verrataan ko. funktiolla. Tehtävä 64. Kirjoita

Lisätiedot

2. Seuraavassa kuvassa on verkon solmujen topologinen järjestys: x t v q z u s y w r. Kuva 1: Tehtävän 2 solmut järjestettynä topologisesti.

2. Seuraavassa kuvassa on verkon solmujen topologinen järjestys: x t v q z u s y w r. Kuva 1: Tehtävän 2 solmut järjestettynä topologisesti. Tietorakenteet, laskuharjoitus 11, ratkaisuja 1. Leveyssuuntaisen läpikäynnin voi toteuttaa rekursiivisesti käsittelemällä jokaisella rekursiivisella kutsulla kaikki tietyllä tasolla olevat solmut. Rekursiivinen

Lisätiedot

Tietorakenteet ja algoritmit - syksy 2015 1

Tietorakenteet ja algoritmit - syksy 2015 1 Tietorakenteet ja algoritmit - syksy 2015 1 Tietorakenteet ja algoritmit - syksy 2015 2 Tietorakenteet ja algoritmit Johdanto Ari Korhonen Tietorakenteet ja algoritmit - syksy 2015 1. JOHDANTO 1.1 Määritelmiä

Lisätiedot

ELMAS 4 Laitteiden kriittisyysluokittelu 8.2.2012 1/10. Ramentor Oy ELMAS 4. Laitteiden kriittisyysluokittelu. Versio 1.0

ELMAS 4 Laitteiden kriittisyysluokittelu 8.2.2012 1/10. Ramentor Oy ELMAS 4. Laitteiden kriittisyysluokittelu. Versio 1.0 1/10 Ramentor Oy ELMAS 4 Laitteiden kriittisyysluokittelu Versio 1.0 2/10 SISÄLTÖ 1 Kuvaus... 3 2 Kriittisyysluokittelu ELMAS-ohjelmistolla... 4 2.1 Kohteen mallinnus... 4 2.2 Kriittisyystekijöiden painoarvojen

Lisätiedot

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on 13 Pistetulo Avaruuksissa R 2 ja R 3 on totuttu puhumaan vektorien pituuksista ja vektoreiden välisistä kulmista. Kuten tavallista, näiden käsitteiden yleistäminen korkeampiulotteisiin avaruuksiin ei onnistu

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly Bayesin pelit Kalle Siukola MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 12.10.2016 Toistetun pelin esittäminen automaatin avulla Ekstensiivisen muodon puu on tehoton esitystapa, jos peliä

Lisätiedot

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13

Lisätiedot

Algoritmit 1. Luento 7 Ti Timo Männikkö

Algoritmit 1. Luento 7 Ti Timo Männikkö Algoritmit 1 Luento 7 Ti 31.1.2017 Timo Männikkö Luento 7 Järjestetty binääripuu Binääripuiden termejä Binääripuiden operaatiot Solmun haku, lisäys, poisto Algoritmit 1 Kevät 2017 Luento 7 Ti 31.1.2017

Lisätiedot

Minimilatenssiongelman ratkaisualgoritmeja (valmiin työn esittely)

Minimilatenssiongelman ratkaisualgoritmeja (valmiin työn esittely) Minimilatenssiongelman ratkaisualgoritmeja (valmiin työn esittely) Antti Salmela 03.03.2014 Ohjaaja: Harri Ehtamo Valvoja: Harri Ehtamo Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla.

Lisätiedot

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää

Lisätiedot

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n)) Määritelmä: on O(g(n)), jos on olemassa vakioarvot n 0 > 0 ja c > 0 siten, että c g(n) kun n > n 0 O eli iso-o tai ordo ilmaisee asymptoottisen ylärajan resurssivaatimusten kasvun suuruusluokalle Samankaltaisia

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

TAMPEREEN TEKNILLINEN YLIOPISTO

TAMPEREEN TEKNILLINEN YLIOPISTO TAMPEREEN TEKNILLINEN YLIOPISTO Digitaali- ja Tietokonetekniikan laitos TKT-3200 Tietokonetekniikka ASSEMBLER: QSORT 06.09.2005 Ryhmä 00 nimi1 email1 opnro1 nimi2 email2 opnro2 nimi3 email3 opnro3 1. TEHTÄVÄ

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Kahden laboratorion mittaustulosten vertailu

Kahden laboratorion mittaustulosten vertailu TUTKIMUSSELOSTUS NRO RTE9 (8) LIITE Kahden laboratorion mittaustulosten vertailu Sisältö Sisältö... Johdanto... Tulokset.... Lämpökynttilät..... Tuote A..... Tuote B..... Päätelmiä.... Ulkotulet.... Hautalyhdyt,

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

CLT131 Korpusten käsittely

CLT131 Korpusten käsittely CLT131 Korpusten käsittely Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto CLT131 Korpusten käsittely p.1/16 Syöterivien järjestäminen (sort) sort-komento järjestää syöterivin (aakkosjärjestykseen)

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Algoritmit 1. Luento 11 Ti Timo Männikkö

Algoritmit 1. Luento 11 Ti Timo Männikkö Algoritmit 1 Luento 11 Ti 14.2.2017 Timo Männikkö Luento 11 Algoritminen ongelmanratkaisu Osittaminen Lomituslajittelu Lomituslajittelun vaativuus Rekursioyhtälöt Pikalajittelu Algoritmit 1 Kevät 2017

Lisätiedot

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava TKK (c) Ilkka Mellin (2005) 1 Kokonaistodennäköisyys ja Bayesin kaava Kokonaistodennäköisyys ja Bayesin kaava: Johdanto Kokonaistodennäköisyyden

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot