Hahmontunnistus ja Bayesilainen luokitin: käytännön sovellus

Koko: px
Aloita esitys sivulta:

Download "Hahmontunnistus ja Bayesilainen luokitin: käytännön sovellus"

Transkriptio

1 Mat Sovelletun matematiikan erikoistyöt 9. syyskuuta 2009 Hahmontunnistus ja Bayesilainen luokitin: käytännön sovellus Teknillinen korkeakoulu Teknillisen fysiikan ja matematiikan osasto Systeemianalyysin laboratorio Janne Laitonen 63028F

2 Sisältö 1 Johdanto Ongelman taustaa Hahmontunnistuksen teoriasta Esikäsittely ja normalisointi Piirrevalinta Tilastollinen hahmontunnistus Luokittelun toteutus Esikäsittely ja luokkajako Datan tarkastelu Ehdollisen todennäköisyysjakauman valinta Tulokset 11 5 Yhteenveto 13 1

3 1 Johdanto Hahmontunnistuksen tarkoituksena on luokitella erilaisia havaintoja eli hahmoja omiin luokkiinsa. Siihen liittyviä tieteenaloja on useita, mm. digitaalinen signaalinkäsittely, tekoäly, neuraalilaskenta, optimointioppi, estimointiteoria sekä sumea logiikka tai kieliteknologia. Sovelluskenttä tällä alalla on laaja. Menetelmiä voidaan käyttää esimerkiksi puheen tai käsin kirjoitetun tekstin tunnistamiseen, henkilöiden tunnistukseen sormenjälkien tai iiriksen perusteella, laadunvalvontaan tai tietokoneavustettuun päätöksentekoon. [1,2] Tässä työssä esitellään hahmontunnistuksen teoriaa painottuen erityisesti Bayesilaisen päätösteorian mukaiseen luokittimeen. Tämän teorian mukaista luokitinta sovelletaan myös käytännön tilanteeseen: tarkoituksena on luokitella erään kamppailu-urheiluseuran harrastajat eri lajiryhmiin harjoituksiin saapumisen perusteella. Tämän erikoistyön rakenne on seuraava: Loppuosa tästä ensimmäisestä luvusta on varattu ongelman taustan ja lähtökohtien tarkastelulle. Tämän jälkeen kerrotaan hahmontunnistuksen teoriasta ja esitellään Bayesilaisen luokittimen periaate. Teorian mukainen käytännön sovellus toteutetaan luvussa 3, jonka jälkeen esitellään tulokset. Viimeinen luku on varattu yhteenvedolle ja pohdinnoille. 1.1 Ongelman taustaa GB Gym Helsinki ry on kamppailu-urheiluseura, jossa on mahdollisuus harjoitella potkunyrkkeilyä, brasilialaista jujutsua, thainyrkkeilyä, vapaaottelua, nyrkkeilyä sekä lukkopainia. Lisäksi yhdistys järjestää lapsille ja nuorille tarkoitettuja brasilialaisen jujutsun harjoituksia. Yhdistys on jäsen Suomen Potkunyrkkeilyliitossa, Suomen Brasilialaisen Jujutsun liitossa, Suomen Muay Thai -liitossa, Suomen Vapaaotteluliitossa sekä Suomen Nyrkkeilyliitossa. GB Gym toimii yhteistyössä edellä mainittujen lajiliittojen kanssa ja järjestää säännöllisesti kilpailuita ja leirejä salillaan. [3] Vuonna 2008 yhdistyksellä oli jäsenmaksun maksaneita harjoittelijoita 712, joista 505 on miehiä, 67 naisia, 123 poikia (alle 19-vuotiaita) ja 17 tyttöjä (alle 19-vuotiaita). Jäsenet saavat osallistua minkä tahansa lajin harjoituksiin, joihin heillä on tiedolliset ja taidolliset perusedellytykset. Lisäksi salin ollessa vapaana heillä on mahdollisuus omatoimiseen vapaaharjoitteluun. Lajikohtaisia harrastajamääriä ei kuitenkaan dokumentoida millään tavalla, vaan 2

4 toiminta on varsin vapaata. Ainut merkintä harrastajasta jää hänen käyttäessään salin oven avaamiseen henkilökohtaista magneettikorttiaan, jolloin tapahtumasta tallentuvat päivämäärä, kellonaika ja kortin omistaja. Magneettikortilla pääsee yhdistyksen harjoitustiloihin arkisin klo 06:00-22:00 ja viikonloppuisin klo 08:00-20:00. Tämä työ sai alkunsa seuraavasta ongelmasta: Helsingin kaupungin liikuntavirasto myöntää vuosittain liikunta-avustuksia helsinkiläisille liikuntaseuroille ja edellyttää avustushakemuksessa mm. tiedot harrastajamääristä lajikohtaisesti. Koska ryhmäkoot ovat välillä kohtuullisen suuria ja harrastajien vaihtuvuus ajoittain nopeaa, valmentajien ja lajivastaavien on hyvin hankala arvioida kunkin lajin todellista harrastajamäärää. Tässä erikoistyössä on tarkoituksena tutkia mahdollisuutta luokitella harrastajat lajiluokkiin saapumisaikojen perusteella ja toteuttaa luokittelu. Kunkin lajin harkoitusajat ovat kiinteitä sekä kaikkien tiedossa ja vaikka eri lajien harjoituksia on käynnissä samaan aikaan, niiden alkamisajankohdat eroavat vähintään puolella tunnilla. Ajatuksena on, että harrastajat tulevat salille noudattaen harjoitusaikoja, jolloin luokittelu on mahdollista. Kyseessä on hahmontunnistustehtävä, jossa kutakin henkilöä vastaava hahmo muodostuu kyseisen henkilön saapumisajoista eli parista viikonpäivä ja kellonaika. Näiden tietojen avulla harjoittelijat luokitellaan eri lajiluokkiin, jotka oletetaan tunnetuiksi, eli määrätään lajikohtaiset harrastajamäärät. 2 Hahmontunnistuksen teoriasta Hahmontunnistus on tieteenala, jossa pyritään luokittelemaan tehtyjä havaintoja hahmoja erilaisiin kategorioihin eli luokkiin tai löytämään hahmojen välisiä suhteita. Keskeisiä ongelmia ovat havaintojen tai mittaustietojen pelkistys eli esikäsittely, tiedon kuvaus eli piirreirrotus ja tiedon luokittelu tai muu kuvaus eli tunnistus. [1] Hahmontunnistuksen ongelmaa on esitetty abstraktilla tasolla kuvassa 1. Luokka-avaruuden C ja piirreavaruuden P välillä on luokkakohtainen ja mahdollisesti todennäköisyyteen perustuva yhteys G i. Jokainen luokka ω i virittää hahmojen osajoukon piirreavaruuteen, missä i. hahmo on merkitty p i :llä. On kuitenkin huomattava, että nämä osajoukot voivat asettua päällekkäin sallien yhteisiä piirteitä eri luokkien hahmoille. Yhteys M kuvaa hahmot P :n aliavaruuksista havainnoiksi tai mittauksiksi m i. Hahmontunnistuksessa on tarkoituksena, annettuna mittaukset m i, löytää keino tunnistaa ja kääntää kuvaukset M ja G i kaikille i. Käytännössä nämä kuvaukset eivät kuitenkaan 3

5 Luokka-avaruus C Piirreavaruus P Havaintoavaruus F i G i G j M p m 4 1 p 1 j p 2 m 2 G k k p 3 m 3 Kuva 1: Abstrakti esitys hahmontunnistuksen ongelmasta. Merkinnät ja selitykset tekstissä. [4] ole funktioita ja vaikka ne olisivat, ne harvoin ovat injektioita, surjektioita tai kääntyviä. Tärkeä havainto on, että kuvaus M riippuu mittaustavasta. Hahmontunnistuksen onnistumisen kannalta on siis tärkeää, että mittaussysteemi valitaan ja suunnitellaan mahdollisimman hyväksi. [4] Hahmontunnistusjärjestelmän suunnittelu on iteratiivinen prosessi, jonka toteutus riippuu sovelluskohteesta. Kuvassa 2 on esitetty tyypillisen tunnistusjärjestelmän rakenne. Se koostuu mittalaitteesta, esikäsittely- ja piirreirrotusalgoritmista sekä luokittelu- tai jäsennysalgoritmista. Edellisten lisäksi tarvitaan usein opetus- ja testidataa. [1,4] Seuraavissa alaluvuissa käsitellään näiden komponenttien keskeisiä vaatimuksia ja ominaisuuksia niiltä osin kuin se tämän työn toteutuksen kannalta on tarpeen. Mahdollinen takaisinkytkentä (Tilastollinen) Luokittelualgoritmi Luokittelu Havaittavan hahmon data p i Anturi / mittalaite Mittaus m Esikäsittely ja vahvistus i Piirrevalinta ja -irrotus (Syntaktinen) Jäsennysalgoritmi Jäsennys Kuva 2: Tyypillisen hahmontunnistusjärjestelmän rakenne. [4] 4

6 2.1 Esikäsittely ja normalisointi Esikäsittelyn tarkoituksena on korostaa oleellista mittausinformaatiota ja helpottaa piirreirrotusta. Onnistunut esikäsittely parantaa luokittelumenetelmän toimivuutta, sillä paremmilla piirteillä saadaan aikaan nopeampi oppiminen ja yleisempiä tuloksia. [1] Esikäsittely- ja normalisointimenetelmien valintaan vaikuttaa erittäin paljon sovelluskohde sekä millaisia piirteitä halutaan laskea ja mitä luokittelutekniikoita käytetään. Tyypillisiä menetelmiä ovat esimerkiksi poikkeavien ja puuttuvien mittausten käsittely, varianssien normalisointi, pääkomponenttianalyysi ja arvoalueen skaalaus. [1] 2.2 Piirrevalinta Piirteet ja niiden väliset suhteet ovat hahmon ilmentymä, jonka perusteella hahmo voidaan luokitella tai kuvata. Piirteet voivat olla symbolisia tai numeerisia, jatkuva-, diskreetti- tai binääriarvoisia. Hahmon ilmentymä voi olla esimerkiksi vektori, matriisi, puu, graafi tai merkkijono. [1] Piirteiden valinta riippuu sovelluskohteesta ja valinnalla on ratkaiseva vaikutus luokittelun onnistumiseen. Piirteet on valittava siten, että ne kuvaavat hyvin tarkasteltavia hahmoja ja saavat samankaltaisia arvoja luokkien sisällä ja erilaisia arvoja luokkien välillä. Valinnassa on kiinnitettävä huomiota siihen, että ne ovat invariantteja erilaisille vääristymille ja mittausolosuhteiden muutoksille, esimerkiksi skaalaukselle, rotaatiolle, translaatiolle tai valaistukselle. [1,4,5] Hyvien piirteiden valintaan sopivia menetelmiä ovat mm. tilastollinen testaus, ROC-käyrä (the receiver operating characteristics curve) sekä erilaiset luokkien separoituvuusmitat. [1,5] 2.3 Tilastollinen hahmontunnistus Hahmontunnistusmenetelmät voidaan jakaa oppimisperiaatteen mukaan ohjattuun, ohjaamattomaan ja vahvistusoppimiseen. Toinen jakoperuste on erilaiset käytettävät laskennalliset tekniikat. Geometrisissä menetelmissä piirreavaruus jaetaan joko lineaarisesti tai epälineaarisesti osiin ja jokainen osa vastaa tiettyä luokkaa, esimerkkeinä mainittakoon Fisherin diskriminantti ja tukivektorikone (SVM). Neuroverkkomenetelmät ovat niin sanottuja 5

7 black box -menetelmiä, joilla tehdään epälineaarinen kuvaus piirreavaruudesta luokka-avaruuteen; laskentamenetelmänä voidaan käyttää esimerkiksi monikerrosperseptroniverkkoa (MLP) tai Kohosen itseorganisoivaa karttaa (SOM). Syntaktisilla menetelmillä tunnistus perustuu jäsentämiseen ja hahmot esitetään esimerkiksi formaalin kielen tuottamina merkkijonoina. Muita keinoja ovat rakenteelliset ja malleihin perustuvat menetelmät, joiden käyttö on laskennallisesti raskasta, kun sovelluksen kompleksisuus kasvaa. Viimeisenä mainittakoon tilastolliset hahmontunnistusmenetelmät, joihin tässä työssä keskitytään. [1,4] Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina. Satunnaisuuden ajatellaan aiheutuvan hahmojen tilastollisesta vaihtelusta sekä mittalaitteen kohinasta. Luokittelussa käytetään hyväksi luokkien a priori todennäköisyyksiä, luokkien ehdollisia todennäköisyysjakaumia ja tehtyjä havaintoja. Hahmot esitetään havainnoista muodostetun piirrevektorin x R n avulla ja ne halutaan jakaa M:ään luokkaan ω 1,..., ω M. Luokkien a priori todennäköisyydet ovat P (ω 1 ),..., P (ω M ) ja luokkien ehdolliset todennäköisyysjakaumat ovat p(x ω 1 ),..., p(x ω M ). Bayessäännöllä saadaan laskettua a posteriori todennäköisyydet P (ω i x) = p(x ω i)p (ω i ), p(x) missä (1) M p(x) = p(x ω i )P (ω i ). (2) i=1 Hahmon luokka valitaan korkeimman a posteriori todennäköisyyden tai siitä johdetun funktion mukaisesti tai minimoimalla päätökseen liittyvän riskin odotusarvoa. [1,5,6,7] Täydellisen, virheettömän luokittelun saavuttaminen ei aina ole edes teoriassa mahdollista mutta Bayes-säännön mukainen luokitin minimoi luokitteluvirheen todennäköisyyden eli Bayes-sääntöön perustuva päätös on tässä mielessä optimaalinen tapa suorittaa luokittelu [1,2,7,8]. Osoitetaan lopuksi tämä väite: Tarkastellaan ongelmaa, jossa on M luokkaa ja olkoon R j, j = 1, 2,..., M luokkaa ω j vastaava alue piirreavaruudessa. Oletetaan seuraavaksi, että luokkaan ω k kuuluva piirrevektori x on alueella R i, i k. Piirrevektori siis luokitellaan virheellisesti luokkaan ω i, mistä aiheutuu kustannus λ ki. Määritellään luokkaan ω k liittyvä riski: r k = M λ ki p(x ω k )dx. (3) R i i=1 6

8 Väärän luokituksen kokonaistodennäköisyyttä painotetaan siis kustannuksella λ ki ja eri mahdollisuudet summataan yhteen. Tarkoituksena on valita aluejako siten, että riskin odotusarvo M M r = r k P (ω k ) = k=1 i=1 R i ( M k=1 ) λ ki p(x ω k )P (ω k ) dx (4) minimoituu. Tämä onnistuu minimoimalla kutakin integraalia, mikä vastaa aluejakoa x R i jos l i < l j, i j missä l m = M λ km p(x ω k )P (ω k ). (5) Minimoitaessa luokitteluvirheen todennäköisyyttä kustannus λ ki = 1 δ ki, missä δ ki on Kroneckerin delta-funktio. [1,5,6] Tällöin k=1 l m = k m p(x ω k )P (ω k ), sij. Bayes-sääntö (1) (6) = p(x) k m P (ω k x) (7) = p(x) ( 1 P (ω m x) ). (8) Aiemmin mainittu minimiriskiin perustuva päätössääntö (5) saa luokitteluvirheen todennäköisyyttä minimoitaessa muodon x R i jos P (ω i x) > P (ω j x), i j. (9) Eli luokitteluvirhe minimoituu a posteriori todennäköisyyttä maksimoivalla päätöksellä. 3 Luokittelun toteutus Luokittelu perustetaan luvussa 2.3 esitettyyn Bayesilaiseen päätössääntöön (9) eli puhtaasti a posteriori todenäköisyyden maksimointiin eikä luokittelussa oteta huomioon epäsymmetristä riskiasennetta eri luokitteluvirheitä kohtaan. Tämä luku noudattelee edellisen teorialuvun rakennetta tutkittavassa käytännön sovelluksessa. Aluksi kuvataan datan esikäsittely ja luokkajako. Tämän jälkeen tarkastellaan tutkittavaa dataa ja esitellään käytettävä luokittelualgoritmi. 7

9 3.1 Esikäsittely ja luokkajako Tarvittava kulkudata saatiin Excel-tiedostona sisältäen kullakin rivillä mm. saapumisajan, päivämäärän ja henkilön nimen sekä kortin numeron. Tästä datasta muokattiin luokitteluun soveltuvampi csv-tiedosto, josta poistettiin ylimääräiset tiedot ja tarvittavat tiedot muokattiin käyttökelpoisempaan muotoon. Kellonajan esitys muutettiin tavanomaisesta esitysmuodostaan luvuksi välille [0, 1] ja päivämäärää vastaava viikonpäivä koodattiin diskreetiksi muuttujaksi 1,..., 7, missä maanantaita vastaa muuttujan arvo 1 ja sunnuntaita arvo 7. Luokittelu perustettiin välisenä aikana (15 viikkoa) kerättyyn dataan, koska tällä välillä harjoitteluajat kaikissa lajeissa olivat jo vakiintuneet, eikä tänä aikana järjestetty salilla harjoitusleirejä, jotka vääristäisivät tuloksia. Datasta myös karsittiin ennen klo 10:00 ja klo 21:00 jälkeen tehdyt havainnot, sillä nämä omatoimiset aamu- ja iltaharjoittelut vääristäisivät luokittelua kyseisten henkilöiden kohdalla. Muille esikäsittelymenettelyille ei katsottu olevan tarvetta. Varsinaista piirreirrotusta ei tarvitse tehdä, sillä luokittelu perustetaan kellonaikaan ja viikonpäivään, jotka ovat datassa valmiina. Yhdeksi piirteeksi voisi valita myös sukupuolen mutta tätä tietoa ei ole käytetyssä datassa. Luokittelualgoritmi kirjoitettiin Matlab-ohjelmalla ja luokittelu perustettiin aiemmin esiteltyyn Bayes-sääntöön. Luokkia on kaikkiaan 13, joista osa yhdistetään lopullisessa luokittelussa (katso taulukkoa 1). Tämä siksi, että varsinaisena kiinnostuksen kohteena on lajiluokittelu mutta tuloksen oikeellisuuden arviointi on helpompaa hieman tarkemmalla jaolla. Lisäksi luokkajako tuo tiettyä lisäarvoa tuloksiin kertoen mm. missä lajissa alkeiskurssit ovat suosituimpia tai millainen on alkeiskurssilaisten ja muiden harrastajien välinen suhde. Luonnollisesti tarkempi jako on enemmänkin suuntaa antava. 3.2 Datan tarkastelu Luokiteltavia henkilöitä tutkittavalla ajalla on 621. Tämä on selvästi vähemmän kuin luvussa 1.1 mainittu jäsenten määrä 712. Osa henkilöistä on siis lopettanut harjoittelun ennen syksyä ja toisaalta osa harjoittelijoista ei välttämättä käytä sisään tullessaan omaa korttiaan, vaan kulkee muiden harrastajien seurassa. Lisäksi tulosten oikeellisuuden vuoksi luokittelun ulkopuolelle jätetään satunnaiset kokeilijat, jotka käyvät harjoittelemassa vain muutaman kerran tarkastelujakson aikana. Tätä päätöstä puoltaa myös se, että tarkoituksena on luokitella aktiiviset harrastajat. Tässä työssä rajaksi valittiin viisi harjoituskertaa eli jos henkilö on käynyt harjoittelemassa alle viisi 8

10 Taulukko 1: Luokkajako ja niiden kuvaukset. Aluksi henkilöt luokitellaan eri lajiryhmiin (yhteensä 13 kappaletta) ja tämän jälkeen osa ryhmistä yhdistetään varsinaisiksi ja lopullisen kiinnostuksen kohteena oleviksi lajiluokiksi (yhteensä 6 kappaletta). Luokka ω i Kuvaus Lyhenne ja lajijako 1 Potkunyrkkeily PN 2 Potkunyrkkeilyn alkeiskurssi PN 3 Nyrkkeily N 4 Thainyrkkeily MT 5 Thainyrkkeilyn alkeiskurssi MT 6 Brasilialainen jujutsu BJJ 7 BJJ alkeiskurssi BJJ 8 Lukkopaini BJJ 9 Vapaaottelu MMA 10 Vapaaottelun alkeiskurssi A MMA 11 Vapaaottelun alkeiskurssi B MMA 12 Vapaaottelun alkeiskurssi C MMA 13 Nuorisoryhmä Nuoret kertaa, hänet rajataan luokittelun ulkopuolelle (tarkemmin, jos henkilöstä on alle viisi havaintoa tietokannassa tarkasteltavana ajanjaksona). Mainitulla kriteerillä 150 henkilöä karsitaan pois, jolloin luokiteltavia henkilöitä jää jäljelle 471. Harjoittelijoiden harjoituskertojen jakauma on esitetty kuvassa 3. Huomattavaa on, että jakauma painottuu voimakkaasti pieniin harjoituslukumääriin. Jokaisessa lajissa pidetään harjoituksia 2-6 kertaa viikossa ja jokaiseen alkeiskurssiin kuuluu kaksi harjoitusta viikossa. Viidentoista viikon ajanjaksolla harjoitusmäärien voisi siis odottaa painottuvan noin 30 harjoituskerran kohdalle. Tämä havainto itseasiassa näkyy histogrammissa pienenä nousuna. Vähäisen harjoitusmäärän voi odottaa johtuvan ainakin kahdesta syystä. Osa harrastajista ei käytä henkilökohtaista korttiaan tullessaan harjoituksiin ja toisaalta on yleisesti tunnettua, että varsinkin alkeiskurssien osalta keskeytysprosentti on suuri. 9

11 150 Henkilöiden lukumäärä Harjoituskertojen lukumäärä Kuva 3: Harjoittelijoiden harjoituskertojen jakauma tarkasteltavana 15 viikon ajanjaksona. Alle viisi kertaa harjoittelevia henkilöitä on Ehdollisen todennäköisyysjakauman valinta Luokkien ehdolliset todennäköisyysjakaumat p(x ω i ) muodostettiin normaalijakauman avulla. Odotusarvona µ käytettiin arviota, että harrastaja tyypillisesti saapuu paikalle 15 minuuttia ennen harjoitusten alkua. Kunkin lajin harjoitusajat ovat kiinteitä ja tunnettuja. Jakauman hajonta asetettiin siten, että 90% harjoittelijoista saapuu paikalle harjoituksen alkua edeltävän puolen tunnin aikana eli välillä µ ± 15 min. Viikon sisältävä jakauma muodostettiin summaamalla eri viikonpäivien normaalijakaumat yhteen ja normalisoimalla tämä jakauma. Esimerkkinä kuvassa 4 on esitetty luokan 1 (potkunyrkkeily) todennäköisyysjakauma. Normaalijakauma ei ole erityisen paksuhäntäinen, joten odotettavissa olevien poikkeavien havaintojen vuoksi jakaumaan lisättiin luku ɛ = lisäämään robustisuutta. Ilman tätä numeerista operaatiota kaikki ehdolliset todennäköisyysjakaumat saavat poikkeavien havaintojen kohdalla arvon nolla, jolloin posterioritodennäköisyyden päivittäminen ei onnistu ja luokittelu epäonnis- 10

12 tuu. Herkkyysanalyysin perusteella luokittelutulos ei kuitenkaan ole herkkä ɛ:n tai σ:n vaihtelulle. Luokittelussa kokeiltiin robustimpana vaihtoehtona Cauchy-jakaumaa mutta jo nopealla tulosten tarkastelulla oli havaittavissa, että tämä jakauma ei suoriutunut luokittelusta. Intensiteetti Aika Kuva 4: Luokan 1 ehdollinen todennäköisyysjakauma p(x ω 1 ). Numerot aikaakselilla viittaavat kyseisen päivän loppuun. Itse luokittelu toteutettiin päivittämällä Bayes-säännöllä a posterioritodennäköisyyttä havainto kerrallaan. Edellisen kierroksen a posteriori on siis seuraavan kierroksen a prioritodennäköisyys. Iteraation alkaessa ensimmäisenä a priorina käytettiin jokaisen henkilön kohdalla tasajakaumaa. Kukin harrastaja luokitellaan siihen luokkaan, jonka a posterioritodennäköisyys on suurin iteraation loputtua. Henkilöiden nimien ja korttinumeron yhdistämistä ja tarvittavien nimilistojen muodostamista varten kirjoitettiin lyhyt ohjelma Java-ohjelmointikielellä. 4 Tulokset Laskenta-ajallisesti luokittelu ei ollut raskas operaatio, sillä normaali kannettava tietokone selvitti sen muutamassa sekunnissa, vaikka algoritmia ei kirjoitettu laskenta-ajan minimointia ajatellen. Luokittelun tulokset on esitetty kuvassa 5 ja taulukossa 2, jossa on vertailuna myös GB Gym Helsinki ry:n hallituksen tekemä arvio harrastajamääristä lajeittain. Tulokset selvästi tukevat toisiaan. Luokitteluvirheen arvioitiin olevan noin 6 %, mikä toteutettiin käymällä luokittelutulos, etenkin nimilistat, läpi eri henkilöiden kanssa. Lisäksi alkeiskurssi-ilmoittautumislistojen avulla voitiin arvioida suuri osa luokittelulistoista täsmällisesti. Osa vapaaottelun harjoittelijoista (luokka 9) luokiteltiin 11

13 potkunyrkkeily-ryhmään (luokka 1) mutta toisaalta esimerkiksi brasilialaisen jujutsun alkeiskurssin luokasta (luokka 7) ei löytynyt ainoatakaan väärää nimeä. Suurin yksittäinen tekijä, joka nostaa luokitteluvirhettä on, että ennakkotiedoista poiketen osa salilla käyvistä junioriryhmäläisistä (esikoulu- ja ala-asteikäisiä) käyttää magneettikorttia. Oletuksena oli, että kyseiset henkilöt pääsevät salille ohjaajien seurassa eikä tätä pientä joukkoa ollut tarkoitus ottaa huomioon luokittelussa. Tästä syystä virhettä nostaa löydetyt 9 virheellistä luokitusta, mikä on luokitteluvirheiden kokonaismäärästä noin kolmasosa. Luokittelun onnistumista tukee myös osavalidoinnilla tehty tarkistus, jossa datasta käytettiin luokittelussa vain ensimmäiset 2/3. Tällöin lajien suhteelliset osuudet olivat käytännössä samat: Suurimmat poikkeamat olivat potkunyrkkeilyn ja vapaaottelun osuuksissa, joissa ero tuloksiin oli -2 %-yksikköä ja +3%-yksikköä, vastaavasti. Taulukko 2: Luokittelun tulokset luokittain ja lajeittain. Järjestys vastaa taulukossa 1 esitettyä järjestystä eli esim. vapaaottelun lajiryhmään luokitellaan 46 henkilöä, alkeiskurssille A 41 jne. Sarakkeessa Summa on kunkin lajin kokonaisharrastajamäärä. Luokiteltavia henkilöitä oli 471. Sarakkeessa Osuus on lajien suhteelliset osuudet. GB Gym Helsinki ry:n hallituksen helmikuussa 2009 tekemä arvio on esitetty viimeisessä sarakkeessa. Luokitteluvirheeksi arvioitiin 6 %. Lajit ja niiden luokkafrekvenssit Summa Osuus Arvio Potkunyrkkeily: % 26 % Nyrkkeily: % 5 % Thainyrkkeily: % 13 % Brasilialainen jujutsu: % 19 % Vapaaottelu: % 32 % Nuorisoryhmä: % 2 % Liitteenä olevissa kuvissa 6, 7 ja 8 on esitetty muutamia havainnollistuksia eräiden harjoittelijoiden osalta. Kyseisten henkilöiden harjoittelema laji on tiedossa ja heidän tottumukset saapumisen suhteen ainakin jossain määrin tunnettuja. Kuvassa 6(a) on esitetty havaintojen perusteella muodostettu tiheysfunktion estimaatti (Parzen-estimaatti, jossa ikkunafunktiona on käytetty normaalijakaumaa) ja kuvan 6(b) pistediagrammissa havainnot on merkitty päiväkellonaika -koordinaatistoon. Kuva 6(c) havainnollistaa a posterioritodennäköisyyksien kehitystä havaintokertojen funktiona. Vaikka kuvan 6 henkilön saapumisajat vaihtelevat jossain määrin, luokittelutulos on oikea ja a posteriori saavuttaa stabiilin tilan alun vaihtelun jälkeen. 12

14 Henkilöiden lukumäärä PN N MT BJJ MMA Nuoret Luokat Kuva 5: Luokittelun tulos luokittain ja lajeittain. Lajin sisällä luokittelujärjestys vastaa taulukon 1 järjestystä eli esim. MMA:ssa musta osa viittaa vapaaottelun lajiryhmään, seuraava alkeiskurssiin A jne. Luokiteltavia henkilöitä oli 471. Luokitteluvirheeksi arvioitiin 6 %. Kuvan 7 henkilö saapuu harjoituksiin erittäin täsmällisesti, mikä paljastuu etenkin kuvasta 7(b). Tiheysfunktion estimaatti muistuttaa selvästi kuvan 4 todennäköisyysjakaumaa ja kuvan 7(c) a posteriorissa ei ole havaittavissa vaihtelua edes iteraation alkuvaiheessa. Luokittelutulos on oikea. Viimeisessä esimerkissä (kuva 8) olevan henkilön tiedetään harjoittelevan paljon omatoimisesti, mikä näkyy osittain sekä Parzen-estimaatissa että pistediagrammissa kuin myös a posteriorin epästabiilina käytöksenä. Luokittelutulos on väärä. 5 Yhteenveto Tässä työssä toteutettiin hahmontunnistus ja luokittelu perustuen Bayesilaiseen a posterioritodennäköisyyttä maksimoivaan päätössääntöön. Luokkien lukumäärä (13 kpl) oli määrätty ennalta ja näistä luokista osa yhdistettiin 13

15 omiksi lajiryhmikseen (6 kpl). Työssä käsiteltiin hahmontunnistuksen teoriaa abstraktilla tasolla ja tämän jälkeen esiteltiin tyypillinen hahmontunnistusjärjestely sisältäen mm. datan esikäsittelyn, piirrevalinnan ja luokittelualgoritmin. Erilaisia luokittelumenetelmien jakoperusteita käsiteltiin lyhyesti. Erilaisia laskennallisia menetelmiä on useita, mm. Fisherin diskriminantti, tukivektorikone, monikerrosperseptroniverkko (MLP) tai itseorganisoiva kartta (SOM). Työssä keskityttiin kuitenkin Bayesilaiseen luokittimeen ja osoitettiin, että Bayesilainen luokitin minimoi luokitteluvirheen. Sovelluskohteena työssä oli erään kamppailu-urheiluseuran harrastajien luokittelu eri lajeihin saapumisaikojen perusteella. Kunkin henkilön hahmo muodostui viikonpäivästä ja kellonajasta, jolloin salille saavuttiin. Posterioritodennäköisyyttä päivitettiin niin monta kertaa kuin henkilöstä oli havaintoja tarkastelujakson aikana ( eli 15 viikkoa) ja henkilö luokiteltiin siihen luokkaan, jonka posterioritodennäköisyys oli suurin iteraation lopussa. Tehtävälle oli käytännön tarve, sillä Helsingin kaupungin liikuntavirasto vaatii liikunta-avustuksia myöntäessään tiedot eri lajien harrastajamääristä. Perinteisesti tämä työ on vienyt paljon aikaa ja vaivaa, sillä harjoittelijoiden määrä on salilla suuri eikä harjoittelijoiden lajivalinnoista pidetä systemaattisesti kirjaa. Ehdolliset todennäköisyysjakaumat muodostettiin normaalijakaumien avulla. Oletuksena oli, että odotusarvoisesti harjoittelijat saapuvat paikalle 15 minuuttia ennen harjoituksia ja että 90 % harjoittelijoista saapuu paikalle puolen tunnin sisällä ennen harjoituksen alkamista. Yksi työn ongelma oli, että käytössä ei ollut varsinaista opetusjoukkoa. Tämän puutteen vuoksi moni muu menetelmä sulkeutui pois käytöstä, sillä useiden parametrien estimointi olisi ollut hyvin hankalaa. Valitun luokittimen etuna onkin parametrien vähyys ja konkreettisuus, jolloin ne voitiin perustaa asiantuntija-arvioon. Tehdyn herkkyysanalyysin perusteella luokittelu ei ole herkkä parametrien pienille muutoksille. Luokittelun tulokset olivat sopusoinnussa aiempien arvioiden kanssa: vapaaottelu on harrastajamäärältään suosituin laji (33 %), jonka jälkeen tulevat potkunyrkkeily ja brasilialainen jujutsu (24 % ja 22 %, vastaavasti). Luokitteluvirheen arvioitiin olevan noin 6 %. Luokkafrekvenssien lisäksi tulokseksi voidaan laskea myös havainto, että harjoitusmäärät henkilöä kohden painottuivat hyvin pieniin lukuihin: tarkastelujakson aikana 150 henkilöä oli käyttänyt magneettikorttiaan alle viisi kertaa. On tosin tunnettua, että moni harrastaja lopettaa harjoittelunsa hyvin lyhyeen. Tätä osoittaa myös havainto, että tarkasteluvuonna jäsenmaksun maksaneita henkilöitä oli 712 ja luokiteltavia oli lopulta 471. Käytetty menetelmä perustuu riittävään määrään havaintoja, jolloin aiem- 14

16 min mainitun tuloksen perusteella voi kysyä, antaako käytetty menetelmä oikean kuvan luokittelusta. Todellinen harrastajamäärä voi olla hieman erilainen, sillä harjoituksiin voi mennä ilman magneettikorttia, jos pääsee sisään jonkun toisen mukana. Toisaalta luokittelun suhteelliset osuudet ovat sopusoinnussa aiempien arvioiden kanssa eli tuloksen voi olettaa antavan lajien suosiosta oikean kuvan. Toinen puute mallissa on, että siinä luokat ovat määrättyjä. Tunnettua on, että esim. vapaaottelun harrastajat käyvät myös lukkopainissa tai nyrkkeilyssä. Tämä todennäköisesti aiheuttaa tuloksiin pientä eroa käytäntöön. Viitteet [1] Erkki Oja. Kurssin T Principles of Pattern Recognition luentokalvot, 2009 [2] Tze Fen Li. Bayes empirical Bayes approach to unsupervised learning of parameters in pattern recognition. Pattern Recognition, (33): , [3] GB Gym Helsinki ry:n www-sivut. URL: [4] Robert Schalkoff. Pattern Recognition: Statistical, Structural, and Neural Approaches. John Wiley & Sons, [5] Sergios Theodoridis ja Konstantinos Koutroumbas. Pattern Recognition. Academic Press, 3rd edition, [6] Richard Duda, Peter Hart ja David Stork. Pattern Classification. John Wiley & Sons, [7] C. Leung ja L. Sze. A method to speed up the Bayes classifier. Engineering Applications of Artificial Intelligence, (11): , [8] Alberto Ruiz. A nonparametric bound for the bayes error. Pattern Recognition, (6): ,

17 Liite 1: Havainnollistavia kuvia luokittelusta Intensiteetti Aika (a) Havainnoista muodostettu tiheysfunktion Parzen-estimaatti Kellonaika Päivät (b) Havainnot esitettynä päivä-kellonaika -koordinaatistossa Todennäköisyys Harjoituskerrat (c) Posterioritodennäköisyyden kehitys. Kuva 6: Henkilön saapumisajat vaihtelevat hieman mutta luokitus on oikea. Posterioritodennäköisyys stabiloituu alun heilahtelun jälkeen. 16

18 Intensiteetti Aika (a) Havainnoista muodostettu tiheysfunktion Parzen-estimaatti Kellonaika Päivät (b) Havainnot esitettynä päivä-kellonaika -koordinaatistossa Todennäköisyys Harjoituskerrat (c) Posterioritodennäköisyyden kehitys. Kuva 7: Henkilö saapuu harjoituksiin hyvin täsmällisesti. Parzen-estimaatin ja kuvan 4 yhtäläisyys on huomattava. Luokitus on oikea. 17

19 Intensiteetti Aika (a) Havainnoista muodostettu tiheysfunktion Parzen-estimaatti Kellonaika Päivät (b) Havainnot esitettynä päivä-kellonaika -koordinaatistossa Todennäköisyys Harjoituskerrat (c) Posterioritodennäköisyyden kehitys. Kuva 8: Saapumisajat vaihtelevat paljon eikä posterioritodennäköisyys stabiloidu. Luokitus on väärä. 18

20 Liite 2: Luokittelualgoritmin Matlab-koodi %% Luokkien ehdolliset todennäköisyysjakaumat: % Harjoitusten alkamisajat: T = 1/24 * [ ; ; ; ; ; ; ; ; ; ; ; ; ]; sigma = 1/(24*4*1.645); % tällä osuus tulee välillä [mu-15min, mu+15min] dx = ; epsilon = ; f_likelihood = zeros(7,size(0:dx:7,2),13); for k = 1:13 %k = lajit for i = 1:7 %i = päivät, j = kellonaika if T(k,i) ~= 0 mu = T(k,i) + i - 1; f_likelihood(i,:,k) = normpdf(0:dx:7, mu-1/(4*24), sigma); end end end f_likelihood = sum(f_likelihood, 1) + epsilon; %pdf lajeittain %normalisointi: A_norm = sum(f_likelihood,2)*dx; for k = 1:13 f_likelihood(1,:,k) = f_likelihood(1,:,k)./a_norm(1,1,k); end 19

21 %% Luokittelualgoritmi: % 1. sarake hlön ID % 2. sarake kellonaika (skaalaus välille 0...1) % 3. sarake viikonpäivä (ma = 1 ja su = 7) data = csvread( data_syksy_klo10-21.csv ); IDt = csvread( IDt.csv ); for k = 1:length(IDt) ID = IDt(k); J_Doe = data(find(data(:,1) == ID),:); lk = zeros(13,1); prior = ones(13,1) / 13; %tasajakaumapriori posterior = zeros(13,1); for i = 1:size(J_Doe,1) % käydään kaikki havainnot day = J_Doe(i,3); for j = 1:13 % käydään kaikki luokat läpi lk(j,1) = f_likelihood(1, floor((j_doe(i,2) + day - 1)/dx),j); end posterior = lk.* prior; posterior = posterior / sum(posterior); prior = posterior; end posterior_matrix(:,k) = posterior; counts(k) = size(j_doe, 1); end [Y I] = max(posterior_matrix, [], 1); table = tabulate(i); % karsitaan ne, jotka on treenannu alle 5 kertaa syksyn aikana table_new = tabulate(i(find(counts >= 5))); lajit_m = [table_new(1,2) table_new(2,2) 0 0; table_new(3,2) 0 0 0; table_new(4,2) table_new(5,2) 0 0; table_new(6,2) table_new(7,2) table_new(8,2) 0; table_new(9,2) table_new(10,2) table_new(11,2) table_new(12,2); table_new(13,2) 0 0 0]; figure(1); bar(lajit_m, stack ); colormap( gray ); 20

1. TILASTOLLINEN HAHMONTUNNISTUS

1. TILASTOLLINEN HAHMONTUNNISTUS 1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,

Lisätiedot

1. JOHDANTO. 1.1 Johdattelevia esimerkkejä. 1. Kuinka monta ihmishahmoa näet kuvassa?

1. JOHDANTO. 1.1 Johdattelevia esimerkkejä. 1. Kuinka monta ihmishahmoa näet kuvassa? 1. JOHDANTO 1.1 Johdattelevia esimerkkejä 1. Kuinka monta ihmishahmoa näet kuvassa? 1 2. Ovatko viivat yhdensuuntaisia? 2 3. Mitä erikoista on spiraalissa? 3 4. Onko risteyskohdissa mustia vai valkoisia

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Hahmontunnistuksen perusteet T , 3ov, L Syksy Matti Aksela

Hahmontunnistuksen perusteet T , 3ov, L Syksy Matti Aksela Hahmontunnistuksen perusteet T-61.231, 3ov, L Syksy 2003 Luennot: Laskuharjoitukset: Harjoitustyö: Timo Honkela ja Kimmo Raivio Markus Koskela Matti Aksela 1. FOREIGN STUDENTS................... 1 2. YLEISTÄ

Lisätiedot

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 Jussi Tohka jussi.tohka@tut.fi Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto SGN-2500 Johdatus hahmontunnistukseen 2007Luennot 4 ja

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet Tilastotieteen jatkokurssi Sosiaalitieteiden laitos Harjoitus 5 (viikko 9) Ratkaisuehdotuksia (Laura Tuohilampi). Jatkoa HT 4.5:teen. Määrää E(X) ja D (X). E(X) = 5X p i x i =0.8 0+0.39 +0.4 +0.4 3+0.04

Lisätiedot

T DATASTA TIETOON

T DATASTA TIETOON TKK / Informaatiotekniikan laboratorio Syyslukukausi, periodi II, 2007 Erkki Oja, professori, ja Heikki Mannila, akatemiaprofessori: T-61.2010 DATASTA TIETOON TKK, Informaatiotekniikan laboratorio 1 JOHDANTO:

Lisätiedot

Hahmontunnistuksen perusteet T-61.231, 3ov, L Syksy 2002. Harjoitustyö: Matti Aksela

Hahmontunnistuksen perusteet T-61.231, 3ov, L Syksy 2002. Harjoitustyö: Matti Aksela Hahmontunnistuksen perusteet T-61.231, 3ov, L Syksy 2002 Luennot: Laskuharjoitukset: Harjoitustyö: Vuokko Vuori Markus Koskela Matti Aksela 1. FOREIGN STUDENTS................... 7 2. YLEISTÄ KURSSISTA....................

Lisätiedot

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat 1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

HAHMONTUNNISTUKSEN PERUSTEET

HAHMONTUNNISTUKSEN PERUSTEET HAHMONTUNNISTUKSEN PERUSTEET T-61.3020, 4 op., Kevät 2007 Luennot: Laskuharjoitukset: Harjoitustyö: Erkki Oja Tapani Raiko Matti Aksela TKK, Informaatiotekniikan laboratorio 1 FOREIGN STUDENTS Lectures

Lisätiedot

HAHMONTUNNISTUKSEN PERUSTEET

HAHMONTUNNISTUKSEN PERUSTEET HAHMONTUNNISTUKSEN PERUSTEET T-61.3020, 4 op., Kevät 2008 Luennot: Laskuharjoitukset: Harjoitustyö: Erkki Oja Elia Liiitiäinen Elia Liitiäinen TKK, Tietojenkäsittelytieteen laitos 1 FOREIGN STUDENTS Lectures

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101,

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot

Bayesilainen päätöksenteko / Bayesian decision theory

Bayesilainen päätöksenteko / Bayesian decision theory Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Tämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu

Tämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu Tämän luvun sisältö Luku 6. T-6. Datasta tietoon, syksy professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 7.. Tämä luku käydään kahdella luennolla: ensimmäisellä luokittelu ja toisella

Lisätiedot

Yhteistyötä sisältämätön peliteoria jatkuu

Yhteistyötä sisältämätön peliteoria jatkuu Yhteistyötä sisältämätön peliteoria jatkuu Tommi Lehtonen Optimointiopin seminaari - Syksy 2000 / 1 Bayesilainen tasapaino Täysi informaatio Vajaa informaatio Staattinen Nash Bayes Dynaaminen Täydellinen

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS AI-TUTKIJAN URANÄKYMIÄ AJATUSTENLUKUA COMPUTER VISION SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA MUUTTUJIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Tilastotieteen aihehakemisto

Tilastotieteen aihehakemisto Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Mallipohjainen klusterointi

Mallipohjainen klusterointi Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Esimerkkejä vaativuusluokista

Esimerkkejä vaativuusluokista Esimerkkejä vaativuusluokista Seuraaville kalvoille on poimittu joitain esimerkkejä havainnollistamaan algoritmien aikavaativuusluokkia. Esimerkit on valittu melko mielivaltaisesti laitoksella tehtävään

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

1. LINEAARISET LUOKITTIMET

1. LINEAARISET LUOKITTIMET 1. LINEAARISET LUOKITTIMET Edellisillä luennoilla tarkasteltiin luokitteluongelmaa tnjakaumien avulla ja esiteltiin menetelmiä, miten tarvittavat tnjakaumat voidaan estimoida. Tavoitteena oli löytää päätössääntö,

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence Tentin materiaali Sivia: luvut 1,2,3.1-3.3,4.1-4.2,5 MacKay: luku 30 Gelman, 1995: Inference and monitoring convergence Gelman & Meng, 1995: Model checking and model improvement Kalvot Harjoitustyöt Tentin

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Satunnaismuuttujat ja todennäköisyysjakaumat Mitä tänään? Jos satunnaisilmiötä halutaan mallintaa matemaattisesti, on ilmiön tulosvaihtoehdot kuvattava numeerisessa muodossa. Tämä tapahtuu liittämällä

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Kertausluento. Tilastollinen päättely II - 2. kurssikoe Kertausluento Tilastollinen päättely II - 2. kurssikoe Yleistä tietoa TP II -2. kurssikokeesta 2. kurssikoe maanantaina 6.5.2019 klo 12.00-14.30 jossakin Exactumin auditoriossa Kurssikokeeseen ilmoittaudutaan

Lisätiedot

riippumattomia ja noudattavat samaa jakaumaa.

riippumattomia ja noudattavat samaa jakaumaa. 12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta

Lisätiedot

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän

Lisätiedot

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Juuri 0 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty 9..08 Kertaus K. a) Alapaineiden pienin arvo on ja suurin arvo 74, joten vaihteluväli on [, 74]. b) Alapaineiden keskiarvo on 6676870774

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Inversio-ongelmien laskennallinen peruskurssi Luento 2 Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

E. Oja ja H. Mannila Datasta Tietoon: Luku 6

E. Oja ja H. Mannila Datasta Tietoon: Luku 6 6. HAHMONTUNNISTUKSEN PERUSTEITA 6.1. Johdanto Hahmontunnistus on tieteenala, jossa luokitellaan joitakin kohteita niistä tehtyjen havaintojen perusteella luokkiin Esimerkki: käsinkirjoitettujen numeroiden,

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014 1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

SGN-2500: Johdatus hahmontunnistukseen. Jussi Tohka Tampereen teknillinen yliopisto Signaalinkäsittelyn laitos 2006-2012

SGN-2500: Johdatus hahmontunnistukseen. Jussi Tohka Tampereen teknillinen yliopisto Signaalinkäsittelyn laitos 2006-2012 SGN-2500: Johdatus hahmontunnistukseen Jussi Tohka Tampereen teknillinen yliopisto Signaalinkäsittelyn laitos 2006-2012 24. helmikuuta 2012 ii Esipuhe Tämä moniste on syntynyt vuosina 2003 ja 2004 TTY:llä

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21 säilyy Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla c b a 1 2 3 5 1 / 21 säilyy Esimerkkirelaatio R = {(1, b), (3, a), (5, a), (5, c)} c b a 1

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

7.4 Sormenjälkitekniikka

7.4 Sormenjälkitekniikka 7.4 Sormenjälkitekniikka Tarkastellaan ensimmäisenä esimerkkinä pitkien merkkijonojen vertailua. Ongelma: Ajatellaan, että kaksi n-bittistä (n 1) tiedostoa x ja y sijaitsee eri tietokoneilla. Halutaan

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 14. syyskuuta 2007 Antti Rasila () TodB 14. syyskuuta 2007 1 / 21 1 Kokonaistodennäköisyys ja Bayesin kaava Otosavaruuden ositus Kokonaistodennäköisyyden

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Esimerkki: Tietoliikennekytkin

Esimerkki: Tietoliikennekytkin Esimerkki: Tietoliikennekytkin Tämä Mathematica - notebook sisältää luennolla 2A (2..26) käsitellyn esimerkin laskut. Esimerkin kuvailu Tarkastellaan yksinkertaista mallia tietoliikennekytkimelle. Kytkimeen

Lisätiedot