Hahmontunnistus ja Bayesilainen luokitin: käytännön sovellus
|
|
- Pauli Heino
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 Mat Sovelletun matematiikan erikoistyöt 9. syyskuuta 2009 Hahmontunnistus ja Bayesilainen luokitin: käytännön sovellus Teknillinen korkeakoulu Teknillisen fysiikan ja matematiikan osasto Systeemianalyysin laboratorio Janne Laitonen 63028F
2 Sisältö 1 Johdanto Ongelman taustaa Hahmontunnistuksen teoriasta Esikäsittely ja normalisointi Piirrevalinta Tilastollinen hahmontunnistus Luokittelun toteutus Esikäsittely ja luokkajako Datan tarkastelu Ehdollisen todennäköisyysjakauman valinta Tulokset 11 5 Yhteenveto 13 1
3 1 Johdanto Hahmontunnistuksen tarkoituksena on luokitella erilaisia havaintoja eli hahmoja omiin luokkiinsa. Siihen liittyviä tieteenaloja on useita, mm. digitaalinen signaalinkäsittely, tekoäly, neuraalilaskenta, optimointioppi, estimointiteoria sekä sumea logiikka tai kieliteknologia. Sovelluskenttä tällä alalla on laaja. Menetelmiä voidaan käyttää esimerkiksi puheen tai käsin kirjoitetun tekstin tunnistamiseen, henkilöiden tunnistukseen sormenjälkien tai iiriksen perusteella, laadunvalvontaan tai tietokoneavustettuun päätöksentekoon. [1,2] Tässä työssä esitellään hahmontunnistuksen teoriaa painottuen erityisesti Bayesilaisen päätösteorian mukaiseen luokittimeen. Tämän teorian mukaista luokitinta sovelletaan myös käytännön tilanteeseen: tarkoituksena on luokitella erään kamppailu-urheiluseuran harrastajat eri lajiryhmiin harjoituksiin saapumisen perusteella. Tämän erikoistyön rakenne on seuraava: Loppuosa tästä ensimmäisestä luvusta on varattu ongelman taustan ja lähtökohtien tarkastelulle. Tämän jälkeen kerrotaan hahmontunnistuksen teoriasta ja esitellään Bayesilaisen luokittimen periaate. Teorian mukainen käytännön sovellus toteutetaan luvussa 3, jonka jälkeen esitellään tulokset. Viimeinen luku on varattu yhteenvedolle ja pohdinnoille. 1.1 Ongelman taustaa GB Gym Helsinki ry on kamppailu-urheiluseura, jossa on mahdollisuus harjoitella potkunyrkkeilyä, brasilialaista jujutsua, thainyrkkeilyä, vapaaottelua, nyrkkeilyä sekä lukkopainia. Lisäksi yhdistys järjestää lapsille ja nuorille tarkoitettuja brasilialaisen jujutsun harjoituksia. Yhdistys on jäsen Suomen Potkunyrkkeilyliitossa, Suomen Brasilialaisen Jujutsun liitossa, Suomen Muay Thai -liitossa, Suomen Vapaaotteluliitossa sekä Suomen Nyrkkeilyliitossa. GB Gym toimii yhteistyössä edellä mainittujen lajiliittojen kanssa ja järjestää säännöllisesti kilpailuita ja leirejä salillaan. [3] Vuonna 2008 yhdistyksellä oli jäsenmaksun maksaneita harjoittelijoita 712, joista 505 on miehiä, 67 naisia, 123 poikia (alle 19-vuotiaita) ja 17 tyttöjä (alle 19-vuotiaita). Jäsenet saavat osallistua minkä tahansa lajin harjoituksiin, joihin heillä on tiedolliset ja taidolliset perusedellytykset. Lisäksi salin ollessa vapaana heillä on mahdollisuus omatoimiseen vapaaharjoitteluun. Lajikohtaisia harrastajamääriä ei kuitenkaan dokumentoida millään tavalla, vaan 2
4 toiminta on varsin vapaata. Ainut merkintä harrastajasta jää hänen käyttäessään salin oven avaamiseen henkilökohtaista magneettikorttiaan, jolloin tapahtumasta tallentuvat päivämäärä, kellonaika ja kortin omistaja. Magneettikortilla pääsee yhdistyksen harjoitustiloihin arkisin klo 06:00-22:00 ja viikonloppuisin klo 08:00-20:00. Tämä työ sai alkunsa seuraavasta ongelmasta: Helsingin kaupungin liikuntavirasto myöntää vuosittain liikunta-avustuksia helsinkiläisille liikuntaseuroille ja edellyttää avustushakemuksessa mm. tiedot harrastajamääristä lajikohtaisesti. Koska ryhmäkoot ovat välillä kohtuullisen suuria ja harrastajien vaihtuvuus ajoittain nopeaa, valmentajien ja lajivastaavien on hyvin hankala arvioida kunkin lajin todellista harrastajamäärää. Tässä erikoistyössä on tarkoituksena tutkia mahdollisuutta luokitella harrastajat lajiluokkiin saapumisaikojen perusteella ja toteuttaa luokittelu. Kunkin lajin harkoitusajat ovat kiinteitä sekä kaikkien tiedossa ja vaikka eri lajien harjoituksia on käynnissä samaan aikaan, niiden alkamisajankohdat eroavat vähintään puolella tunnilla. Ajatuksena on, että harrastajat tulevat salille noudattaen harjoitusaikoja, jolloin luokittelu on mahdollista. Kyseessä on hahmontunnistustehtävä, jossa kutakin henkilöä vastaava hahmo muodostuu kyseisen henkilön saapumisajoista eli parista viikonpäivä ja kellonaika. Näiden tietojen avulla harjoittelijat luokitellaan eri lajiluokkiin, jotka oletetaan tunnetuiksi, eli määrätään lajikohtaiset harrastajamäärät. 2 Hahmontunnistuksen teoriasta Hahmontunnistus on tieteenala, jossa pyritään luokittelemaan tehtyjä havaintoja hahmoja erilaisiin kategorioihin eli luokkiin tai löytämään hahmojen välisiä suhteita. Keskeisiä ongelmia ovat havaintojen tai mittaustietojen pelkistys eli esikäsittely, tiedon kuvaus eli piirreirrotus ja tiedon luokittelu tai muu kuvaus eli tunnistus. [1] Hahmontunnistuksen ongelmaa on esitetty abstraktilla tasolla kuvassa 1. Luokka-avaruuden C ja piirreavaruuden P välillä on luokkakohtainen ja mahdollisesti todennäköisyyteen perustuva yhteys G i. Jokainen luokka ω i virittää hahmojen osajoukon piirreavaruuteen, missä i. hahmo on merkitty p i :llä. On kuitenkin huomattava, että nämä osajoukot voivat asettua päällekkäin sallien yhteisiä piirteitä eri luokkien hahmoille. Yhteys M kuvaa hahmot P :n aliavaruuksista havainnoiksi tai mittauksiksi m i. Hahmontunnistuksessa on tarkoituksena, annettuna mittaukset m i, löytää keino tunnistaa ja kääntää kuvaukset M ja G i kaikille i. Käytännössä nämä kuvaukset eivät kuitenkaan 3
5 Luokka-avaruus C Piirreavaruus P Havaintoavaruus F i G i G j M p m 4 1 p 1 j p 2 m 2 G k k p 3 m 3 Kuva 1: Abstrakti esitys hahmontunnistuksen ongelmasta. Merkinnät ja selitykset tekstissä. [4] ole funktioita ja vaikka ne olisivat, ne harvoin ovat injektioita, surjektioita tai kääntyviä. Tärkeä havainto on, että kuvaus M riippuu mittaustavasta. Hahmontunnistuksen onnistumisen kannalta on siis tärkeää, että mittaussysteemi valitaan ja suunnitellaan mahdollisimman hyväksi. [4] Hahmontunnistusjärjestelmän suunnittelu on iteratiivinen prosessi, jonka toteutus riippuu sovelluskohteesta. Kuvassa 2 on esitetty tyypillisen tunnistusjärjestelmän rakenne. Se koostuu mittalaitteesta, esikäsittely- ja piirreirrotusalgoritmista sekä luokittelu- tai jäsennysalgoritmista. Edellisten lisäksi tarvitaan usein opetus- ja testidataa. [1,4] Seuraavissa alaluvuissa käsitellään näiden komponenttien keskeisiä vaatimuksia ja ominaisuuksia niiltä osin kuin se tämän työn toteutuksen kannalta on tarpeen. Mahdollinen takaisinkytkentä (Tilastollinen) Luokittelualgoritmi Luokittelu Havaittavan hahmon data p i Anturi / mittalaite Mittaus m Esikäsittely ja vahvistus i Piirrevalinta ja -irrotus (Syntaktinen) Jäsennysalgoritmi Jäsennys Kuva 2: Tyypillisen hahmontunnistusjärjestelmän rakenne. [4] 4
6 2.1 Esikäsittely ja normalisointi Esikäsittelyn tarkoituksena on korostaa oleellista mittausinformaatiota ja helpottaa piirreirrotusta. Onnistunut esikäsittely parantaa luokittelumenetelmän toimivuutta, sillä paremmilla piirteillä saadaan aikaan nopeampi oppiminen ja yleisempiä tuloksia. [1] Esikäsittely- ja normalisointimenetelmien valintaan vaikuttaa erittäin paljon sovelluskohde sekä millaisia piirteitä halutaan laskea ja mitä luokittelutekniikoita käytetään. Tyypillisiä menetelmiä ovat esimerkiksi poikkeavien ja puuttuvien mittausten käsittely, varianssien normalisointi, pääkomponenttianalyysi ja arvoalueen skaalaus. [1] 2.2 Piirrevalinta Piirteet ja niiden väliset suhteet ovat hahmon ilmentymä, jonka perusteella hahmo voidaan luokitella tai kuvata. Piirteet voivat olla symbolisia tai numeerisia, jatkuva-, diskreetti- tai binääriarvoisia. Hahmon ilmentymä voi olla esimerkiksi vektori, matriisi, puu, graafi tai merkkijono. [1] Piirteiden valinta riippuu sovelluskohteesta ja valinnalla on ratkaiseva vaikutus luokittelun onnistumiseen. Piirteet on valittava siten, että ne kuvaavat hyvin tarkasteltavia hahmoja ja saavat samankaltaisia arvoja luokkien sisällä ja erilaisia arvoja luokkien välillä. Valinnassa on kiinnitettävä huomiota siihen, että ne ovat invariantteja erilaisille vääristymille ja mittausolosuhteiden muutoksille, esimerkiksi skaalaukselle, rotaatiolle, translaatiolle tai valaistukselle. [1,4,5] Hyvien piirteiden valintaan sopivia menetelmiä ovat mm. tilastollinen testaus, ROC-käyrä (the receiver operating characteristics curve) sekä erilaiset luokkien separoituvuusmitat. [1,5] 2.3 Tilastollinen hahmontunnistus Hahmontunnistusmenetelmät voidaan jakaa oppimisperiaatteen mukaan ohjattuun, ohjaamattomaan ja vahvistusoppimiseen. Toinen jakoperuste on erilaiset käytettävät laskennalliset tekniikat. Geometrisissä menetelmissä piirreavaruus jaetaan joko lineaarisesti tai epälineaarisesti osiin ja jokainen osa vastaa tiettyä luokkaa, esimerkkeinä mainittakoon Fisherin diskriminantti ja tukivektorikone (SVM). Neuroverkkomenetelmät ovat niin sanottuja 5
7 black box -menetelmiä, joilla tehdään epälineaarinen kuvaus piirreavaruudesta luokka-avaruuteen; laskentamenetelmänä voidaan käyttää esimerkiksi monikerrosperseptroniverkkoa (MLP) tai Kohosen itseorganisoivaa karttaa (SOM). Syntaktisilla menetelmillä tunnistus perustuu jäsentämiseen ja hahmot esitetään esimerkiksi formaalin kielen tuottamina merkkijonoina. Muita keinoja ovat rakenteelliset ja malleihin perustuvat menetelmät, joiden käyttö on laskennallisesti raskasta, kun sovelluksen kompleksisuus kasvaa. Viimeisenä mainittakoon tilastolliset hahmontunnistusmenetelmät, joihin tässä työssä keskitytään. [1,4] Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina. Satunnaisuuden ajatellaan aiheutuvan hahmojen tilastollisesta vaihtelusta sekä mittalaitteen kohinasta. Luokittelussa käytetään hyväksi luokkien a priori todennäköisyyksiä, luokkien ehdollisia todennäköisyysjakaumia ja tehtyjä havaintoja. Hahmot esitetään havainnoista muodostetun piirrevektorin x R n avulla ja ne halutaan jakaa M:ään luokkaan ω 1,..., ω M. Luokkien a priori todennäköisyydet ovat P (ω 1 ),..., P (ω M ) ja luokkien ehdolliset todennäköisyysjakaumat ovat p(x ω 1 ),..., p(x ω M ). Bayessäännöllä saadaan laskettua a posteriori todennäköisyydet P (ω i x) = p(x ω i)p (ω i ), p(x) missä (1) M p(x) = p(x ω i )P (ω i ). (2) i=1 Hahmon luokka valitaan korkeimman a posteriori todennäköisyyden tai siitä johdetun funktion mukaisesti tai minimoimalla päätökseen liittyvän riskin odotusarvoa. [1,5,6,7] Täydellisen, virheettömän luokittelun saavuttaminen ei aina ole edes teoriassa mahdollista mutta Bayes-säännön mukainen luokitin minimoi luokitteluvirheen todennäköisyyden eli Bayes-sääntöön perustuva päätös on tässä mielessä optimaalinen tapa suorittaa luokittelu [1,2,7,8]. Osoitetaan lopuksi tämä väite: Tarkastellaan ongelmaa, jossa on M luokkaa ja olkoon R j, j = 1, 2,..., M luokkaa ω j vastaava alue piirreavaruudessa. Oletetaan seuraavaksi, että luokkaan ω k kuuluva piirrevektori x on alueella R i, i k. Piirrevektori siis luokitellaan virheellisesti luokkaan ω i, mistä aiheutuu kustannus λ ki. Määritellään luokkaan ω k liittyvä riski: r k = M λ ki p(x ω k )dx. (3) R i i=1 6
8 Väärän luokituksen kokonaistodennäköisyyttä painotetaan siis kustannuksella λ ki ja eri mahdollisuudet summataan yhteen. Tarkoituksena on valita aluejako siten, että riskin odotusarvo M M r = r k P (ω k ) = k=1 i=1 R i ( M k=1 ) λ ki p(x ω k )P (ω k ) dx (4) minimoituu. Tämä onnistuu minimoimalla kutakin integraalia, mikä vastaa aluejakoa x R i jos l i < l j, i j missä l m = M λ km p(x ω k )P (ω k ). (5) Minimoitaessa luokitteluvirheen todennäköisyyttä kustannus λ ki = 1 δ ki, missä δ ki on Kroneckerin delta-funktio. [1,5,6] Tällöin k=1 l m = k m p(x ω k )P (ω k ), sij. Bayes-sääntö (1) (6) = p(x) k m P (ω k x) (7) = p(x) ( 1 P (ω m x) ). (8) Aiemmin mainittu minimiriskiin perustuva päätössääntö (5) saa luokitteluvirheen todennäköisyyttä minimoitaessa muodon x R i jos P (ω i x) > P (ω j x), i j. (9) Eli luokitteluvirhe minimoituu a posteriori todennäköisyyttä maksimoivalla päätöksellä. 3 Luokittelun toteutus Luokittelu perustetaan luvussa 2.3 esitettyyn Bayesilaiseen päätössääntöön (9) eli puhtaasti a posteriori todenäköisyyden maksimointiin eikä luokittelussa oteta huomioon epäsymmetristä riskiasennetta eri luokitteluvirheitä kohtaan. Tämä luku noudattelee edellisen teorialuvun rakennetta tutkittavassa käytännön sovelluksessa. Aluksi kuvataan datan esikäsittely ja luokkajako. Tämän jälkeen tarkastellaan tutkittavaa dataa ja esitellään käytettävä luokittelualgoritmi. 7
9 3.1 Esikäsittely ja luokkajako Tarvittava kulkudata saatiin Excel-tiedostona sisältäen kullakin rivillä mm. saapumisajan, päivämäärän ja henkilön nimen sekä kortin numeron. Tästä datasta muokattiin luokitteluun soveltuvampi csv-tiedosto, josta poistettiin ylimääräiset tiedot ja tarvittavat tiedot muokattiin käyttökelpoisempaan muotoon. Kellonajan esitys muutettiin tavanomaisesta esitysmuodostaan luvuksi välille [0, 1] ja päivämäärää vastaava viikonpäivä koodattiin diskreetiksi muuttujaksi 1,..., 7, missä maanantaita vastaa muuttujan arvo 1 ja sunnuntaita arvo 7. Luokittelu perustettiin välisenä aikana (15 viikkoa) kerättyyn dataan, koska tällä välillä harjoitteluajat kaikissa lajeissa olivat jo vakiintuneet, eikä tänä aikana järjestetty salilla harjoitusleirejä, jotka vääristäisivät tuloksia. Datasta myös karsittiin ennen klo 10:00 ja klo 21:00 jälkeen tehdyt havainnot, sillä nämä omatoimiset aamu- ja iltaharjoittelut vääristäisivät luokittelua kyseisten henkilöiden kohdalla. Muille esikäsittelymenettelyille ei katsottu olevan tarvetta. Varsinaista piirreirrotusta ei tarvitse tehdä, sillä luokittelu perustetaan kellonaikaan ja viikonpäivään, jotka ovat datassa valmiina. Yhdeksi piirteeksi voisi valita myös sukupuolen mutta tätä tietoa ei ole käytetyssä datassa. Luokittelualgoritmi kirjoitettiin Matlab-ohjelmalla ja luokittelu perustettiin aiemmin esiteltyyn Bayes-sääntöön. Luokkia on kaikkiaan 13, joista osa yhdistetään lopullisessa luokittelussa (katso taulukkoa 1). Tämä siksi, että varsinaisena kiinnostuksen kohteena on lajiluokittelu mutta tuloksen oikeellisuuden arviointi on helpompaa hieman tarkemmalla jaolla. Lisäksi luokkajako tuo tiettyä lisäarvoa tuloksiin kertoen mm. missä lajissa alkeiskurssit ovat suosituimpia tai millainen on alkeiskurssilaisten ja muiden harrastajien välinen suhde. Luonnollisesti tarkempi jako on enemmänkin suuntaa antava. 3.2 Datan tarkastelu Luokiteltavia henkilöitä tutkittavalla ajalla on 621. Tämä on selvästi vähemmän kuin luvussa 1.1 mainittu jäsenten määrä 712. Osa henkilöistä on siis lopettanut harjoittelun ennen syksyä ja toisaalta osa harjoittelijoista ei välttämättä käytä sisään tullessaan omaa korttiaan, vaan kulkee muiden harrastajien seurassa. Lisäksi tulosten oikeellisuuden vuoksi luokittelun ulkopuolelle jätetään satunnaiset kokeilijat, jotka käyvät harjoittelemassa vain muutaman kerran tarkastelujakson aikana. Tätä päätöstä puoltaa myös se, että tarkoituksena on luokitella aktiiviset harrastajat. Tässä työssä rajaksi valittiin viisi harjoituskertaa eli jos henkilö on käynyt harjoittelemassa alle viisi 8
10 Taulukko 1: Luokkajako ja niiden kuvaukset. Aluksi henkilöt luokitellaan eri lajiryhmiin (yhteensä 13 kappaletta) ja tämän jälkeen osa ryhmistä yhdistetään varsinaisiksi ja lopullisen kiinnostuksen kohteena oleviksi lajiluokiksi (yhteensä 6 kappaletta). Luokka ω i Kuvaus Lyhenne ja lajijako 1 Potkunyrkkeily PN 2 Potkunyrkkeilyn alkeiskurssi PN 3 Nyrkkeily N 4 Thainyrkkeily MT 5 Thainyrkkeilyn alkeiskurssi MT 6 Brasilialainen jujutsu BJJ 7 BJJ alkeiskurssi BJJ 8 Lukkopaini BJJ 9 Vapaaottelu MMA 10 Vapaaottelun alkeiskurssi A MMA 11 Vapaaottelun alkeiskurssi B MMA 12 Vapaaottelun alkeiskurssi C MMA 13 Nuorisoryhmä Nuoret kertaa, hänet rajataan luokittelun ulkopuolelle (tarkemmin, jos henkilöstä on alle viisi havaintoa tietokannassa tarkasteltavana ajanjaksona). Mainitulla kriteerillä 150 henkilöä karsitaan pois, jolloin luokiteltavia henkilöitä jää jäljelle 471. Harjoittelijoiden harjoituskertojen jakauma on esitetty kuvassa 3. Huomattavaa on, että jakauma painottuu voimakkaasti pieniin harjoituslukumääriin. Jokaisessa lajissa pidetään harjoituksia 2-6 kertaa viikossa ja jokaiseen alkeiskurssiin kuuluu kaksi harjoitusta viikossa. Viidentoista viikon ajanjaksolla harjoitusmäärien voisi siis odottaa painottuvan noin 30 harjoituskerran kohdalle. Tämä havainto itseasiassa näkyy histogrammissa pienenä nousuna. Vähäisen harjoitusmäärän voi odottaa johtuvan ainakin kahdesta syystä. Osa harrastajista ei käytä henkilökohtaista korttiaan tullessaan harjoituksiin ja toisaalta on yleisesti tunnettua, että varsinkin alkeiskurssien osalta keskeytysprosentti on suuri. 9
11 150 Henkilöiden lukumäärä Harjoituskertojen lukumäärä Kuva 3: Harjoittelijoiden harjoituskertojen jakauma tarkasteltavana 15 viikon ajanjaksona. Alle viisi kertaa harjoittelevia henkilöitä on Ehdollisen todennäköisyysjakauman valinta Luokkien ehdolliset todennäköisyysjakaumat p(x ω i ) muodostettiin normaalijakauman avulla. Odotusarvona µ käytettiin arviota, että harrastaja tyypillisesti saapuu paikalle 15 minuuttia ennen harjoitusten alkua. Kunkin lajin harjoitusajat ovat kiinteitä ja tunnettuja. Jakauman hajonta asetettiin siten, että 90% harjoittelijoista saapuu paikalle harjoituksen alkua edeltävän puolen tunnin aikana eli välillä µ ± 15 min. Viikon sisältävä jakauma muodostettiin summaamalla eri viikonpäivien normaalijakaumat yhteen ja normalisoimalla tämä jakauma. Esimerkkinä kuvassa 4 on esitetty luokan 1 (potkunyrkkeily) todennäköisyysjakauma. Normaalijakauma ei ole erityisen paksuhäntäinen, joten odotettavissa olevien poikkeavien havaintojen vuoksi jakaumaan lisättiin luku ɛ = lisäämään robustisuutta. Ilman tätä numeerista operaatiota kaikki ehdolliset todennäköisyysjakaumat saavat poikkeavien havaintojen kohdalla arvon nolla, jolloin posterioritodennäköisyyden päivittäminen ei onnistu ja luokittelu epäonnis- 10
12 tuu. Herkkyysanalyysin perusteella luokittelutulos ei kuitenkaan ole herkkä ɛ:n tai σ:n vaihtelulle. Luokittelussa kokeiltiin robustimpana vaihtoehtona Cauchy-jakaumaa mutta jo nopealla tulosten tarkastelulla oli havaittavissa, että tämä jakauma ei suoriutunut luokittelusta. Intensiteetti Aika Kuva 4: Luokan 1 ehdollinen todennäköisyysjakauma p(x ω 1 ). Numerot aikaakselilla viittaavat kyseisen päivän loppuun. Itse luokittelu toteutettiin päivittämällä Bayes-säännöllä a posterioritodennäköisyyttä havainto kerrallaan. Edellisen kierroksen a posteriori on siis seuraavan kierroksen a prioritodennäköisyys. Iteraation alkaessa ensimmäisenä a priorina käytettiin jokaisen henkilön kohdalla tasajakaumaa. Kukin harrastaja luokitellaan siihen luokkaan, jonka a posterioritodennäköisyys on suurin iteraation loputtua. Henkilöiden nimien ja korttinumeron yhdistämistä ja tarvittavien nimilistojen muodostamista varten kirjoitettiin lyhyt ohjelma Java-ohjelmointikielellä. 4 Tulokset Laskenta-ajallisesti luokittelu ei ollut raskas operaatio, sillä normaali kannettava tietokone selvitti sen muutamassa sekunnissa, vaikka algoritmia ei kirjoitettu laskenta-ajan minimointia ajatellen. Luokittelun tulokset on esitetty kuvassa 5 ja taulukossa 2, jossa on vertailuna myös GB Gym Helsinki ry:n hallituksen tekemä arvio harrastajamääristä lajeittain. Tulokset selvästi tukevat toisiaan. Luokitteluvirheen arvioitiin olevan noin 6 %, mikä toteutettiin käymällä luokittelutulos, etenkin nimilistat, läpi eri henkilöiden kanssa. Lisäksi alkeiskurssi-ilmoittautumislistojen avulla voitiin arvioida suuri osa luokittelulistoista täsmällisesti. Osa vapaaottelun harjoittelijoista (luokka 9) luokiteltiin 11
13 potkunyrkkeily-ryhmään (luokka 1) mutta toisaalta esimerkiksi brasilialaisen jujutsun alkeiskurssin luokasta (luokka 7) ei löytynyt ainoatakaan väärää nimeä. Suurin yksittäinen tekijä, joka nostaa luokitteluvirhettä on, että ennakkotiedoista poiketen osa salilla käyvistä junioriryhmäläisistä (esikoulu- ja ala-asteikäisiä) käyttää magneettikorttia. Oletuksena oli, että kyseiset henkilöt pääsevät salille ohjaajien seurassa eikä tätä pientä joukkoa ollut tarkoitus ottaa huomioon luokittelussa. Tästä syystä virhettä nostaa löydetyt 9 virheellistä luokitusta, mikä on luokitteluvirheiden kokonaismäärästä noin kolmasosa. Luokittelun onnistumista tukee myös osavalidoinnilla tehty tarkistus, jossa datasta käytettiin luokittelussa vain ensimmäiset 2/3. Tällöin lajien suhteelliset osuudet olivat käytännössä samat: Suurimmat poikkeamat olivat potkunyrkkeilyn ja vapaaottelun osuuksissa, joissa ero tuloksiin oli -2 %-yksikköä ja +3%-yksikköä, vastaavasti. Taulukko 2: Luokittelun tulokset luokittain ja lajeittain. Järjestys vastaa taulukossa 1 esitettyä järjestystä eli esim. vapaaottelun lajiryhmään luokitellaan 46 henkilöä, alkeiskurssille A 41 jne. Sarakkeessa Summa on kunkin lajin kokonaisharrastajamäärä. Luokiteltavia henkilöitä oli 471. Sarakkeessa Osuus on lajien suhteelliset osuudet. GB Gym Helsinki ry:n hallituksen helmikuussa 2009 tekemä arvio on esitetty viimeisessä sarakkeessa. Luokitteluvirheeksi arvioitiin 6 %. Lajit ja niiden luokkafrekvenssit Summa Osuus Arvio Potkunyrkkeily: % 26 % Nyrkkeily: % 5 % Thainyrkkeily: % 13 % Brasilialainen jujutsu: % 19 % Vapaaottelu: % 32 % Nuorisoryhmä: % 2 % Liitteenä olevissa kuvissa 6, 7 ja 8 on esitetty muutamia havainnollistuksia eräiden harjoittelijoiden osalta. Kyseisten henkilöiden harjoittelema laji on tiedossa ja heidän tottumukset saapumisen suhteen ainakin jossain määrin tunnettuja. Kuvassa 6(a) on esitetty havaintojen perusteella muodostettu tiheysfunktion estimaatti (Parzen-estimaatti, jossa ikkunafunktiona on käytetty normaalijakaumaa) ja kuvan 6(b) pistediagrammissa havainnot on merkitty päiväkellonaika -koordinaatistoon. Kuva 6(c) havainnollistaa a posterioritodennäköisyyksien kehitystä havaintokertojen funktiona. Vaikka kuvan 6 henkilön saapumisajat vaihtelevat jossain määrin, luokittelutulos on oikea ja a posteriori saavuttaa stabiilin tilan alun vaihtelun jälkeen. 12
14 Henkilöiden lukumäärä PN N MT BJJ MMA Nuoret Luokat Kuva 5: Luokittelun tulos luokittain ja lajeittain. Lajin sisällä luokittelujärjestys vastaa taulukon 1 järjestystä eli esim. MMA:ssa musta osa viittaa vapaaottelun lajiryhmään, seuraava alkeiskurssiin A jne. Luokiteltavia henkilöitä oli 471. Luokitteluvirheeksi arvioitiin 6 %. Kuvan 7 henkilö saapuu harjoituksiin erittäin täsmällisesti, mikä paljastuu etenkin kuvasta 7(b). Tiheysfunktion estimaatti muistuttaa selvästi kuvan 4 todennäköisyysjakaumaa ja kuvan 7(c) a posteriorissa ei ole havaittavissa vaihtelua edes iteraation alkuvaiheessa. Luokittelutulos on oikea. Viimeisessä esimerkissä (kuva 8) olevan henkilön tiedetään harjoittelevan paljon omatoimisesti, mikä näkyy osittain sekä Parzen-estimaatissa että pistediagrammissa kuin myös a posteriorin epästabiilina käytöksenä. Luokittelutulos on väärä. 5 Yhteenveto Tässä työssä toteutettiin hahmontunnistus ja luokittelu perustuen Bayesilaiseen a posterioritodennäköisyyttä maksimoivaan päätössääntöön. Luokkien lukumäärä (13 kpl) oli määrätty ennalta ja näistä luokista osa yhdistettiin 13
15 omiksi lajiryhmikseen (6 kpl). Työssä käsiteltiin hahmontunnistuksen teoriaa abstraktilla tasolla ja tämän jälkeen esiteltiin tyypillinen hahmontunnistusjärjestely sisältäen mm. datan esikäsittelyn, piirrevalinnan ja luokittelualgoritmin. Erilaisia luokittelumenetelmien jakoperusteita käsiteltiin lyhyesti. Erilaisia laskennallisia menetelmiä on useita, mm. Fisherin diskriminantti, tukivektorikone, monikerrosperseptroniverkko (MLP) tai itseorganisoiva kartta (SOM). Työssä keskityttiin kuitenkin Bayesilaiseen luokittimeen ja osoitettiin, että Bayesilainen luokitin minimoi luokitteluvirheen. Sovelluskohteena työssä oli erään kamppailu-urheiluseuran harrastajien luokittelu eri lajeihin saapumisaikojen perusteella. Kunkin henkilön hahmo muodostui viikonpäivästä ja kellonajasta, jolloin salille saavuttiin. Posterioritodennäköisyyttä päivitettiin niin monta kertaa kuin henkilöstä oli havaintoja tarkastelujakson aikana ( eli 15 viikkoa) ja henkilö luokiteltiin siihen luokkaan, jonka posterioritodennäköisyys oli suurin iteraation lopussa. Tehtävälle oli käytännön tarve, sillä Helsingin kaupungin liikuntavirasto vaatii liikunta-avustuksia myöntäessään tiedot eri lajien harrastajamääristä. Perinteisesti tämä työ on vienyt paljon aikaa ja vaivaa, sillä harjoittelijoiden määrä on salilla suuri eikä harjoittelijoiden lajivalinnoista pidetä systemaattisesti kirjaa. Ehdolliset todennäköisyysjakaumat muodostettiin normaalijakaumien avulla. Oletuksena oli, että odotusarvoisesti harjoittelijat saapuvat paikalle 15 minuuttia ennen harjoituksia ja että 90 % harjoittelijoista saapuu paikalle puolen tunnin sisällä ennen harjoituksen alkamista. Yksi työn ongelma oli, että käytössä ei ollut varsinaista opetusjoukkoa. Tämän puutteen vuoksi moni muu menetelmä sulkeutui pois käytöstä, sillä useiden parametrien estimointi olisi ollut hyvin hankalaa. Valitun luokittimen etuna onkin parametrien vähyys ja konkreettisuus, jolloin ne voitiin perustaa asiantuntija-arvioon. Tehdyn herkkyysanalyysin perusteella luokittelu ei ole herkkä parametrien pienille muutoksille. Luokittelun tulokset olivat sopusoinnussa aiempien arvioiden kanssa: vapaaottelu on harrastajamäärältään suosituin laji (33 %), jonka jälkeen tulevat potkunyrkkeily ja brasilialainen jujutsu (24 % ja 22 %, vastaavasti). Luokitteluvirheen arvioitiin olevan noin 6 %. Luokkafrekvenssien lisäksi tulokseksi voidaan laskea myös havainto, että harjoitusmäärät henkilöä kohden painottuivat hyvin pieniin lukuihin: tarkastelujakson aikana 150 henkilöä oli käyttänyt magneettikorttiaan alle viisi kertaa. On tosin tunnettua, että moni harrastaja lopettaa harjoittelunsa hyvin lyhyeen. Tätä osoittaa myös havainto, että tarkasteluvuonna jäsenmaksun maksaneita henkilöitä oli 712 ja luokiteltavia oli lopulta 471. Käytetty menetelmä perustuu riittävään määrään havaintoja, jolloin aiem- 14
16 min mainitun tuloksen perusteella voi kysyä, antaako käytetty menetelmä oikean kuvan luokittelusta. Todellinen harrastajamäärä voi olla hieman erilainen, sillä harjoituksiin voi mennä ilman magneettikorttia, jos pääsee sisään jonkun toisen mukana. Toisaalta luokittelun suhteelliset osuudet ovat sopusoinnussa aiempien arvioiden kanssa eli tuloksen voi olettaa antavan lajien suosiosta oikean kuvan. Toinen puute mallissa on, että siinä luokat ovat määrättyjä. Tunnettua on, että esim. vapaaottelun harrastajat käyvät myös lukkopainissa tai nyrkkeilyssä. Tämä todennäköisesti aiheuttaa tuloksiin pientä eroa käytäntöön. Viitteet [1] Erkki Oja. Kurssin T Principles of Pattern Recognition luentokalvot, 2009 [2] Tze Fen Li. Bayes empirical Bayes approach to unsupervised learning of parameters in pattern recognition. Pattern Recognition, (33): , [3] GB Gym Helsinki ry:n www-sivut. URL: [4] Robert Schalkoff. Pattern Recognition: Statistical, Structural, and Neural Approaches. John Wiley & Sons, [5] Sergios Theodoridis ja Konstantinos Koutroumbas. Pattern Recognition. Academic Press, 3rd edition, [6] Richard Duda, Peter Hart ja David Stork. Pattern Classification. John Wiley & Sons, [7] C. Leung ja L. Sze. A method to speed up the Bayes classifier. Engineering Applications of Artificial Intelligence, (11): , [8] Alberto Ruiz. A nonparametric bound for the bayes error. Pattern Recognition, (6): ,
17 Liite 1: Havainnollistavia kuvia luokittelusta Intensiteetti Aika (a) Havainnoista muodostettu tiheysfunktion Parzen-estimaatti Kellonaika Päivät (b) Havainnot esitettynä päivä-kellonaika -koordinaatistossa Todennäköisyys Harjoituskerrat (c) Posterioritodennäköisyyden kehitys. Kuva 6: Henkilön saapumisajat vaihtelevat hieman mutta luokitus on oikea. Posterioritodennäköisyys stabiloituu alun heilahtelun jälkeen. 16
18 Intensiteetti Aika (a) Havainnoista muodostettu tiheysfunktion Parzen-estimaatti Kellonaika Päivät (b) Havainnot esitettynä päivä-kellonaika -koordinaatistossa Todennäköisyys Harjoituskerrat (c) Posterioritodennäköisyyden kehitys. Kuva 7: Henkilö saapuu harjoituksiin hyvin täsmällisesti. Parzen-estimaatin ja kuvan 4 yhtäläisyys on huomattava. Luokitus on oikea. 17
19 Intensiteetti Aika (a) Havainnoista muodostettu tiheysfunktion Parzen-estimaatti Kellonaika Päivät (b) Havainnot esitettynä päivä-kellonaika -koordinaatistossa Todennäköisyys Harjoituskerrat (c) Posterioritodennäköisyyden kehitys. Kuva 8: Saapumisajat vaihtelevat paljon eikä posterioritodennäköisyys stabiloidu. Luokitus on väärä. 18
20 Liite 2: Luokittelualgoritmin Matlab-koodi %% Luokkien ehdolliset todennäköisyysjakaumat: % Harjoitusten alkamisajat: T = 1/24 * [ ; ; ; ; ; ; ; ; ; ; ; ; ]; sigma = 1/(24*4*1.645); % tällä osuus tulee välillä [mu-15min, mu+15min] dx = ; epsilon = ; f_likelihood = zeros(7,size(0:dx:7,2),13); for k = 1:13 %k = lajit for i = 1:7 %i = päivät, j = kellonaika if T(k,i) ~= 0 mu = T(k,i) + i - 1; f_likelihood(i,:,k) = normpdf(0:dx:7, mu-1/(4*24), sigma); end end end f_likelihood = sum(f_likelihood, 1) + epsilon; %pdf lajeittain %normalisointi: A_norm = sum(f_likelihood,2)*dx; for k = 1:13 f_likelihood(1,:,k) = f_likelihood(1,:,k)./a_norm(1,1,k); end 19
21 %% Luokittelualgoritmi: % 1. sarake hlön ID % 2. sarake kellonaika (skaalaus välille 0...1) % 3. sarake viikonpäivä (ma = 1 ja su = 7) data = csvread( data_syksy_klo10-21.csv ); IDt = csvread( IDt.csv ); for k = 1:length(IDt) ID = IDt(k); J_Doe = data(find(data(:,1) == ID),:); lk = zeros(13,1); prior = ones(13,1) / 13; %tasajakaumapriori posterior = zeros(13,1); for i = 1:size(J_Doe,1) % käydään kaikki havainnot day = J_Doe(i,3); for j = 1:13 % käydään kaikki luokat läpi lk(j,1) = f_likelihood(1, floor((j_doe(i,2) + day - 1)/dx),j); end posterior = lk.* prior; posterior = posterior / sum(posterior); prior = posterior; end posterior_matrix(:,k) = posterior; counts(k) = size(j_doe, 1); end [Y I] = max(posterior_matrix, [], 1); table = tabulate(i); % karsitaan ne, jotka on treenannu alle 5 kertaa syksyn aikana table_new = tabulate(i(find(counts >= 5))); lajit_m = [table_new(1,2) table_new(2,2) 0 0; table_new(3,2) 0 0 0; table_new(4,2) table_new(5,2) 0 0; table_new(6,2) table_new(7,2) table_new(8,2) 0; table_new(9,2) table_new(10,2) table_new(11,2) table_new(12,2); table_new(13,2) 0 0 0]; figure(1); bar(lajit_m, stack ); colormap( gray ); 20
1. TILASTOLLINEN HAHMONTUNNISTUS
1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,
Lisätiedot1. JOHDANTO. 1.1 Johdattelevia esimerkkejä. 1. Kuinka monta ihmishahmoa näet kuvassa?
1. JOHDANTO 1.1 Johdattelevia esimerkkejä 1. Kuinka monta ihmishahmoa näet kuvassa? 1 2. Ovatko viivat yhdensuuntaisia? 2 3. Mitä erikoista on spiraalissa? 3 4. Onko risteyskohdissa mustia vai valkoisia
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotHahmontunnistuksen perusteet T , 3ov, L Syksy Matti Aksela
Hahmontunnistuksen perusteet T-61.231, 3ov, L Syksy 2003 Luennot: Laskuharjoitukset: Harjoitustyö: Timo Honkela ja Kimmo Raivio Markus Koskela Matti Aksela 1. FOREIGN STUDENTS................... 1 2. YLEISTÄ
LisätiedotSGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5
SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 Jussi Tohka jussi.tohka@tut.fi Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto SGN-2500 Johdatus hahmontunnistukseen 2007Luennot 4 ja
LisätiedotHarjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat
Lisätiedot1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI
1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia
Lisätiedot1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI
1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
Lisätiedot2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet
Tilastotieteen jatkokurssi Sosiaalitieteiden laitos Harjoitus 5 (viikko 9) Ratkaisuehdotuksia (Laura Tuohilampi). Jatkoa HT 4.5:teen. Määrää E(X) ja D (X). E(X) = 5X p i x i =0.8 0+0.39 +0.4 +0.4 3+0.04
LisätiedotT DATASTA TIETOON
TKK / Informaatiotekniikan laboratorio Syyslukukausi, periodi II, 2007 Erkki Oja, professori, ja Heikki Mannila, akatemiaprofessori: T-61.2010 DATASTA TIETOON TKK, Informaatiotekniikan laboratorio 1 JOHDANTO:
LisätiedotHahmontunnistuksen perusteet T-61.231, 3ov, L Syksy 2002. Harjoitustyö: Matti Aksela
Hahmontunnistuksen perusteet T-61.231, 3ov, L Syksy 2002 Luennot: Laskuharjoitukset: Harjoitustyö: Vuokko Vuori Markus Koskela Matti Aksela 1. FOREIGN STUDENTS................... 7 2. YLEISTÄ KURSSISTA....................
LisätiedotKaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat
1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy
LisätiedotHAHMONTUNNISTUKSEN PERUSTEET
HAHMONTUNNISTUKSEN PERUSTEET T-61.3020, 4 op., Kevät 2007 Luennot: Laskuharjoitukset: Harjoitustyö: Erkki Oja Tapani Raiko Matti Aksela TKK, Informaatiotekniikan laboratorio 1 FOREIGN STUDENTS Lectures
LisätiedotHAHMONTUNNISTUKSEN PERUSTEET
HAHMONTUNNISTUKSEN PERUSTEET T-61.3020, 4 op., Kevät 2008 Luennot: Laskuharjoitukset: Harjoitustyö: Erkki Oja Elia Liiitiäinen Elia Liitiäinen TKK, Tietojenkäsittelytieteen laitos 1 FOREIGN STUDENTS Lectures
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101,
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN
LisätiedotNormaalijakaumasta johdettuja jakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma
LisätiedotBayesilainen päätöksenteko / Bayesian decision theory
Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotNeuroverkkojen soveltaminen vakuutusdatojen luokitteluun
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu
10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2
LisätiedotTämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu
Tämän luvun sisältö Luku 6. T-6. Datasta tietoon, syksy professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 7.. Tämä luku käydään kahdella luennolla: ensimmäisellä luokittelu ja toisella
LisätiedotYhteistyötä sisältämätön peliteoria jatkuu
Yhteistyötä sisältämätön peliteoria jatkuu Tommi Lehtonen Optimointiopin seminaari - Syksy 2000 / 1 Bayesilainen tasapaino Täysi informaatio Vajaa informaatio Staattinen Nash Bayes Dynaaminen Täydellinen
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS AI-TUTKIJAN URANÄKYMIÄ AJATUSTENLUKUA COMPUTER VISION SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA MUUTTUJIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
LisätiedotTilastotieteen aihehakemisto
Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet
LisätiedotTodennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1
Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen
LisätiedotMallipohjainen klusterointi
Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio
Lisätiedot11. laskuharjoituskierros, vko 15, ratkaisut
11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotJohdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin
LisätiedotEsimerkkejä vaativuusluokista
Esimerkkejä vaativuusluokista Seuraaville kalvoille on poimittu joitain esimerkkejä havainnollistamaan algoritmien aikavaativuusluokkia. Esimerkit on valittu melko mielivaltaisesti laitoksella tehtävään
LisätiedotEstimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
Lisätiedot1. LINEAARISET LUOKITTIMET
1. LINEAARISET LUOKITTIMET Edellisillä luennoilla tarkasteltiin luokitteluongelmaa tnjakaumien avulla ja esiteltiin menetelmiä, miten tarvittavat tnjakaumat voidaan estimoida. Tavoitteena oli löytää päätössääntö,
LisätiedotTilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
LisätiedotTutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
Lisätiedotχ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut
Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita
LisätiedotTentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence
Tentin materiaali Sivia: luvut 1,2,3.1-3.3,4.1-4.2,5 MacKay: luku 30 Gelman, 1995: Inference and monitoring convergence Gelman & Meng, 1995: Model checking and model improvement Kalvot Harjoitustyöt Tentin
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotMONISTE 2 Kirjoittanut Elina Katainen
MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi
Lisätiedot30A02000 Tilastotieteen perusteet
30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Satunnaismuuttujat ja todennäköisyysjakaumat Mitä tänään? Jos satunnaisilmiötä halutaan mallintaa matemaattisesti, on ilmiön tulosvaihtoehdot kuvattava numeerisessa muodossa. Tämä tapahtuu liittämällä
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
Lisätiedot6. laskuharjoitusten vastaukset (viikot 10 11)
6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287
LisätiedotKertausluento. Tilastollinen päättely II - 2. kurssikoe
Kertausluento Tilastollinen päättely II - 2. kurssikoe Yleistä tietoa TP II -2. kurssikokeesta 2. kurssikoe maanantaina 6.5.2019 klo 12.00-14.30 jossakin Exactumin auditoriossa Kurssikokeeseen ilmoittaudutaan
Lisätiedotriippumattomia ja noudattavat samaa jakaumaa.
12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta
LisätiedotTEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)
JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.
Lisätiedot/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla
16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
LisätiedotP(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotLisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia
Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
LisätiedotMallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL
Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän
LisätiedotJuuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty
Juuri 0 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty 9..08 Kertaus K. a) Alapaineiden pienin arvo on ja suurin arvo 74, joten vaihteluväli on [, 74]. b) Alapaineiden keskiarvo on 6676870774
LisätiedotInversio-ongelmien laskennallinen peruskurssi Luento 2
Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)
LisätiedotE. Oja ja H. Mannila Datasta Tietoon: Luku 6
6. HAHMONTUNNISTUKSEN PERUSTEITA 6.1. Johdanto Hahmontunnistus on tieteenala, jossa luokitellaan joitakin kohteita niistä tehtyjen havaintojen perusteella luokkiin Esimerkki: käsinkirjoitettujen numeroiden,
Lisätiedothttps://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014
1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
LisätiedotJos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden
1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella
LisätiedotSGN-2500: Johdatus hahmontunnistukseen. Jussi Tohka Tampereen teknillinen yliopisto Signaalinkäsittelyn laitos 2006-2012
SGN-2500: Johdatus hahmontunnistukseen Jussi Tohka Tampereen teknillinen yliopisto Signaalinkäsittelyn laitos 2006-2012 24. helmikuuta 2012 ii Esipuhe Tämä moniste on syntynyt vuosina 2003 ja 2004 TTY:llä
LisätiedotJatkuvat satunnaismuuttujat
Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
Lisätiedot/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla
17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotKarteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21
säilyy Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla c b a 1 2 3 5 1 / 21 säilyy Esimerkkirelaatio R = {(1, b), (3, a), (5, a), (5, c)} c b a 1
Lisätiedot1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
Lisätiedot7.4 Sormenjälkitekniikka
7.4 Sormenjälkitekniikka Tarkastellaan ensimmäisenä esimerkkinä pitkien merkkijonojen vertailua. Ongelma: Ajatellaan, että kaksi n-bittistä (n 1) tiedostoa x ja y sijaitsee eri tietokoneilla. Halutaan
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 14. syyskuuta 2007 Antti Rasila () TodB 14. syyskuuta 2007 1 / 21 1 Kokonaistodennäköisyys ja Bayesin kaava Otosavaruuden ositus Kokonaistodennäköisyyden
LisätiedotMTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)
21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.
LisätiedotTilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
LisätiedotEsimerkki: Tietoliikennekytkin
Esimerkki: Tietoliikennekytkin Tämä Mathematica - notebook sisältää luennolla 2A (2..26) käsitellyn esimerkin laskut. Esimerkin kuvailu Tarkastellaan yksinkertaista mallia tietoliikennekytkimelle. Kytkimeen
Lisätiedot