Datanäytteiden piirteiden skaalaus/normalisointi (1)

Koko: px
Aloita esitys sivulta:

Download "Datanäytteiden piirteiden skaalaus/normalisointi (1)"

Transkriptio

1 Datanäytteiden piirteiden skaalaus/normalisointi (1) Datamassat, jotka syötetään samankaltaisuuksia useamman kuin yhden piirteen pohjalta hyödyntäviin koneoppimismenetelmiin, voivat tarvita esikäsittelykseen skaalauksen tai normalisoinnin mm. knn luokittelu ja ryvästysmenetelmät esimerkki: tarkastellaan seuraavia lääketieteellisesti näytteistä laskettuja piirteitä ja niille laskettuja L2 ja L1 normien mukaisia keskinäisiä etäisyyksiä Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre L2 Näemme, että suurimman arvoalueen piirre 4 dominoi laskennassa, vaikka ei selvästi erottelekaan näytteitä yhtä tehokkaasti kuin pienimmän arvoalueen piirre3 päätämme skaalata kunkin piirteen: näyte i _piirre s = (näyte i _piirre a min(piirre))/(max(piirre) min(piirre)) Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre 4 1 1,00 0,00 1,00 0,98 2 0,00 0,72 0,75 0,00 3 0,36 1,00 0,00 1,00 Toteamme, että skaalauksen jälkeen näytettä 3 lähin oleva näyte muuttui! L L L Datanäytteiden piirteiden skaalaus/normalisointi (2) Skaalaus välille [0,1] näyte i _piirre s = (näyte i _piirre a min(piirre))/(max(piirre) min(piirre)) ongelmana on poikkeavien näytteiden (outliers) aiheuttava varsinaisten luokkanäytteiden hajonnan pieneneminen ja tätä kautta luokkaerottelun mahdollinen heikentyminen Yksikkövektorisnormalisointi skaalataan kukin piirrevektori yksikön mittaiseksi näyte i _piirre s = näyte i _piirre a /(näytevektorin pituus) pituus voi olla euklidinen tai city block, tms. suosittu monissa koneoppimisalgoritmeissa

2 Datanäytteiden piirteiden skaalaus/normalisointi (3) Keskiarvon normalisointi = jokaisen piirteen keskiarvo nollataan näyte i _piirre s = (näyte i _piirre a keskiarvo(piirre))/(max(piirre) min(piirre)) Jakauman normalisointi = jokaisen piirteen keskiarvo asetetaan nollaan ja varianssiksi 1 (siis kunkin piirteen jakauman parametreiksi = 0 ja 2 = 1) tarpeellinen esikäsittely mm. neuraalilaskennassa, perceptroneissa ja hyödyllinen mm. logistisessa regressiossa ja tukivektorikoneissa (SVM) = 0, 2 = 1 = 0, 2 = 1 Datanäytteiden piirteiden skaalaus/normalisointi (4) Esikäsittelytapojen soveltuvuus riippuu datasta on tavallista testata datalle useampaa kuin yhtä esikäsittelymenetelmää tarkastellaan seuraavaa lääketieteellistä dataa, joka on esimerkkinä esikäsitelty kahdella tavalla, skaalaten ja yksikkövektorinormalisoinnilla Skaalaamattomat/normalisoimattomat Skaalatut Yksikkövektorinormalisoidut Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre 4 Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre 4 Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre ,99 0,19 0,18 0,97 1 0,06 0,04 0,01 1, ,40 0,03 0,08 0,37 2 0,06 0,03 0,01 1, ,70 0,24 0,03 0,71 3 0,06 0,07 0,00 1, ,07 0,00 0,00 0,00 4 0,08 0,11 0,01 0, ,74 0,85 0,72 0,58 5 0,07 0,26 0,06 0, ,30 0,71 0,75 0,24 6 0,06 0,44 0,11 0, ,00 0,22 0,19 1,00 7 0,06 0,05 0,01 1, ,53 0,10 0,08 0,42 8 0,07 0,06 0,01 1, ,74 0,30 0,04 0,72 9 0,06 0,08 0,00 0, ,14 0,05 0,01 0, ,14 0,24 0,01 0, ,76 1,00 0,83 0, ,07 0,30 0,06 0, ,39 0,87 0,97 0, ,07 0,47 0,13 0, ,00 0,40 0,19 0, ,00 0,09 0,01 1, ,00 0,22 0,17 0, ,00 0,10 0,02 0, ,02 0,25 0,03 0, ,00 0,08 0,00 1, ,00 0,04 0,01 0, ,00 0,22 0,02 0, ,01 1,00 1,00 0, ,00 0,29 0,07 0, ,00 0,92 0,81 0, ,00 0,47 0,10 0,

3 Datanäytteiden piirteiden skaalaus/normalisointi (5) Tarkastellaan eräitä edellisen sivun skaalausten ns. scatter plot graafeja valituille piirrepareille datan rakenteiden karkean tarkastelun motiivilla toteamme tuloksissa mahdollisia luokkarakenteita poikkeavasti paljastavia eroja huom. myöhemmin dimensionaalisuuden vähennystekniikoiden yhteydessä ei rajoituta pelkkiin piirrepareihin Skaalaus Yksikkövektorinormalisointi Datanäytteiden piirteiden skaalaus/normalisointi (6) Skaalausta/normalisointia eivät välttämättä tarvita, jos käytössä naivi Bayesin luokittelu, päätöspuut, satunnaismetsät, ja tietyin edellytyksin yhdistelmäluokittelija regressiomenetelmät eivät välttämättä edellytä skaalausta/normalisointia toisaalta toteutussyistä niidenkin syötteet voi olla järkevää skaalatatai normalisoida Yleinen kardinaalimunaus esikäsittelyn käytössä on normalisoida/skaalata suunnitteluprosessin alussa koko käytettävissäoleva näytedata ennen jakamista opetus, validointi ja testijoukkoihin Oikea menettely on tehdä ensin jako opetus, validointi ja testijoukkoihin ja määrittää sitten skaalaus/normalisointitekijät pelkästään opetusdatasta ja käyttää tätä tietoa sitten validointi ja testijoukkoihin

4 Ohjaamaton oppiminen & ryvästys & dimensioiden vähentäminen (1) Usein törmätään tilanteisiin, joissa ei ole olemassa valmiiksi luokiteltua opetusdataa tai tietoa mahdollisesta luokkarakenteesta jos luokkien määrästä on jokin käsitys, ryvästysmenetelmillä voidaan yrittää jaotella data samankaltaisten näytteiden klustereihin jos datan rakenne on arvoitus, sen selvittämiseen voi lähteä dimensioiden pudotusmenetelmin, jotka tukevat visualisointia koneoppimisongelma tieto luokista tai selitettävästä muuttujasta ei tietoa luokista, mutta rakennetieto olisi hyödyksi ohjatun oppimisen ongelma ohjaamattoman oppimisen ongelma kategorioiden lukumäärästä edes jokin tieto...datassa saattaa olla edes jotain rakenteellisuutta klusterointiongelma dimensioiden pudotusongelma Ohjaamaton oppiminen & ryvästys & dimensioiden vähentäminen (2) Ryvästys on tärkeä ohjaamattoman oppimisen menetelmäjoukko, sillä vaikka syvät neuroverkot ovat erinomaisia luokittelussa, niin ryvästyksessä niihin pohjautuvat ratkaisut eivät ole (ainakaan vielä) menestyneet, ja tuollaiset ratkaisut ovat vahvasti lainanneet vakiintuneista ryvästysratkaisuista Dimensioiden vähentämisen ja ryvästyksen ero ryvästyksen motiivi on datan rakenteiden paljastaminen dimensioiden vähentämisen tarkoituksena on korkeadimensioisen datan kuvaaminen pienempään määrään dimensioita säilyttäen datan rakennetieto: käyttö usein ryvästystä edeltävänä askeleena Dimensioiden vähentämisen perusteena on havainto, että korkeadimensioinen näytedata ei sijaitse satunnaisesti data avaruudessa, vaan on rakenteista korkeadimensioinen piirrevektori alempidimensioinen piirrevektori

5 Ryvästys (1) Koneoppimisen yhteydessä ryvästystä käytetään tutkivana menettelynä, jolla nähdään, mitä näytteistöstä paljastuu sovelluksia mm. suositteluratkaisuissa, markkinatutkimuksissa, sosiaalisten verkostojen analysoinnissa (ja hyödyntämisessä), hakukoneissa, lääketieteen kuva analyyseissa, yms. Tuloksiin vaikuttavat mm. datan esitystapa/käytetyt piirteet (ääretön määrä tarjolla) käytetty etäisyysmitta (muutama vaihtoehto yleisesti käytössä) ryvästysalgoritmi (tarjolla > ) Mikä ratkaisee, onko jokin alla olevista oikeampi kuin jokin muu? oletettu kaksi luokkaa oletettu viisi luokkaa oletettu kymmenen luokkaa Ryvästys (2) Ryvästysongelman ratkaisussa valittavana on 1. esitystapa, esim. piirteet, jotka kuvaavat ongelmaan liittyviä seikkoja mitä suurempaan piirteiden määrään päädytään, sitä enemmän datanäytteitä tarvitaan ryvästysalgoritmien onnistuneeseen toimintaan etäisyysmitta, jonka avulla arvioidaan näytteiden samankaltaisuutta etäisyysmitan haasteena voivat olla eri piirteiden vaihtelevat dynamiikat, esim. jos näytteiden massat vaihtelevat välillä 0 512g, volyymit m 3, ja reikien lukumäärät 0 3, tarvitaan skaalausta (yhteismitallistamista), jotta suurimman arvoalueen piirre ei dominoi 3. ryvästyskriteeri, joka vastaa ymmärrystä näytedatan rakenteista juovaklusterit, ympyrät, kehärakenteet,... katso esimerkkejä alla ihmisen tulkinnan kannalta mahdollisesti järkevistä ryvästyksistä 4. ryvästysalgoritmi, joka sopii tarkasteltavalle ongelmalle ja näytedatalle 5. onnistumismittari, jonka avulla ryvästysongelman ratkaisuun liittyvää iterointia voidaan automatisoida

6 Ryvästys (3) Etäisyysmitalla voi sovelluksessa olla aivan keskeinen merkitys alla käytetyt piirteet on skaalattu eri kerroilla hieman poikkeavasti olisiko ryvästyksessä käytettyä etäisyysmittaa myös muutettava? jos on, niin mistä sellainen tieto tulee? Ryvästysmenetelmät löytävät ryppäitä myös silloin, kun niitä ei välttämättä ole on olemassa keinoja arvioida, onko tulos sattuman tuotosta vai ei Myös ihmisellä on taipumus nähdä ryppäitä miltei missä datassa hyvänsä oikealla Oulun omakotitalokauppojen neliöhinnat 2017 vs. rakennusvuodet Neliöhinta Ryvästys (4) Esimerkkejä ryvästysongelmista kauppa etukorttiasiakkaiden ryhmittely aiemman asiointihistoriansa perusteella markkinointikampanjoiden kohteiksi autovakuutusasiakkaiden vakuutushinnoittelu tuotteiden sijoittelu mitatun ostoskäyttäytymisen mukaisesti lääketiede poikkeavien näytteiden tai henkilöiden tunnistaminen kudosnäytteiden ryhmittely Teollisuus ja logistiikka kunnossapidon signaalianalytiikka: poikkeamien havaitseminen tilausten ryhmittely kuljetuksiin koulutus poikkeamien tunnistus toimenpiteitä varten erään sovelluksen koneellisesti analysoitava data ihmisystävällinen demonstraatio

7 Ryvästys (5) Ryvästysmenetelmät jakavat datanäytteet ryhmiin, joiden sisällä ne ovat samankaltaisempia, kuin niiden välillä Ryvästysmenetelmille on useita kategorisointeja, joita voi käyttää valittaessa menetelmää sopimaan käsillä olevaan ongelmaan hierarkkiset ja osittavat menetelmät: näytteistön ryppäiden lukumäärä on pohjatasolla näytteiden määrä tai annettu etukäteen (esim k=7) yksikäsitteiset ja sumeat menetelmät: näyte voi kuulua vain yhteen tai useaan ryppääseen kerrallaan (näytteen todennäköisyys kuulua kuhunkin klusteriin on 1 tai välillä [0,1]) Miten tahansa menetellään, tyvästämisen jälkeen tarvitaan aina tarkastelu ovatko saadut ryppäät sattuman tuotosta vai todellisia rakenteita? onko ryppäiden lukumäärä sovelluksen kannalta järkeenkäypä? voisiko ryvästystulos olla jotenkin parempi? Oikealla k means (k=2) ryvästyksen tulos kahdelle autolle talvelta , kun piirteet ovat olleet polttoaineen kulutus, ulkolämpötila liikkeelle lähdettäessä, matka aika ja matka, mutta ei autotietoa huom: neljä piirrettä, klusterointitulos projisoitu kaksiulotteiseen koordinaatistoon mistä tulos ehkä kertoo? Ryvästysmenetelmät ja näytedata (1) Ryväskeskusmenetelmät esim. k means ryvästys mittaa näytteiden samankaltaisuutta ryväksen keskustan suhteen iteratiivinen optimointi lähtien etukäteen ilmoitetusta ryväksien lukumäärästä soveltuvat suurille datamassoille, pienten näytemäärien kanssa riskaabeleita Hierarkkiset liittyvyysmenetelmät: data avaruudessa lähellä toisiaan sijaitsevat näytteet oletetaan samankaltaisemmiksi iterointi etenee joko data avaruuden pilkonnalla tai yhdistelemällä yksittäisistä näytteistä lähtien tuloksia helppo tulkita, mutta menettelyt skaalautuvat huonosti isoille datamassoille Bayesilaiset menetelmät esim. Gaussian mixture models ja expectation maximization menetelmä mitataan näytteiden todennäköisyyttä olla samasta jakaumasta otettuja ylisovittumisen vaaran vuoksi edellyttävät suuria näytemääriä

8 Ryvästysmenetelmät ja näytedata (2) K means menetelmä toimii karkeasti seuraavasti 1. valitaan ryväksien lukumäärä k 2. valitaan näytedatasta satunnaiset k näytettä ryväskeskustoiksi 3. kytke kukin näyte sitä lähinnä olevaan ryväskeskustaan 4. määritä uudet ryväskeskustat näytteiden keskiarvojen mukaisiksi 5. jos yksikin ryväskeskusta muuttui, siirry vaiheeseen 3 Alla piirteet ja, ja ryvästykseen k means menetelmällä valittu k=4; miksi kussakin tapauksessa on käynyt kuten on käynyt? Yksinkertainen k means esimerkki 0. annettuna data [ ] 1. valitaan k=2, 2. valitaan satunnaisesti ryväskeskustoiksi m 1 = 6 ja m 2 = kytketään datanäytteet lähimpiin ryväskeskustoihinsa R 1 = [ ] ja R 2 = [ ] 4. uudet ryväskeskustat keskiarvoina m 1 = 7 ja m 2 = todetaan ryväskeskustan muuttuneen, joten askeleeseen 3 3. kytketään datanäytteet lähimpiin ryväskeskustoihinsa R 1 = [ ] ja R 2 = [ ] 4. uudet ryväskeskustat keskiarvoina m 1 = 7 ja m 2 = todetaan ryväskeskustan pysyneen ennallaan, joten ryvästys on valmis

9 Ryvästysmenetelmät ja näytedata (3) Hierarkkinen klusterointi voi toimia esim. seuraavasti 1. valitaan jokainen näyte omaksi ryppääkseen, joten n:n näytteen joukosta saadaan n ryvästä 2. haetaan valitulle ryppäälle samankaltaisuusmitan avulla lähin rypäs 3. yhdistetään ryppäät 4. jos jäljellä on yli yksi ryväs, mennään askeleeseen 2 Tulos voi näyttää esim. tältä, toki riippuen valitusta ryvästyksen tasosta yleensä hminen arvioi. ns. dendrogrammi Yksinkertainen hierarkkisen ryvästyksen esimerkki 0. annettuna data ensimmäiset ryppäät [2] [3] [4] [6] [8] [10] [11] [12] [20] [24] [25] 2. valitaan tarkasteltavaksi [12]; sitä lähin on [11] 3. nyt ryppäät ovat [2] [3] [4] [6] [8] [10] [11 12] [20] [24] [25] 4. ryppäälle [11 12] lähin on [10], ja yhdistetään 5. nyt ryppäät ovat [2] [3] [4] [6] [8] [ ] [20] [24] [25] Seuraavat askeleet [2] [3] [4] [6] [ ] [20] [24] [25] [2] [3] [4] [ ] [20] [24] [25] [2] [3] [ ] [20] [24] [25] [2] [ ] [20] [24] [25] [ ] [20] [24] [25] [ ] [20] [24 25] [ ] [ ] [ ] Sekvenssi on helppo visualisoida

10 Ryvästysmenetelmät ja näytedata (4) Poikkeavat havainnot (outliers) toisinaan jopa yksittäiset näytteet tai muutaman datanäytteen joukot voivat vaikuttaa ryvästykseen dramaattisesti; esim. k means ryvästyksessä jokainen piste vaikuttaa yhtäläisesti ryväskeskustan laskennassa tällöin on analysoitava, vaikuttaako näytteiden poikkeavuuteen jokinongelma esitystavassa, esim. puuttuuko jokin olennainen piirre hyvän selityksen löytyessä korjattu tai uusi piirre voidaan kytkeä ryvästykseen tai outlier näytteet voidaan eliminoida materiaalista, mutta sellaisia saattaa tulla vastaan myöhemmin luokittelussa, mikä voi olla ikävä vanha tuttavuus... huom: outlier analyysi on oma alansa outlier näytteet voivat vaikuttaa merkittävästi esim. luokittelijan opetusmateriaalin virheisiin Mihin ryppääseen nämä näytteet olisi sijoitettava? ihmiselle helposti tulkittava tapaus voi olla vaikea k means ryvästyselle Ryvästysmenetelmät ja näytedata (5) k means ja hierarkkisen ryvästyksen keskeinen 1. toteutusero K means ryvästyksen laskennallinen kompleksisuus on O(n) eli lineaarinen skaalautuu suoraan aineiston määrään verrannollisesti hierarkkisen ryvästyksen laskennallinen kompleksisuus on O(n 2 ) eli kvadraattinen näytemäärän kaksinkertaistuminen nelinkertaistaa laskennan 2. tulosero K means ryvästyksen alkaessa satunnaisvalinnalla eri suorituskertojen tulokset voivat erota toisistaan hierarkkisen ryvästyksen lopputulos on sama Yhteisenä piirteenä on, että yhdenkin näytteen lisääminen tai poistaminen saattaa vaikuttaa lopputulokseen merkittävästi Ihmisellä on taipumus nähdä ryppäitä 1500 miltei missä datassa hyvänsä 1000 oikealla Oulun omakotitalokauppojen 500 neliöhinnat 2017 vs. rakennusvuodet 0 Neliöhinta

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

Luentorunko keskiviikolle Hierarkkinen ryvästäminen Luentorunko keskiviikolle 3.12.2008 Hierarkkinen ryvästäminen Ryvästyshierarkia & dendrogrammi Hierarkkinen ryvästäminen tuottaa yhden ryvästyksen sijasta sarjan ryvästyksiä Tulos voidaan visualisoida

Lisätiedot

Luentorunko perjantaille

Luentorunko perjantaille Luentorunko perjantaille 28.11.28 Eräitä ryvästyksen keskeisiä käsitteitä kustannusfunktio sisäinen vaihtelu edustajavektori etäisyysmitta/funktio Osittamiseen perustuva ryvästys (yleisesti) K:n keskiarvon

Lisätiedot

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:

Lisätiedot

Hierarkkinen ryvästäminen

Hierarkkinen ryvästäminen Hierarkkinen ryvästäminen Juho Rousu Laskennallinen Data-Analyysi I, 20.2.2008 Ryvästyshierarkia & dendrogrammi Hierakkiset ryvästysmenetelmien tulos voidaan visualisoida nk. dendrogrammipuuna Puun lehtinä

Lisätiedot

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II Laskennallinen data-analyysi II Ella Bingham, ella.bingham@cs.helsinki.fi Kevät 2008 Muuttujien valinta Kalvot perustuvat Saara Hyvösen kalvoihin 2007 Laskennallinen data-analyysi II, kevät 2008, Helsingin

Lisätiedot

Tekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.

Tekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta. Tekstuurintunnistuksen lyhyt oppimäärä Ts. pari tapaa erottaa tiiliseinä pensaasta. Mitä on tekstuuri? Vaikea määritellä, mutta: Pintakuvio Ornamentti tuntu kuviointi Miksi tämän pitäisi kiinnostaa? (Maantienmerkkausrobotti)

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

Tiedonlouhinta ja sen mahdollisuudet

Tiedonlouhinta ja sen mahdollisuudet Tiedonlouhinta ja sen mahdollisuudet Henry Joutsijoki Sisältö Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus Alustusta Nyky-yhteiskunnassamme käsitteet tehokkuus, nopeus,

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Avainsanojen poimiminen Eeva Ahonen

Avainsanojen poimiminen Eeva Ahonen Avainsanojen poimiminen 5.10.2004 Eeva Ahonen Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Ohjattu oppiminen & regressio ja. luokitteluongelma

Ohjattu oppiminen & regressio ja. luokitteluongelma ongelma Ohjattu oppiminen & regressio ja luokitteluongelmat Ongelmanratkaisussa kannattaa yleensä käyttää kaikki tarjolla oleva tieto, jos sitä on vähentää opetusdatan tarvetta, voi johtaa tehokkaisiin

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Mallipohjainen klusterointi

Mallipohjainen klusterointi Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio

Lisätiedot

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat 1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI Ohjaamattomassa oppimisessa on tavoitteena muodostaa hahmoista ryhmiä, klustereita, joiden sisällä hahmot ovat jossain mielessä samankaltaisia ja joiden välillä

Lisätiedot

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015 Aureolis Oy Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015 TDWI 18.10.2016 24.10.2016 Alkon valikoimanhallinnan uudistus Kesäkuussa 2015 käyttöönotettu uudistus, jonka myötä myymälöiden

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

Tilastotieteen aihehakemisto

Tilastotieteen aihehakemisto Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet

Lisätiedot

ALGORITMIT & OPPIMINEN

ALGORITMIT & OPPIMINEN ALGORITMIT & OPPIMINEN Mitä voidaan automatisoida? Mikko Koivisto Avoimet aineistot tulevat Tekijä: Lauri Vanhala yhdistä, kuvita, selitä, ennusta! Tekijä: Logica Mitä voidaan automatisoida? Algoritmi

Lisätiedot

Poikkeavuuksien havainnointi (palvelinlokeista)

Poikkeavuuksien havainnointi (palvelinlokeista) Poikkeavuuksien havainnointi (palvelinlokeista) TIES326 Tietoturva 2.11.2011 Antti Juvonen Sisältö IDS-järjestelmistä Datan kerääminen ja esiprosessointi Analysointi Esimerkki Lokidatan rakenne Esikäsittely,

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Uolevin reitti. Kuvaus. Syöte (stdin) Tuloste (stdout) Esimerkki 1. Esimerkki 2

Uolevin reitti. Kuvaus. Syöte (stdin) Tuloste (stdout) Esimerkki 1. Esimerkki 2 Uolevin reitti Kuvaus Uolevi on ruudukon vasemmassa ylänurkassa ja haluaisi päästä oikeaan alanurkkaan. Uolevi voi liikkua joka askeleella ruudun verran vasemmalle, oikealle, ylöspäin tai alaspäin. Lisäksi

Lisätiedot

Ohjaamaton oppiminen. Juho Rousu. Laskennallinen Data-Analyysi I,

Ohjaamaton oppiminen. Juho Rousu. Laskennallinen Data-Analyysi I, Ohjaamaton oppiminen Juho Rousu Laskennallinen Data-Analyysi I, 13.-20.2.2008 Ohjaamaton vs. ohjattu oppiminen Tähän mennessä kurssilla on käsitelty ohjattua oppimista: tavoitteena ennustaa piirrettä y,

Lisätiedot

Tekoäly ja koneoppiminen metsävaratiedon apuna

Tekoäly ja koneoppiminen metsävaratiedon apuna Tekoäly ja koneoppiminen metsävaratiedon apuna Arbonaut Oy ja LUT University 26. marraskuuta 2018 Metsätieteen päivä 2018 Koneoppimisen kohteena ovat lukujen sijasta jakaumat Esimerkki 1 Koneoppimisessa

Lisätiedot

Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala

Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala Tekoäly tukiäly Eija Kalliala, Marjatta Ikkala 29.11.2018 Mitä on tekoäly? Unelma koneesta, joka ajattelee kuin ihminen Hype-sana, jota kuulee joka paikassa Väärinymmärretty sana -> vääriä odotuksia, pelkoja

Lisätiedot

Bayesilainen päätöksenteko / Bayesian decision theory

Bayesilainen päätöksenteko / Bayesian decision theory Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena

Lisätiedot

Ohjaamaton oppiminen. Marko Salmenkivi. Johdatus koneoppimiseen, syksy 2008

Ohjaamaton oppiminen. Marko Salmenkivi. Johdatus koneoppimiseen, syksy 2008 Ohjaamaton oppiminen Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko keskiviikolle 26.11.2008 Ohjaamaton oppiminen Mikä erottaa ohjatusta oppimisesta? Esimerkkejä Johdattelua ryvästämiseen

Lisätiedot

DOB valmennus Data-analyysi. Esiprosessointi Jyrki Rasku cc by by/4.0/deed.

DOB valmennus Data-analyysi. Esiprosessointi Jyrki Rasku cc by by/4.0/deed. DOB valmennus Data-analyysi Esiprosessointi 24.08.2017 Jyrki Rasku cc by 4.0 https://creativecommons.org/licenses/ by/4.0/deed.fi Data ja informaatio Data liittyy johonkin asiayhteyteen ja se saattaa sisältää

Lisätiedot

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor T-1.81 Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ti 8.4., 1:1-18: Klusterointi, Konekääntäminen. Versio 1. 1. Kuvaan 1 on piirretty klusteroinnit käyttäen annettuja algoritmeja. Sanojen

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS NEUROVERKOT TURINGIN KONE (TAI TAVALLINEN OHJELMOINTI) VAIN YKSI LASKENNAN MALLI ELÄINTEN HERMOSTOSSA LASKENTA ERILAISTA: - RINNAKKAISUUS - STOKASTISUUS (SATUNNAISUUS) - MASSIIVINEN

Lisätiedot

DOB valmennus Data-analyysi. Koneoppiminen. CC by

DOB valmennus Data-analyysi. Koneoppiminen. CC by DOB valmennus Data-analyysi Koneoppiminen CC by 4.0 30.08.2017 Datasta oivalluksia ja bisnestä Data-analytiikan menetelmien valmennusmateriaali Luentopäivän sisältö Johdanto Tiedonlouhinta Koneoppiminen

Lisätiedot

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen

Lisätiedot

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ] Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS NEUROVERKOT TURINGIN KONE (TAI TAVALLINEN OHJELMOINTI) VAIN YKSI LASKENNAN MALLI ELÄINTEN HERMOSTOSSA LASKENTA ERILAISTA: - RINNAKKAISUUS - STOKASTISUUS (SATUNNAISUUS) - MASSIIVINEN

Lisätiedot

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään

Lisätiedot

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi Tekoäly ja alustatalous Miten voit hyödyntää niitä omassa liiketoiminnassasi AI & Alustatalous AI Digitaalisuudessa on 1 ja 0, kumpia haluamme olla? Alustatalouden kasvuloikka Digitaalisen alustatalouden

Lisätiedot

Diskriminanttianalyysi I

Diskriminanttianalyysi I Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi

Lisätiedot

Klusteroinnin kyvyillä on rajansa

Klusteroinnin kyvyillä on rajansa Klusteroinnin kyvyillä on rajansa Dataa on monesti hyvin paljon, se on säännöllisesti korkeadimensioista ja vaikeasti hahmotettavalla tavalla rakenteista, jolloin klusterointi antaa helposti liki arvaukseen

Lisätiedot

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A) Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 017 Insinöörivalinnan matematiikan koe 30..017, Ratkaisut (Sarja A) 1. a) Lukujen 9, 0, 3 ja x keskiarvo on. Määritä x. (1 p.) b) Mitkä reaaliluvut

Lisätiedot

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus SAS Forum Helsinki

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus SAS Forum Helsinki Aureolis Oy Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015 SAS Forum Helsinki 1.10.2015 22.10.2015 Alkon valikoimanhallinnan uudistus Kesäkuussa 2015 käyttöönotettu uudistus, jonka

Lisätiedot

Käytännön näkökulmia Zonationin hyödyntämiseen

Käytännön näkökulmia Zonationin hyödyntämiseen MetZo 2010-2014: Käytännön näkökulmia Zonationin hyödyntämiseen Joona Lehtomäki Helsingin yliopisto, SYKE MetZo-seminaari 30.10.2014 Ekologisen päätösanalyysin prosessi 1 Tavoitteet ja suojeluarvon malli

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Ryhmittelyn perusperiaate Tästä lähdetään liikkeelle: Tähän pyritään: a b c bc d e f de def bcdef abcdef monimuuttujamenetelmiin,

Lisätiedot

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Kevät 2003 Luennot: Timo Honkela, Krista Lagus Laskuharjoitukset: Vesa Siivola

Kevät 2003 Luennot: Timo Honkela, Krista Lagus Laskuharjoitukset: Vesa Siivola Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2003 Luennot: Timo Honkela, Krista Lagus Laskuharjoitukset: Vesa Siivola Luentokalvot: Krista Lagus ja Timo Honkela 13. Klusterointi..........................

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Koneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa

Koneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa Koneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa Metsätieteen päivä 26.11.2018 Jorma Laaksonen, vanhempi yliopistonlehtori

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS NEUROVERKOT TURINGIN KONE (TAI TAVALLINEN OHJELMOINTI) VAIN YKSI LASKENNAN MALLI ELÄINTEN HERMOSTOSSA LASKENTA ERILAISTA: - RINNAKKAISUUS - STOKASTISUUS (SATUNNAISUUS) - MASSIIVINEN

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Luento 9. June 2, Luento 9

Luento 9. June 2, Luento 9 June 2, 2016 Otetaan lähtökohdaksi, että sopimuksilla ei voida kattaa kaikkia kontingensseja/maailmantiloja. Yksi kiinnostava tapaus on sellainen, että jotkut kontingenssit ovat havaittavissa sopimusosapuolille,

Lisätiedot

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu Puumenetelmät Topi Sikanen Puumenetelmät Periaate: Hajota ja hallitse Jaetaan havaintoavaruus alueisiin. Sovitetaan kuhunkin alueeseen yksinkertainen malli (esim. vakio) Tarkastellaan kolmea mallia Luokittelu-

Lisätiedot

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. 1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? 1 / 14 Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 31.10.2011 2 / 14 Tämän luennon sisältö

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

1. TILASTOLLINEN HAHMONTUNNISTUS

1. TILASTOLLINEN HAHMONTUNNISTUS 1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,

Lisätiedot

Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia.

Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia. 1 Luokittelijan suorituskyvyn optimointi Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia. A. Piirteen valinnan menetelmiä

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101,

Lisätiedot

Tänään ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus laskarit. Ensi kerralla (11.3.)

Tänään ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus laskarit. Ensi kerralla (11.3.) Tänään ohjelmassa Kognitiivinen mallintaminen Neuraalimallinnus 26.2. Nelli Salminen nelli.salminen@helsinki.fi D433 autoassosiaatio, attraktorin käsite esimerkkitapaus: kolme eri tapaa mallintaa kategorista

Lisätiedot

Luokittelumenetelmät (6)

Luokittelumenetelmät (6) Luokittelumenetelmät (6) Luokittelu /päätöspuut ja satunnaismetsämenetelmä ovat erittäin suosittuja, sillä ovat helposti ymmärrettävissä ja luokittelupuut myös visualisoitavissa, toimivat luokka ja numeerisella

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

E. Oja ja H. Mannila Datasta Tietoon: Luku 2 2. DATASTA TIETOON: MITÄ DATAA; MITÄ TIETOA? 2.1. Data-analyysin ongelma Tulevien vuosien valtava haaste on digitaalisessa muodossa talletetun datan kasvava määrä Arvioita: Yhdysvaltojen kongressin kirjasto

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Kognitiivinen mallintaminen. Nelli Salminen

Kognitiivinen mallintaminen. Nelli Salminen Kognitiivinen mallintaminen Neuraalimallinnus 24.11. Nelli Salminen nelli.salminen@tkk.fi Tällä kerralla ohjelmassa vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko oppimissääntöjen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II Laskennallinen data-analyysi II Saara Hyvönen, Saara.Hyvonen@cs.helsinki.fi Kevät 2007 Muuttujien valinta Laskennallinen data-analyysi II, kevät 2007, Helsingin yliopisto Korkeiden ulottuvuuksien kirous

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

Batch means -menetelmä

Batch means -menetelmä S-38.148 Tietoverkkojen simulointi / Tulosten keruu ja analyysi 1(9) Batch means -menetelmä Batch means -menetelmää käytetään hyvin yleisesti Simulointi suoritetaan tässä yhtenä pitkänä ajona olkoon simuloinnin

Lisätiedot

TASAVIRTAPIIRI - VASTAUSLOMAKE

TASAVIRTAPIIRI - VASTAUSLOMAKE TASAVIRTAPIIRI - VASTAUSLOMAKE Ryhmä Tekijä 1 Pari Tekijä 2 Päiväys Assistentti Täytä mittauslomake lyijykynällä. Muista erityisesti virhearviot ja suureiden yksiköt! 4 Esitehtävät 1. Mitä tarkoitetaan

Lisätiedot

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5. 2. MS-A4/A6 Matriisilaskenta 2. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 5.9.25 Tarkastellaan esimerkkinä lineaarista yhtälöparia { 2x x 2 = x + x 2

Lisätiedot

Mitä on konvoluutio? Tutustu kuvankäsittelyyn

Mitä on konvoluutio? Tutustu kuvankäsittelyyn Mitä on konvoluutio? Tutustu kuvankäsittelyyn Tieteenpäivät 2015, Työohje Sami Varjo Johdanto Digitaalinen signaalienkäsittely on tullut osaksi arkipäiväämme niin, ettemme yleensä edes huomaa sen olemassa

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin) 1/10 Tehtävä 1 2 3 4 5 6 7 8 9 10 Yhteensä Pisteet (tarkastaja merkitsee) Kokeessa on kymmenen tehtävää, joista jokainen on erillisellä paperilla. Jokaisen tehtävän maksimipistemäärä on 6 pistettä. Ratkaise

Lisätiedot

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö) Tiedonlouhinta rakenteisista dokumenteista (seminaarityö) Miika Nurminen (minurmin@jyu.fi) Jyväskylän yliopisto Tietotekniikan laitos Kalvot ja seminaarityö verkossa: http://users.jyu.fi/~minurmin/gradusem/

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n)) Määritelmä: on O(g(n)), jos on olemassa vakioarvot n 0 > 0 ja c > 0 siten, että c g(n) kun n > n 0 O eli iso-o tai ordo ilmaisee asymptoottisen ylärajan resurssivaatimusten kasvun suuruusluokalle Samankaltaisia

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Johtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun

Johtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun Johtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun Jouni Räisänen Helsingin yliopiston fysiikan laitos 15.1.2010 Vuorokauden keskilämpötila Talvi 2007-2008

Lisätiedot

Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä. Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.

Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä. Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3. Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.2009 Tietosuoja - lähtökohdat! Periaatteena on estää yksiköiden suora

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet

Lisätiedot

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö Tällä kerralla ohjelmassa Kognitiivinen mallintaminen Neuraalimallinnus 19.2. Nelli Salminen nelli.salminen@helsinki.fi D433 vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko

Lisätiedot

Klusteroinnin kyvyillä on rajansa

Klusteroinnin kyvyillä on rajansa Klusteroinnin kyvyillä on rajansa 183 Dataa on monesti hyvin paljon, se on säännöllisesti korkeadimensioista ja vaikeasti hahmotettavalla tavalla rakenteista, jolloin klusterointi antaa helposti liki arvaukseen

Lisätiedot

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto Kynä-paperi -harjoitukset Taina Lehtinen 43 Loput ratkaisut harjoitustehtäviin 44 Stressitestin = 40 s = 8 Kalle = 34 pistettä Ville = 5 pistettä Z Kalle 34 8 40 0.75 Z Ville 5 8 40 1.5 Kalle sijoittuu

Lisätiedot