Datanäytteiden piirteiden skaalaus/normalisointi (1)
|
|
- Maija Pakarinen
- 5 vuotta sitten
- Katselukertoja:
Transkriptio
1 Datanäytteiden piirteiden skaalaus/normalisointi (1) Datamassat, jotka syötetään samankaltaisuuksia useamman kuin yhden piirteen pohjalta hyödyntäviin koneoppimismenetelmiin, voivat tarvita esikäsittelykseen skaalauksen tai normalisoinnin mm. knn luokittelu ja ryvästysmenetelmät esimerkki: tarkastellaan seuraavia lääketieteellisesti näytteistä laskettuja piirteitä ja niille laskettuja L2 ja L1 normien mukaisia keskinäisiä etäisyyksiä Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre L2 Näemme, että suurimman arvoalueen piirre 4 dominoi laskennassa, vaikka ei selvästi erottelekaan näytteitä yhtä tehokkaasti kuin pienimmän arvoalueen piirre3 päätämme skaalata kunkin piirteen: näyte i _piirre s = (näyte i _piirre a min(piirre))/(max(piirre) min(piirre)) Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre 4 1 1,00 0,00 1,00 0,98 2 0,00 0,72 0,75 0,00 3 0,36 1,00 0,00 1,00 Toteamme, että skaalauksen jälkeen näytettä 3 lähin oleva näyte muuttui! L L L Datanäytteiden piirteiden skaalaus/normalisointi (2) Skaalaus välille [0,1] näyte i _piirre s = (näyte i _piirre a min(piirre))/(max(piirre) min(piirre)) ongelmana on poikkeavien näytteiden (outliers) aiheuttava varsinaisten luokkanäytteiden hajonnan pieneneminen ja tätä kautta luokkaerottelun mahdollinen heikentyminen Yksikkövektorisnormalisointi skaalataan kukin piirrevektori yksikön mittaiseksi näyte i _piirre s = näyte i _piirre a /(näytevektorin pituus) pituus voi olla euklidinen tai city block, tms. suosittu monissa koneoppimisalgoritmeissa
2 Datanäytteiden piirteiden skaalaus/normalisointi (3) Keskiarvon normalisointi = jokaisen piirteen keskiarvo nollataan näyte i _piirre s = (näyte i _piirre a keskiarvo(piirre))/(max(piirre) min(piirre)) Jakauman normalisointi = jokaisen piirteen keskiarvo asetetaan nollaan ja varianssiksi 1 (siis kunkin piirteen jakauman parametreiksi = 0 ja 2 = 1) tarpeellinen esikäsittely mm. neuraalilaskennassa, perceptroneissa ja hyödyllinen mm. logistisessa regressiossa ja tukivektorikoneissa (SVM) = 0, 2 = 1 = 0, 2 = 1 Datanäytteiden piirteiden skaalaus/normalisointi (4) Esikäsittelytapojen soveltuvuus riippuu datasta on tavallista testata datalle useampaa kuin yhtä esikäsittelymenetelmää tarkastellaan seuraavaa lääketieteellistä dataa, joka on esimerkkinä esikäsitelty kahdella tavalla, skaalaten ja yksikkövektorinormalisoinnilla Skaalaamattomat/normalisoimattomat Skaalatut Yksikkövektorinormalisoidut Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre 4 Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre 4 Datanäyte Piirre 1 Piirre 2 Piirre 3 Piirre ,99 0,19 0,18 0,97 1 0,06 0,04 0,01 1, ,40 0,03 0,08 0,37 2 0,06 0,03 0,01 1, ,70 0,24 0,03 0,71 3 0,06 0,07 0,00 1, ,07 0,00 0,00 0,00 4 0,08 0,11 0,01 0, ,74 0,85 0,72 0,58 5 0,07 0,26 0,06 0, ,30 0,71 0,75 0,24 6 0,06 0,44 0,11 0, ,00 0,22 0,19 1,00 7 0,06 0,05 0,01 1, ,53 0,10 0,08 0,42 8 0,07 0,06 0,01 1, ,74 0,30 0,04 0,72 9 0,06 0,08 0,00 0, ,14 0,05 0,01 0, ,14 0,24 0,01 0, ,76 1,00 0,83 0, ,07 0,30 0,06 0, ,39 0,87 0,97 0, ,07 0,47 0,13 0, ,00 0,40 0,19 0, ,00 0,09 0,01 1, ,00 0,22 0,17 0, ,00 0,10 0,02 0, ,02 0,25 0,03 0, ,00 0,08 0,00 1, ,00 0,04 0,01 0, ,00 0,22 0,02 0, ,01 1,00 1,00 0, ,00 0,29 0,07 0, ,00 0,92 0,81 0, ,00 0,47 0,10 0,
3 Datanäytteiden piirteiden skaalaus/normalisointi (5) Tarkastellaan eräitä edellisen sivun skaalausten ns. scatter plot graafeja valituille piirrepareille datan rakenteiden karkean tarkastelun motiivilla toteamme tuloksissa mahdollisia luokkarakenteita poikkeavasti paljastavia eroja huom. myöhemmin dimensionaalisuuden vähennystekniikoiden yhteydessä ei rajoituta pelkkiin piirrepareihin Skaalaus Yksikkövektorinormalisointi Datanäytteiden piirteiden skaalaus/normalisointi (6) Skaalausta/normalisointia eivät välttämättä tarvita, jos käytössä naivi Bayesin luokittelu, päätöspuut, satunnaismetsät, ja tietyin edellytyksin yhdistelmäluokittelija regressiomenetelmät eivät välttämättä edellytä skaalausta/normalisointia toisaalta toteutussyistä niidenkin syötteet voi olla järkevää skaalatatai normalisoida Yleinen kardinaalimunaus esikäsittelyn käytössä on normalisoida/skaalata suunnitteluprosessin alussa koko käytettävissäoleva näytedata ennen jakamista opetus, validointi ja testijoukkoihin Oikea menettely on tehdä ensin jako opetus, validointi ja testijoukkoihin ja määrittää sitten skaalaus/normalisointitekijät pelkästään opetusdatasta ja käyttää tätä tietoa sitten validointi ja testijoukkoihin
4 Ohjaamaton oppiminen & ryvästys & dimensioiden vähentäminen (1) Usein törmätään tilanteisiin, joissa ei ole olemassa valmiiksi luokiteltua opetusdataa tai tietoa mahdollisesta luokkarakenteesta jos luokkien määrästä on jokin käsitys, ryvästysmenetelmillä voidaan yrittää jaotella data samankaltaisten näytteiden klustereihin jos datan rakenne on arvoitus, sen selvittämiseen voi lähteä dimensioiden pudotusmenetelmin, jotka tukevat visualisointia koneoppimisongelma tieto luokista tai selitettävästä muuttujasta ei tietoa luokista, mutta rakennetieto olisi hyödyksi ohjatun oppimisen ongelma ohjaamattoman oppimisen ongelma kategorioiden lukumäärästä edes jokin tieto...datassa saattaa olla edes jotain rakenteellisuutta klusterointiongelma dimensioiden pudotusongelma Ohjaamaton oppiminen & ryvästys & dimensioiden vähentäminen (2) Ryvästys on tärkeä ohjaamattoman oppimisen menetelmäjoukko, sillä vaikka syvät neuroverkot ovat erinomaisia luokittelussa, niin ryvästyksessä niihin pohjautuvat ratkaisut eivät ole (ainakaan vielä) menestyneet, ja tuollaiset ratkaisut ovat vahvasti lainanneet vakiintuneista ryvästysratkaisuista Dimensioiden vähentämisen ja ryvästyksen ero ryvästyksen motiivi on datan rakenteiden paljastaminen dimensioiden vähentämisen tarkoituksena on korkeadimensioisen datan kuvaaminen pienempään määrään dimensioita säilyttäen datan rakennetieto: käyttö usein ryvästystä edeltävänä askeleena Dimensioiden vähentämisen perusteena on havainto, että korkeadimensioinen näytedata ei sijaitse satunnaisesti data avaruudessa, vaan on rakenteista korkeadimensioinen piirrevektori alempidimensioinen piirrevektori
5 Ryvästys (1) Koneoppimisen yhteydessä ryvästystä käytetään tutkivana menettelynä, jolla nähdään, mitä näytteistöstä paljastuu sovelluksia mm. suositteluratkaisuissa, markkinatutkimuksissa, sosiaalisten verkostojen analysoinnissa (ja hyödyntämisessä), hakukoneissa, lääketieteen kuva analyyseissa, yms. Tuloksiin vaikuttavat mm. datan esitystapa/käytetyt piirteet (ääretön määrä tarjolla) käytetty etäisyysmitta (muutama vaihtoehto yleisesti käytössä) ryvästysalgoritmi (tarjolla > ) Mikä ratkaisee, onko jokin alla olevista oikeampi kuin jokin muu? oletettu kaksi luokkaa oletettu viisi luokkaa oletettu kymmenen luokkaa Ryvästys (2) Ryvästysongelman ratkaisussa valittavana on 1. esitystapa, esim. piirteet, jotka kuvaavat ongelmaan liittyviä seikkoja mitä suurempaan piirteiden määrään päädytään, sitä enemmän datanäytteitä tarvitaan ryvästysalgoritmien onnistuneeseen toimintaan etäisyysmitta, jonka avulla arvioidaan näytteiden samankaltaisuutta etäisyysmitan haasteena voivat olla eri piirteiden vaihtelevat dynamiikat, esim. jos näytteiden massat vaihtelevat välillä 0 512g, volyymit m 3, ja reikien lukumäärät 0 3, tarvitaan skaalausta (yhteismitallistamista), jotta suurimman arvoalueen piirre ei dominoi 3. ryvästyskriteeri, joka vastaa ymmärrystä näytedatan rakenteista juovaklusterit, ympyrät, kehärakenteet,... katso esimerkkejä alla ihmisen tulkinnan kannalta mahdollisesti järkevistä ryvästyksistä 4. ryvästysalgoritmi, joka sopii tarkasteltavalle ongelmalle ja näytedatalle 5. onnistumismittari, jonka avulla ryvästysongelman ratkaisuun liittyvää iterointia voidaan automatisoida
6 Ryvästys (3) Etäisyysmitalla voi sovelluksessa olla aivan keskeinen merkitys alla käytetyt piirteet on skaalattu eri kerroilla hieman poikkeavasti olisiko ryvästyksessä käytettyä etäisyysmittaa myös muutettava? jos on, niin mistä sellainen tieto tulee? Ryvästysmenetelmät löytävät ryppäitä myös silloin, kun niitä ei välttämättä ole on olemassa keinoja arvioida, onko tulos sattuman tuotosta vai ei Myös ihmisellä on taipumus nähdä ryppäitä miltei missä datassa hyvänsä oikealla Oulun omakotitalokauppojen neliöhinnat 2017 vs. rakennusvuodet Neliöhinta Ryvästys (4) Esimerkkejä ryvästysongelmista kauppa etukorttiasiakkaiden ryhmittely aiemman asiointihistoriansa perusteella markkinointikampanjoiden kohteiksi autovakuutusasiakkaiden vakuutushinnoittelu tuotteiden sijoittelu mitatun ostoskäyttäytymisen mukaisesti lääketiede poikkeavien näytteiden tai henkilöiden tunnistaminen kudosnäytteiden ryhmittely Teollisuus ja logistiikka kunnossapidon signaalianalytiikka: poikkeamien havaitseminen tilausten ryhmittely kuljetuksiin koulutus poikkeamien tunnistus toimenpiteitä varten erään sovelluksen koneellisesti analysoitava data ihmisystävällinen demonstraatio
7 Ryvästys (5) Ryvästysmenetelmät jakavat datanäytteet ryhmiin, joiden sisällä ne ovat samankaltaisempia, kuin niiden välillä Ryvästysmenetelmille on useita kategorisointeja, joita voi käyttää valittaessa menetelmää sopimaan käsillä olevaan ongelmaan hierarkkiset ja osittavat menetelmät: näytteistön ryppäiden lukumäärä on pohjatasolla näytteiden määrä tai annettu etukäteen (esim k=7) yksikäsitteiset ja sumeat menetelmät: näyte voi kuulua vain yhteen tai useaan ryppääseen kerrallaan (näytteen todennäköisyys kuulua kuhunkin klusteriin on 1 tai välillä [0,1]) Miten tahansa menetellään, tyvästämisen jälkeen tarvitaan aina tarkastelu ovatko saadut ryppäät sattuman tuotosta vai todellisia rakenteita? onko ryppäiden lukumäärä sovelluksen kannalta järkeenkäypä? voisiko ryvästystulos olla jotenkin parempi? Oikealla k means (k=2) ryvästyksen tulos kahdelle autolle talvelta , kun piirteet ovat olleet polttoaineen kulutus, ulkolämpötila liikkeelle lähdettäessä, matka aika ja matka, mutta ei autotietoa huom: neljä piirrettä, klusterointitulos projisoitu kaksiulotteiseen koordinaatistoon mistä tulos ehkä kertoo? Ryvästysmenetelmät ja näytedata (1) Ryväskeskusmenetelmät esim. k means ryvästys mittaa näytteiden samankaltaisuutta ryväksen keskustan suhteen iteratiivinen optimointi lähtien etukäteen ilmoitetusta ryväksien lukumäärästä soveltuvat suurille datamassoille, pienten näytemäärien kanssa riskaabeleita Hierarkkiset liittyvyysmenetelmät: data avaruudessa lähellä toisiaan sijaitsevat näytteet oletetaan samankaltaisemmiksi iterointi etenee joko data avaruuden pilkonnalla tai yhdistelemällä yksittäisistä näytteistä lähtien tuloksia helppo tulkita, mutta menettelyt skaalautuvat huonosti isoille datamassoille Bayesilaiset menetelmät esim. Gaussian mixture models ja expectation maximization menetelmä mitataan näytteiden todennäköisyyttä olla samasta jakaumasta otettuja ylisovittumisen vaaran vuoksi edellyttävät suuria näytemääriä
8 Ryvästysmenetelmät ja näytedata (2) K means menetelmä toimii karkeasti seuraavasti 1. valitaan ryväksien lukumäärä k 2. valitaan näytedatasta satunnaiset k näytettä ryväskeskustoiksi 3. kytke kukin näyte sitä lähinnä olevaan ryväskeskustaan 4. määritä uudet ryväskeskustat näytteiden keskiarvojen mukaisiksi 5. jos yksikin ryväskeskusta muuttui, siirry vaiheeseen 3 Alla piirteet ja, ja ryvästykseen k means menetelmällä valittu k=4; miksi kussakin tapauksessa on käynyt kuten on käynyt? Yksinkertainen k means esimerkki 0. annettuna data [ ] 1. valitaan k=2, 2. valitaan satunnaisesti ryväskeskustoiksi m 1 = 6 ja m 2 = kytketään datanäytteet lähimpiin ryväskeskustoihinsa R 1 = [ ] ja R 2 = [ ] 4. uudet ryväskeskustat keskiarvoina m 1 = 7 ja m 2 = todetaan ryväskeskustan muuttuneen, joten askeleeseen 3 3. kytketään datanäytteet lähimpiin ryväskeskustoihinsa R 1 = [ ] ja R 2 = [ ] 4. uudet ryväskeskustat keskiarvoina m 1 = 7 ja m 2 = todetaan ryväskeskustan pysyneen ennallaan, joten ryvästys on valmis
9 Ryvästysmenetelmät ja näytedata (3) Hierarkkinen klusterointi voi toimia esim. seuraavasti 1. valitaan jokainen näyte omaksi ryppääkseen, joten n:n näytteen joukosta saadaan n ryvästä 2. haetaan valitulle ryppäälle samankaltaisuusmitan avulla lähin rypäs 3. yhdistetään ryppäät 4. jos jäljellä on yli yksi ryväs, mennään askeleeseen 2 Tulos voi näyttää esim. tältä, toki riippuen valitusta ryvästyksen tasosta yleensä hminen arvioi. ns. dendrogrammi Yksinkertainen hierarkkisen ryvästyksen esimerkki 0. annettuna data ensimmäiset ryppäät [2] [3] [4] [6] [8] [10] [11] [12] [20] [24] [25] 2. valitaan tarkasteltavaksi [12]; sitä lähin on [11] 3. nyt ryppäät ovat [2] [3] [4] [6] [8] [10] [11 12] [20] [24] [25] 4. ryppäälle [11 12] lähin on [10], ja yhdistetään 5. nyt ryppäät ovat [2] [3] [4] [6] [8] [ ] [20] [24] [25] Seuraavat askeleet [2] [3] [4] [6] [ ] [20] [24] [25] [2] [3] [4] [ ] [20] [24] [25] [2] [3] [ ] [20] [24] [25] [2] [ ] [20] [24] [25] [ ] [20] [24] [25] [ ] [20] [24 25] [ ] [ ] [ ] Sekvenssi on helppo visualisoida
10 Ryvästysmenetelmät ja näytedata (4) Poikkeavat havainnot (outliers) toisinaan jopa yksittäiset näytteet tai muutaman datanäytteen joukot voivat vaikuttaa ryvästykseen dramaattisesti; esim. k means ryvästyksessä jokainen piste vaikuttaa yhtäläisesti ryväskeskustan laskennassa tällöin on analysoitava, vaikuttaako näytteiden poikkeavuuteen jokinongelma esitystavassa, esim. puuttuuko jokin olennainen piirre hyvän selityksen löytyessä korjattu tai uusi piirre voidaan kytkeä ryvästykseen tai outlier näytteet voidaan eliminoida materiaalista, mutta sellaisia saattaa tulla vastaan myöhemmin luokittelussa, mikä voi olla ikävä vanha tuttavuus... huom: outlier analyysi on oma alansa outlier näytteet voivat vaikuttaa merkittävästi esim. luokittelijan opetusmateriaalin virheisiin Mihin ryppääseen nämä näytteet olisi sijoitettava? ihmiselle helposti tulkittava tapaus voi olla vaikea k means ryvästyselle Ryvästysmenetelmät ja näytedata (5) k means ja hierarkkisen ryvästyksen keskeinen 1. toteutusero K means ryvästyksen laskennallinen kompleksisuus on O(n) eli lineaarinen skaalautuu suoraan aineiston määrään verrannollisesti hierarkkisen ryvästyksen laskennallinen kompleksisuus on O(n 2 ) eli kvadraattinen näytemäärän kaksinkertaistuminen nelinkertaistaa laskennan 2. tulosero K means ryvästyksen alkaessa satunnaisvalinnalla eri suorituskertojen tulokset voivat erota toisistaan hierarkkisen ryvästyksen lopputulos on sama Yhteisenä piirteenä on, että yhdenkin näytteen lisääminen tai poistaminen saattaa vaikuttaa lopputulokseen merkittävästi Ihmisellä on taipumus nähdä ryppäitä 1500 miltei missä datassa hyvänsä 1000 oikealla Oulun omakotitalokauppojen 500 neliöhinnat 2017 vs. rakennusvuodet 0 Neliöhinta
Luentorunko keskiviikolle Hierarkkinen ryvästäminen
Luentorunko keskiviikolle 3.12.2008 Hierarkkinen ryvästäminen Ryvästyshierarkia & dendrogrammi Hierarkkinen ryvästäminen tuottaa yhden ryvästyksen sijasta sarjan ryvästyksiä Tulos voidaan visualisoida
LisätiedotLuentorunko perjantaille
Luentorunko perjantaille 28.11.28 Eräitä ryvästyksen keskeisiä käsitteitä kustannusfunktio sisäinen vaihtelu edustajavektori etäisyysmitta/funktio Osittamiseen perustuva ryvästys (yleisesti) K:n keskiarvon
LisätiedotTEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)
JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:
LisätiedotHierarkkinen ryvästäminen
Hierarkkinen ryvästäminen Juho Rousu Laskennallinen Data-Analyysi I, 20.2.2008 Ryvästyshierarkia & dendrogrammi Hierakkiset ryvästysmenetelmien tulos voidaan visualisoida nk. dendrogrammipuuna Puun lehtinä
LisätiedotLaskennallinen data-analyysi II
Laskennallinen data-analyysi II Ella Bingham, ella.bingham@cs.helsinki.fi Kevät 2008 Muuttujien valinta Kalvot perustuvat Saara Hyvösen kalvoihin 2007 Laskennallinen data-analyysi II, kevät 2008, Helsingin
LisätiedotTekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.
Tekstuurintunnistuksen lyhyt oppimäärä Ts. pari tapaa erottaa tiiliseinä pensaasta. Mitä on tekstuuri? Vaikea määritellä, mutta: Pintakuvio Ornamentti tuntu kuviointi Miksi tämän pitäisi kiinnostaa? (Maantienmerkkausrobotti)
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
LisätiedotTiedonlouhinta ja sen mahdollisuudet
Tiedonlouhinta ja sen mahdollisuudet Henry Joutsijoki Sisältö Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus Alustusta Nyky-yhteiskunnassamme käsitteet tehokkuus, nopeus,
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotAvainsanojen poimiminen Eeva Ahonen
Avainsanojen poimiminen 5.10.2004 Eeva Ahonen Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
LisätiedotOhjattu oppiminen & regressio ja. luokitteluongelma
ongelma Ohjattu oppiminen & regressio ja luokitteluongelmat Ongelmanratkaisussa kannattaa yleensä käyttää kaikki tarjolla oleva tieto, jos sitä on vähentää opetusdatan tarvetta, voi johtaa tehokkaisiin
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotMallipohjainen klusterointi
Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio
LisätiedotKaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat
1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI Ohjaamattomassa oppimisessa on tavoitteena muodostaa hahmoista ryhmiä, klustereita, joiden sisällä hahmot ovat jossain mielessä samankaltaisia ja joiden välillä
LisätiedotAureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015
Aureolis Oy Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015 TDWI 18.10.2016 24.10.2016 Alkon valikoimanhallinnan uudistus Kesäkuussa 2015 käyttöönotettu uudistus, jonka myötä myymälöiden
LisätiedotNäistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +
LisätiedotNäistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =
LisätiedotTilastotieteen aihehakemisto
Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet
LisätiedotALGORITMIT & OPPIMINEN
ALGORITMIT & OPPIMINEN Mitä voidaan automatisoida? Mikko Koivisto Avoimet aineistot tulevat Tekijä: Lauri Vanhala yhdistä, kuvita, selitä, ennusta! Tekijä: Logica Mitä voidaan automatisoida? Algoritmi
LisätiedotPoikkeavuuksien havainnointi (palvelinlokeista)
Poikkeavuuksien havainnointi (palvelinlokeista) TIES326 Tietoturva 2.11.2011 Antti Juvonen Sisältö IDS-järjestelmistä Datan kerääminen ja esiprosessointi Analysointi Esimerkki Lokidatan rakenne Esikäsittely,
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotUolevin reitti. Kuvaus. Syöte (stdin) Tuloste (stdout) Esimerkki 1. Esimerkki 2
Uolevin reitti Kuvaus Uolevi on ruudukon vasemmassa ylänurkassa ja haluaisi päästä oikeaan alanurkkaan. Uolevi voi liikkua joka askeleella ruudun verran vasemmalle, oikealle, ylöspäin tai alaspäin. Lisäksi
LisätiedotOhjaamaton oppiminen. Juho Rousu. Laskennallinen Data-Analyysi I,
Ohjaamaton oppiminen Juho Rousu Laskennallinen Data-Analyysi I, 13.-20.2.2008 Ohjaamaton vs. ohjattu oppiminen Tähän mennessä kurssilla on käsitelty ohjattua oppimista: tavoitteena ennustaa piirrettä y,
LisätiedotTekoäly ja koneoppiminen metsävaratiedon apuna
Tekoäly ja koneoppiminen metsävaratiedon apuna Arbonaut Oy ja LUT University 26. marraskuuta 2018 Metsätieteen päivä 2018 Koneoppimisen kohteena ovat lukujen sijasta jakaumat Esimerkki 1 Koneoppimisessa
LisätiedotTekoäly tukiäly. Eija Kalliala, Marjatta Ikkala
Tekoäly tukiäly Eija Kalliala, Marjatta Ikkala 29.11.2018 Mitä on tekoäly? Unelma koneesta, joka ajattelee kuin ihminen Hype-sana, jota kuulee joka paikassa Väärinymmärretty sana -> vääriä odotuksia, pelkoja
LisätiedotBayesilainen päätöksenteko / Bayesian decision theory
Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena
LisätiedotOhjaamaton oppiminen. Marko Salmenkivi. Johdatus koneoppimiseen, syksy 2008
Ohjaamaton oppiminen Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko keskiviikolle 26.11.2008 Ohjaamaton oppiminen Mikä erottaa ohjatusta oppimisesta? Esimerkkejä Johdattelua ryvästämiseen
LisätiedotDOB valmennus Data-analyysi. Esiprosessointi Jyrki Rasku cc by by/4.0/deed.
DOB valmennus Data-analyysi Esiprosessointi 24.08.2017 Jyrki Rasku cc by 4.0 https://creativecommons.org/licenses/ by/4.0/deed.fi Data ja informaatio Data liittyy johonkin asiayhteyteen ja se saattaa sisältää
Lisätiedotjens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor
T-1.81 Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ti 8.4., 1:1-18: Klusterointi, Konekääntäminen. Versio 1. 1. Kuvaan 1 on piirretty klusteroinnit käyttäen annettuja algoritmeja. Sanojen
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS NEUROVERKOT TURINGIN KONE (TAI TAVALLINEN OHJELMOINTI) VAIN YKSI LASKENNAN MALLI ELÄINTEN HERMOSTOSSA LASKENTA ERILAISTA: - RINNAKKAISUUS - STOKASTISUUS (SATUNNAISUUS) - MASSIIVINEN
LisätiedotDOB valmennus Data-analyysi. Koneoppiminen. CC by
DOB valmennus Data-analyysi Koneoppiminen CC by 4.0 30.08.2017 Datasta oivalluksia ja bisnestä Data-analytiikan menetelmien valmennusmateriaali Luentopäivän sisältö Johdanto Tiedonlouhinta Koneoppiminen
LisätiedotViikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen
LisätiedotJohdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]
Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn
LisätiedotMONISTE 2 Kirjoittanut Elina Katainen
MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi
LisätiedotKvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS NEUROVERKOT TURINGIN KONE (TAI TAVALLINEN OHJELMOINTI) VAIN YKSI LASKENNAN MALLI ELÄINTEN HERMOSTOSSA LASKENTA ERILAISTA: - RINNAKKAISUUS - STOKASTISUUS (SATUNNAISUUS) - MASSIIVINEN
LisätiedotNeuroverkkojen soveltaminen vakuutusdatojen luokitteluun
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään
LisätiedotTekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi
Tekoäly ja alustatalous Miten voit hyödyntää niitä omassa liiketoiminnassasi AI & Alustatalous AI Digitaalisuudessa on 1 ja 0, kumpia haluamme olla? Alustatalouden kasvuloikka Digitaalisen alustatalouden
LisätiedotDiskriminanttianalyysi I
Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi
LisätiedotKlusteroinnin kyvyillä on rajansa
Klusteroinnin kyvyillä on rajansa Dataa on monesti hyvin paljon, se on säännöllisesti korkeadimensioista ja vaikeasti hahmotettavalla tavalla rakenteista, jolloin klusterointi antaa helposti liki arvaukseen
LisätiedotDiplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)
Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 017 Insinöörivalinnan matematiikan koe 30..017, Ratkaisut (Sarja A) 1. a) Lukujen 9, 0, 3 ja x keskiarvo on. Määritä x. (1 p.) b) Mitkä reaaliluvut
LisätiedotAureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus SAS Forum Helsinki
Aureolis Oy Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015 SAS Forum Helsinki 1.10.2015 22.10.2015 Alkon valikoimanhallinnan uudistus Kesäkuussa 2015 käyttöönotettu uudistus, jonka
LisätiedotKäytännön näkökulmia Zonationin hyödyntämiseen
MetZo 2010-2014: Käytännön näkökulmia Zonationin hyödyntämiseen Joona Lehtomäki Helsingin yliopisto, SYKE MetZo-seminaari 30.10.2014 Ekologisen päätösanalyysin prosessi 1 Tavoitteet ja suojeluarvon malli
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Ryhmittelyn perusperiaate Tästä lähdetään liikkeelle: Tähän pyritään: a b c bc d e f de def bcdef abcdef monimuuttujamenetelmiin,
LisätiedotSPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö
SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin
Lisätiedot54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
LisätiedotKevät 2003 Luennot: Timo Honkela, Krista Lagus Laskuharjoitukset: Vesa Siivola
Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2003 Luennot: Timo Honkela, Krista Lagus Laskuharjoitukset: Vesa Siivola Luentokalvot: Krista Lagus ja Timo Honkela 13. Klusterointi..........................
LisätiedotHarjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat
LisätiedotVastepintamenetelmä. Kuusinen/Heliövaara 1
Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,
LisätiedotSisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4
Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...
LisätiedotKoneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa
Koneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa Metsätieteen päivä 26.11.2018 Jorma Laaksonen, vanhempi yliopistonlehtori
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS NEUROVERKOT TURINGIN KONE (TAI TAVALLINEN OHJELMOINTI) VAIN YKSI LASKENNAN MALLI ELÄINTEN HERMOSTOSSA LASKENTA ERILAISTA: - RINNAKKAISUUS - STOKASTISUUS (SATUNNAISUUS) - MASSIIVINEN
LisätiedotTodennäköisyyden ominaisuuksia
Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset
LisätiedotLuento 9. June 2, Luento 9
June 2, 2016 Otetaan lähtökohdaksi, että sopimuksilla ei voida kattaa kaikkia kontingensseja/maailmantiloja. Yksi kiinnostava tapaus on sellainen, että jotkut kontingenssit ovat havaittavissa sopimusosapuolille,
LisätiedotPuumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu
Puumenetelmät Topi Sikanen Puumenetelmät Periaate: Hajota ja hallitse Jaetaan havaintoavaruus alueisiin. Sovitetaan kuhunkin alueeseen yksinkertainen malli (esim. vakio) Tarkastellaan kolmea mallia Luokittelu-
LisätiedotMittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.
1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotLuku 2. Datasta tietoon: mitä dataa? mitä tietoa?
1 / 14 Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 31.10.2011 2 / 14 Tämän luennon sisältö
LisätiedotYleistetyistä lineaarisista malleista
Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit
Lisätiedot1. TILASTOLLINEN HAHMONTUNNISTUS
1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,
LisätiedotTässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia.
1 Luokittelijan suorituskyvyn optimointi Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia. A. Piirteen valinnan menetelmiä
LisätiedotDynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101,
LisätiedotTänään ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus laskarit. Ensi kerralla (11.3.)
Tänään ohjelmassa Kognitiivinen mallintaminen Neuraalimallinnus 26.2. Nelli Salminen nelli.salminen@helsinki.fi D433 autoassosiaatio, attraktorin käsite esimerkkitapaus: kolme eri tapaa mallintaa kategorista
LisätiedotLuokittelumenetelmät (6)
Luokittelumenetelmät (6) Luokittelu /päätöspuut ja satunnaismetsämenetelmä ovat erittäin suosittuja, sillä ovat helposti ymmärrettävissä ja luokittelupuut myös visualisoitavissa, toimivat luokka ja numeerisella
LisätiedotTilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin
Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta
LisätiedotE. Oja ja H. Mannila Datasta Tietoon: Luku 2
2. DATASTA TIETOON: MITÄ DATAA; MITÄ TIETOA? 2.1. Data-analyysin ongelma Tulevien vuosien valtava haaste on digitaalisessa muodossa talletetun datan kasvava määrä Arvioita: Yhdysvaltojen kongressin kirjasto
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotKognitiivinen mallintaminen. Nelli Salminen
Kognitiivinen mallintaminen Neuraalimallinnus 24.11. Nelli Salminen nelli.salminen@tkk.fi Tällä kerralla ohjelmassa vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko oppimissääntöjen
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN
LisätiedotIlkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset
LisätiedotLaskennallinen data-analyysi II
Laskennallinen data-analyysi II Saara Hyvönen, Saara.Hyvonen@cs.helsinki.fi Kevät 2007 Muuttujien valinta Laskennallinen data-analyysi II, kevät 2007, Helsingin yliopisto Korkeiden ulottuvuuksien kirous
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotP(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
LisätiedotBatch means -menetelmä
S-38.148 Tietoverkkojen simulointi / Tulosten keruu ja analyysi 1(9) Batch means -menetelmä Batch means -menetelmää käytetään hyvin yleisesti Simulointi suoritetaan tässä yhtenä pitkänä ajona olkoon simuloinnin
LisätiedotTASAVIRTAPIIRI - VASTAUSLOMAKE
TASAVIRTAPIIRI - VASTAUSLOMAKE Ryhmä Tekijä 1 Pari Tekijä 2 Päiväys Assistentti Täytä mittauslomake lyijykynällä. Muista erityisesti virhearviot ja suureiden yksiköt! 4 Esitehtävät 1. Mitä tarkoitetaan
LisätiedotYhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.
2. MS-A4/A6 Matriisilaskenta 2. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 5.9.25 Tarkastellaan esimerkkinä lineaarista yhtälöparia { 2x x 2 = x + x 2
LisätiedotMitä on konvoluutio? Tutustu kuvankäsittelyyn
Mitä on konvoluutio? Tutustu kuvankäsittelyyn Tieteenpäivät 2015, Työohje Sami Varjo Johdanto Digitaalinen signaalienkäsittely on tullut osaksi arkipäiväämme niin, ettemme yleensä edes huomaa sen olemassa
LisätiedotIdentifiointiprosessi
Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi
LisätiedotTehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)
1/10 Tehtävä 1 2 3 4 5 6 7 8 9 10 Yhteensä Pisteet (tarkastaja merkitsee) Kokeessa on kymmenen tehtävää, joista jokainen on erillisellä paperilla. Jokaisen tehtävän maksimipistemäärä on 6 pistettä. Ratkaise
LisätiedotTiedonlouhinta rakenteisista dokumenteista (seminaarityö)
Tiedonlouhinta rakenteisista dokumenteista (seminaarityö) Miika Nurminen (minurmin@jyu.fi) Jyväskylän yliopisto Tietotekniikan laitos Kalvot ja seminaarityö verkossa: http://users.jyu.fi/~minurmin/gradusem/
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten
Lisätiedot¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.
10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn
Lisätiedotf(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))
Määritelmä: on O(g(n)), jos on olemassa vakioarvot n 0 > 0 ja c > 0 siten, että c g(n) kun n > n 0 O eli iso-o tai ordo ilmaisee asymptoottisen ylärajan resurssivaatimusten kasvun suuruusluokalle Samankaltaisia
LisätiedotVALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170
VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain
LisätiedotJohtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun
Johtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun Jouni Räisänen Helsingin yliopiston fysiikan laitos 15.1.2010 Vuorokauden keskilämpötila Talvi 2007-2008
LisätiedotMenetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä. Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.
Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.2009 Tietosuoja - lähtökohdat! Periaatteena on estää yksiköiden suora
LisätiedotTilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle
Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
Lisätiedot805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)
805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet
LisätiedotTällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö
Tällä kerralla ohjelmassa Kognitiivinen mallintaminen Neuraalimallinnus 19.2. Nelli Salminen nelli.salminen@helsinki.fi D433 vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko
LisätiedotKlusteroinnin kyvyillä on rajansa
Klusteroinnin kyvyillä on rajansa 183 Dataa on monesti hyvin paljon, se on säännöllisesti korkeadimensioista ja vaikeasti hahmotettavalla tavalla rakenteista, jolloin klusterointi antaa helposti liki arvaukseen
LisätiedotKynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto
Kynä-paperi -harjoitukset Taina Lehtinen 43 Loput ratkaisut harjoitustehtäviin 44 Stressitestin = 40 s = 8 Kalle = 34 pistettä Ville = 5 pistettä Z Kalle 34 8 40 0.75 Z Ville 5 8 40 1.5 Kalle sijoittuu
Lisätiedot