Lectio praecursoria. Satunnaistusalgoritmeja tiedonlouhinnan tulosten merkitsevyyden arviointiin. Markus Ojala. 12.

Samankaltaiset tiedostot
Koesuunnittelu ja tilastolliset mallit Johdanto. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Kliininen arviointi ja kliininen tieto mikä riittää?

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastollisten aineistojen kerääminen ja mittaaminen

ROVANIEMEN KAATOPAIKAN GEOFYSIKAALISTEN JA GEOKEMIALLISTEN HAVAINTOJEN YHTEISISTA PIIRTEISTA

YLEISKUVA - Kysymykset

Tutkimustiedonhallinnan peruskurssi

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

ReplicaX työkalu avointen datakopioiden luomiseen

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Kokonaisuudet johon opintojakso kuuluu Lang=fi&lang=fi&lvv=2014

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Jonojen matematiikkaa

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Lukuspiraali. Syöte. Tuloste. Esimerkki 1. Esimerkki 2. Esimerkki 3. Tarkastellaan seuraavanlaisia lukuspiraaleita:

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Ensimmäinen opetusjakso (tunti) Ruokaympyrän esittely ja sen vertaaminen omiin ruokatottumuksiin.

Mitä kausaalivaikutuksista voidaan päätellä havainnoivissa tutkimuksissa?

Metron. nettikauppaohjeet

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tutkimustiedonhallinnan peruskurssi

Matematiikan tukikurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

A = a b B = c d. d e f. g h i determinantti on det(c) = a(ei fh) b(di fg) + c(dh eg). Matriisin determinanttia voi merkitä myös pystyviivojen avulla:

Talousmatematiikan perusteet

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

riippumattomia ja noudattavat samaa jakaumaa.

Viherseinien efekti Tilastoanalyysi

Determinantit. Kaksirivinen determinantti. Aiheet. Kaksirivinen determinantti. Kaksirivinen determinantti. Kolmirivinen determinantti

Altistusaika 1 kk 2 kk 3 kk

Esimerkkejä vaativuusluokista

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Ohjelmoinnin perusteet, syksy 2006

811312A Tietorakenteet ja algoritmit , Harjoitus 2 ratkaisu

Tutkimusasetelmat. - Oikea asetelma oikeaan paikkaan - Vaikeakin tutkimusongelma voi olla ratkaistavissa oikealla tutkimusasetelmalla

Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä. Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.

Matriisilaskenta (TFM) MS-A0001 Hakula/Vuojamo Ratkaisut, Viikko 47, 2017

ASEET KADONNEEN VYÖTÄRÖN METSÄSTYKSEEN

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Otoskoko 107 kpl. a) 27 b) 2654

Jos Q = kysytty määrä, Q = kysytyn määrän muutos, P = hinta ja P = hinnan muutos, niin hintajousto on Q/Q P/P

Ilmastovaikutusten viestintä elintarvikealalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Sovellettu todennäköisyyslaskenta B

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Vektoreiden virittämä aliavaruus

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ALGORITMIT & OPPIMINEN

Tuloksia ja kokemuksia kouluruokahankkeestamme

Aamupala Päiväkahvi/Välipala Iltapala. Kahvi ja keksi purenta- ja nielemisvaikeudet: Vadelmavispis

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

pitkittäisaineistoissa

Iltapalalla energiarikastetun vellin kanssa tarjotaan aina tuoremarjasose/hedelmäsose. Listalla muutokset ovat mahdollisia!

Talousmatematiikan perusteet

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Valio Oy TYÖIKÄISEN RAVITSEMUS JA TERVEYS

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Kokonaislukuoptiomointi Leikkaustasomenetelmät

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

pitkittäisaineistoissa

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Ohjelmoinnin perusteet Y Python

Yritysyhteistyömalli HOK-Elannon kanssa!

Alue-Aromi Ruokalista. Maanantai Tiistai Keskiviikko Torstai Perjantai

Ohjelmoinnin perusteet Y Python

Matematiikka B2 - Avoin yliopisto

Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat

Titta-palvelun käyttöohje

4.3 HOITOON LIITTYVIEN INFEKTIOIDEN SEURANTA

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Maanantai Tiistai Keskiviikko Torstai Perjantai Aamiainen Aamiainen Aamiainen Aamiainen Aamiainen

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

R. Puranen Q 17.1 /27/74/23. GEOLOGINEN TUTKIMUSLAITOS Geofysiikan osasto HP 9820 A-ohjelmaseloste

Matemaatikot ja tilastotieteilijät

OVeT hinnastopalvelu (LVI)

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastotieteen jatkokurssi syksy 2003 Välikoe

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Sovellettu todennäköisyyslaskenta B

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Testauksella apua tilaryhmien erojen havaitsemiseen

Transkriptio:

Lectio praecursoria Satunnaistusalgoritmeja tiedonlouhinnan tulosten merkitsevyyden arviointiin Markus Ojala 12. marraskuuta 2011

Käsitteet Satunnaistusalgoritmeja tiedonlouhinnan tulosten merkitsevyyden arviointiin 1. Tiedonlouhinnan tulos 2. Merkitsevyyden arviointi 3. Satunnaistusalgoritmi

Käsitteet Satunnaistusalgoritmeja tiedonlouhinnan tulosten merkitsevyyden arviointiin 1. Tiedonlouhinnan tulos 2. Merkitsevyyden arviointi 3. Satunnaistusalgoritmi

Tiedonlouhinta

Tiedonlouhinta Hand et al. 2001: Tiedonlouhinta on (usein isojen) havaintoaineistojen analysointia, jonka tarkoituksena on löytää odottamattomia riippuvuussuhteita aineistossa sekä esittää tietoa uusilla ymmärrettävillä ja hyödyllisillä tavoilla aineiston omistajalle.

Tiedonlouhinta: 1. Esimerkki Tuotteiden hinnat eri kaupoissa (e/ kg) Maito Leipä Banaani Juusto Kinkku Kauppa 1 0.69 2.45 0.99 5.49 6.45 Kauppa 2 1.25 4.29 2.49 8.95 9.35 Kauppa 3 0.79 2.45 1.25 6.39 7.59 Kauppa 4 1.19 4.59 1.95 8.45 8.55 Kauppa 5 0.65 2.75 1.15 6.65 7.13 Kauppa 6 1.25 3.95 2.19 7.75 9.99

Tiedonlouhinta: 1. Esimerkki Samanlaisten kauppojen tunnistaminen Maito Leipä Banaani Juusto Kinkku Kauppa 1 0.69 2.45 0.99 5.49 6.45 Kauppa 3 0.79 2.45 1.25 6.39 7.59 Kauppa 5 0.65 2.75 1.15 6.65 7.13 Kauppa 2 1.25 4.29 2.49 8.95 9.35 Kauppa 4 1.19 4.59 1.95 8.45 8.55 Kauppa 6 1.25 3.95 2.19 7.75 9.99

Tiedonlouhinta: 2. Esimerkki Fossiiliaineisto: (löytöpaikka, eläinlaji) Fortelius, Jernvall, Gionis, Mannila, Paleobiology 32 (2006)

Tiedonlouhinta: 2. Esimerkki Fossiiliaineisto: spektraalijärjestäminen

Käsitteet Satunnaistusalgoritmeja tiedonlouhinnan tulosten merkitsevyyden arviointiin 1. Tiedonlouhinnan tulos 2. Merkitsevyyden arviointi 3. Satunnaistusalgoritmi

Merkitsevyyden arviointi Tulos on tilastollisesti merkitsevä, jos on epätodennäköistä, että tulos on sattumaa eli vain pienessä osassa satunnaisia aineistoja havaitaan vastaava tai parempi tulos P-arvo: Osuus satunnaisista aineistoista, joissa havaitaan vastaava tai parempi tulos Esim. 1%, 5%

Merkitsevyyden arviointi Mikä on satunnainen aineisto? sattumassakin on rakennetta joitain yhteisiä valittuja ominaisuuksia alkuperäisen aineiston kanssa muuten täysin satunnainen erilaiset satunnaistukset tuottavat erilaisen vertailupohjan

Merkitsevyyden arviointi: 1. Esimerkki Alentaako lääke X verenpainetta? Verenpaineen muutos Keskiarvo Ero Lääke X -20, -5, 3, -10, -7-7.8-9.4 Plasebo -3, 2, -5, 4, 10 1.6

Merkitsevyyden arviointi: 1. Esimerkki Alentaako lääke X verenpainetta? Verenpaineen muutos Keskiarvo Ero Lääke X -20, -5, 3, -10, -7-7.8-9.4 Plasebo -3, 2, -5, 4, 10 1.6 Yksi satunnaistettu aineisto Verenpaineen muutos Keskiarvo Ero Lääke X 10, 4, -10, -5, -3-0.8 Plasebo 2, 3, -5, -7, -20-5.4 4.6

Merkitsevyyden arviointi: 1. Esimerkki Alentaako lääke X verenpainetta? Verenpaineen muutos Keskiarvo Ero Lääke X -20, -5, 3, -10, -7-7.8-9.4 Plasebo -3, 2, -5, 4, 10 1.6 Yksi satunnaistettu aineisto Verenpaineen muutos Keskiarvo Ero Lääke X 10, 4, -10, -5, -3-0.8 Plasebo 2, 3, -5, -7, -20-5.4 Merkitsevyystestaus (1000 satunnaistusta) 4.6 p = 3.6% (tulos on merkitsevä)

Merkitsevyyden arviointi: 2. Esimerkki Järjestetty alkuperäinen fossiiliaineisto

Merkitsevyyden arviointi: 2. Esimerkki Satunnaistettu aineisto + järjestäminen

Käsitteet Satunnaistusalgoritmeja tiedonlouhinnan tulosten merkitsevyyden arviointiin 1. Tiedonlouhinnan tulos 2. Merkitsevyyden arviointi 3. Satunnaistusalgoritmi

Satunnaistusalgoritmi Satunnaistusalgoritmi Menetelmä satunnaistusten tuottamiseen Säilyttää halutut ominaisuudet Satunnaistaa muut ominaisuudet Kolme eri lähestymistapaa 1. Suora tuottaminen 2. Virheettömät paikalliset muutokset 3. Virheelliset paikalliset muutokset + virheen kontrollointi

Satunnaistusalgoritmi: Esimerkki Binäärimatriisien satunnaistaminen säilytetään rivi- ja sarakesummat virheettömät paikalliset muutokset j 1. j 2. i 1... 1... 0..... i 2... 0... 1..... = j 1. j 2. i 1... 0... 1..... i 2... 1... 0.....

Väitöskirjan sisältö

Väitöskirjan kontribuutiot Uusia satunnaistusmenetelmiä: 1. Matriiseille 2. Toistuvaan ja tarkentuvaan tiedonlouhintaan 3. Relaatiotietokannoille 4. Luokitelluille aineistoille

Kontribuutiot: Esimerkki Matriisien satunnaistus Säilytetään rivien ja sarakkeiden arvojakaumat satunnaistuksessa likimääräisesti Tulosta pidetään mielenkiintoisena, jos rivien ja sarakkeiden arvojakaumat eivät selitä havaintoa Maito Leipä Banaani Juusto Kinkku Kauppa 1 0.69 2.45 0.99 5.49 6.45 Kauppa 2 1.25 4.29 2.49 8.95 9.35 Kauppa 3 0.79 2.45 1.25 6.39 7.59 Kauppa 4 1.19 4.59 1.95 8.45 8.55 Kauppa 5 0.65 2.75 1.15 6.65 7.13 Kauppa 6 1.25 3.95 2.19 7.75 9.99

Kansikuva: Alkuperäinen

Kansikuva: Täyspermutaatio

Kansikuva: Rivipermutaatio

Kansikuva: Arvojakaumat

Yhteenveto Merkitsevyystestaus satunnaistamalla Helppo ja monikäyttöinen Soveltuu erilaisiin tiedonlouhinnan ongelmiin Väitöskirja Uusia satunnaistamistapoja tiedonlouhintaan Tulevaisuus: satunnaistuksen käyttö erilaisissa sovelluksissa

Seuraavaksi Väitöskirjan merkitsevyyden testaaminen