Luento 7: Aputekniikoita harjoitustöihin



Samankaltaiset tiedostot
Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

Sama mutta density-based (saadaan jakaumat): (tuli aavistuksen eri klusterointi)

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä

KJR-C1001 Statiikka ja dynamiikka. Luento Susanna Hurme

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Lehmän poikimiskäyttäytymistä indikoivien piirteideneristys. Tiedonlouhinta 2013 Sari Kajava, Ville Kumpulainen, Nina Hänninen

JOHDATUS TEKOÄLYYN TEEMU ROOS

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

6. Tietokoneharjoitukset

Regressioanalyysi. Kuusinen/Heliövaara 1

Ruokinta-automaattidatan analyysi

Kombinatorinen optimointi

SIGNAALITEORIAN KERTAUSTA 1

Tilastotieteessä aikasarja tarkoittaa yleensä sarjaa, jossa peräkkäisten havaintojen aikaväli on aina sama.

I Data ja sen esiprosessointi

5.3 Ensimmäisen asteen polynomifunktio

JOHDATUS TEKOÄLYYN TEEMU ROOS

T Luonnollisten kielten tilastollinen käsittely

3. Tietokoneharjoitukset

805324A (805679S) Aikasarja-analyysi Harjoitus 5 (2016)

Antti Rasila. Kevät Matematiikan ja systeemianalyysin laitos Aalto-yliopisto. Antti Rasila (Aalto-yliopisto) MS-A0204 Kevät / 16

Esimerkkejä vaativuusluokista

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

l 1 2l + 1, c) 100 l=0

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 1, Kevät 2018

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

Laskuharjoitus 2A ( ) Aihepiiri: Raja-arvot etc. Adams & Essex, 8th Edition, Chapter 12. z = f(x, 0) = x2 a z = f(0, y) = 02 a 2 + y2

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Numeeriset menetelmät

Sovellettu todennäköisyyslaskenta B

Ohjelmoinnin peruskurssi Y1

Nopeus, kiihtyvyys ja liikemäärä Vektorit

Algoritmit 1. Luento 2 Ke Timo Männikkö

MS-C2128 Ennustaminen ja aikasarja-analyysi ARMA esimerkkejä

Diskriminanttianalyysi I

l 1 2l + 1, c) 100 l=0 AB 3AC ja AB AC sekä vektoreiden AB ja

Spektri- ja signaalianalysaattorit

Moniulotteisia todennäköisyysjakaumia

Algebralliset tietotyypit ym. TIEA341 Funktio ohjelmointi 1 Syksy 2005

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Identifiointiprosessi

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Signaalit ja järjestelmät aika- ja taajuusalueissa

Dynaamiset regressiomallit

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 3 /

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

4.0.2 Kuinka hyvä ennuste on?

6. Differentiaaliyhtälösysteemien laadullista teoriaa.

Numeeriset menetelmät TIEA381. Luento 14. Kirsi Valjus. Jyväskylän yliopisto. Luento 14 () Numeeriset menetelmät / 55

Derivaatta: funktion approksimaatio lineaarikuvauksella.

Tietorakenteet ja algoritmit - syksy

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Osa IX. Z muunnos. Johdanto Diskreetit funktiot

Batch means -menetelmä

1. Tilastollinen malli??

MATEMATIIKAN PERUSKURSSI I Harjoitustehtäviä syksy Millä reaaliluvun x arvoilla. 3 4 x 2,

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto

Viikon aiheet. Funktion lineaarinen approksimointi

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu

Datatähti 2019 loppu

KÄYTTÖOHJE LÄMPÖTILA-ANEMOMETRI DT-619

KV-järjestelmät suomelle

MS-A0004/A0006 Matriisilaskenta

Dierentiaaliyhtälöistä

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

3 TOISEN ASTEEN POLYNOMIFUNKTIO

y (0) = 0 y h (x) = C 1 e 2x +C 2 e x e10x e 3 e8x dx + e x 1 3 e9x dx = e 2x 1 3 e8x 1 8 = 1 24 e10x 1 27 e10x = e 10x e10x

Mittaustekniikka (3 op)

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Johdatus tekoälyn taustalla olevaan matematiikkaan

Ohjelmistoradio tehtävät 4. P1: Ekvalisointi ja demodulaatio. OFDM-symbolien generoiminen

Pienimmän neliösumman menetelmä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

L9: Rayleigh testi. Laskuharjoitus

KJR-C1001 Statiikka ja dynamiikka. Luento Susanna Hurme

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

Luento 1: Optimointimallin muodostaminen; optimointitehtävien luokittelu

Inversio-ongelmien laskennallinen peruskurssi Luento 2

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Dynaamiset regressiomallit

Mat Lineaarinen ohjelmointi

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Identifiointiprosessi

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Transkriptio:

Yleistä asiaa 1. Haluaisitteko työkalujen demosession? 2. Haluaisitteko tehdä itse alustavan arvostelun harjoitustyöllenne? Kohdittain pisteet ja töiden jakautuminen ryhmässä, esim. Datan ymmärrys (+perusanalyysi muuttujien arvoista) Esiprosessointi Mallinnus (voi jakaa osiin, jos useita menetelmiä) Tulosten tulkinta Raportointi Luento 7: Aputekniikoita harjoitustöihin 1. Tekstidatan kaivelu yleiskuva menetelmistä (DM:n lähialoista) tekstin klusterointi sanojen perusteella HITS-algoritmi (alkujaan internetin kaiveluun) 2. Temporaalisen datan mallinnus erityisesti aikasarjadata! trendien ja periodisuuden tunnistus piirteiden eristys kiihtyvyysdatasta Tiedonlouhinta 2013/L7 p. 1 Tiedonlouhinta 2013/L7 p. 2 Tekstidatan kaivelu Tällä kurssilla: Miten tekstidatasta saisi piirteitä tai ryhmittelyjä helposti? VS. Tiedon eristäminen tekstistä (information extraction from text, IET): Halutaan eristää tekstistä automaattisesti vastaukset kysymyksiin tai tiettyjen muuttujien arvot. Luonnollisen kielen prosessointi: halutaan ymmärtää tekstin sisältö (merkitys) Tiedon haku (Information retrieval): halutaan löytää suuresta tietokannasta (esim. internet) kyselyn kannalta relevantit dokumentit [EXTRA] Esimerkki (IET): Tiivistä tiedot uutisartikkelista 19 March a bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb allegedly detonated by urban guerrilla commandos blew up a power tower in the northwestern part of San Salvador at 0650 (1250 GMT) Tiedonlouhinta 2013/L7 p. 3 Tiedonlouhinta 2013/L7 p. 4

[EXTRA] Esimerkki (IET): Tiivistä tiedot Missä? (El Salvador) Milloin? (19 Mar) Miten? (bombing) Ketkä? (urban querilla commandos) Kohde? (power tower) Uhrit? (no injury or death) [EXTRA] Monia vaiheita, ongelmaspesifejä menetelmiä Erota virkkeet (välimerkkien perusteella) Erota sanat (+mahd. luvut) Esitä sanan vartalo (stemming) saman sanan esiintymät Tunnista substantiivilausekkeet (noun phrase) Tämä virke sisältää kaksi substantiivilauseketta. (Lisähankaluudet: yhdyssanat, erisnimet, pronominien viittaussuhteet) Tunnista semanttiset suhteet (yleensä vain tietyn tyyppiset relaatiot) SVM:ien keksijä Vladimir Vapnik eli Keksijä(SVM,Vapnik) Tiedonlouhinta 2013/L7 p. 5 Mitä saisi selville pelkästään sanoista? Tiedonlouhinta 2013/L7 p. 6 Tiedon kaivuu annettuna vain sanat dokumettien klusterointi sanojen perusteella samankaltaisten dokumenttien haku (implisiittinen klusterointi: samanlaiset vs. erilaiset) sanojen väliset riippuvuussuhteet käsitekartat moniosaisten ilmaisujen tunnistus Sanavartaloiden erottelu Mitä sanoja/sanaryhmiä (englannin yhdyssanat ) tekstissä esiintyy? suomen kielen erityisongelma: taivutus Mikä on sanan vartalo? sanastosta tarkistus (jos saatavilla) heuristiset stemmerit (esim. Wekaan saa Snowball-paketissa, mutta suomenkielinen huono) Idea: Löytyisivätkö vartalot sanoja klusteroimalla? etäisyysmittana minimum edit distance esim. d(internetissä, internetin)=3 vs. d(kissa,viisas)=3 toimii paremmin pitkillä sanoilla Tiedonlouhinta 2013/L7 p. 7 Tiedonlouhinta 2013/L7 p. 8

Dokumenttien klusterointi sanojen perusteella Dokumenttien klusterointi (jatk.) Ongelma: Klusteroi dokumentit D={d 1,...,d n }, joissa esiintyvät sanat (sanavartalot) w 1,...,w k. Karsitaan pois usein toistuvat epäinformatiiviset sanat (stopwords), kuten apunsanat (ja, tai, sekä, hän, se) Karsitaan liian harvinaiset sanat (parhaita tosin sellaiset, jotka esiintyvät usein mutta vain osassa dokumentteja) Dokumentti esitetään vektorina ( f r(w 1 ),... f r(w k )), missä f r(w i )=sanan w i frekvenssi kyseisessä dokumentissa Tai ( f r(w 1 ) id f (w i ),..., f r(w k ) id f (w k )), missä id f (inverse document frequency) painottaa sanan yleisyydellä id f (w i )=log D {d D w i d} Lopuksi kannattaa normalisoida vektorit jakamalla vektorin pituudella (jolloin saadaan d i =1) Tiedonlouhinta 2013/L7 p. 9 Tiedonlouhinta 2013/L7 p. 10 Dokumenttien klusterointi (jatk.) Pienien tekstipätkien klusterointi Yleisin etäisyysmitta kosinimitta cos(d 1, d 2 )= d 1 d 2 d 1 d 2 dokumenttiklusterin centroidi on vektori c=(c 1,...,c k ), missä c i on keskiarvo dokumenttivektorien vastaavista painoista centroidien etäisyys tai centroidin ja dokumentin etäisyys lasketaan samalla kosinimitalla Klusteroidaan halutulla menetelmällä (usein K-means, koska nopea) Ongelma: Jos pieniä dokumentteja, vähän yhteisiä sanoja ja toimii huonosti! Tiedonlouhinta 2013/L7 p. 11 Dokumentin esityksessä riittää k:n bitin vektori: esiintyykö sana dokumentissa vai ei? Vaihtoehtoinen mitta Jackard: Jackard(d 1, d 2 )=1 #(d 1:ssä ja d 2 :ssa esiintyvät sanat) #(d 1 :ssä tai d 2 :ssa esiintyvät sanat) = 1 {w i w i d 1 w i d 2 } {w i w i d 1 w i d 2 } Tiedonlouhinta 2013/L7 p. 12

Pienien tekstipätkien klusterointi Samankaltaisuusverkon ositusmenetelmät (spektraaliklusterointi sukulaisineen) saattavat tuottaa parempia tuloksia! Affinity propagation uusi kehuttu menetelmä! samankaltaisuusmitaksi dokumenttien välinen Mutual Information HITS-algoritmi helppo ja monikäyttöinen HITS-algoritmi Hyperlink-Induced Topic Search (=Hubs and Authorities) Alkuperäinen idea web-dokumentien hakemiseen: Hub=sivu joka viittaa moniin autoratiivisiin sivuihin Authority=autoratiivinen sivu johon monet hubit viittaavat pävitetään sivujen hub- ja authority-arvoja (h- ja a-vektorit), kunnes systeemi kovergoi samalla lasketaan (huomaamatta) vastaavien matriisien prinsipaaliominaisvektorit Tiedonlouhinta 2013/L7 p. 13 Tiedonlouhinta 2013/L7 p. 14 [EXTRA] Hits-algoritmi Olk. G = (V, E) verkko, jonka jokaiseen solmuun v liittyy kaksi painoa h(v) ja a(v). 1. Alusta h ja a tasaisesti s.e. i h(v i ) 2 = i a(v i ) 2 = 1 2. Kunnes h- ja a-vektorit konvergoivat, päivitä kaikilla v i : h(v i )= (v i,w) E a(w) (v i :n osoittamien auktoriteettien arvojen summa) a(v i )= (w,v i ) E h(w) (v i :hin osoittavien hubien arvojen summa) Normalisoi painot: h(v i )= h(v i) H ja a(v i)= a(v i) A, missä H= i h(v i ) 2 ja A= i a(v i ) 2 3. Lopussa parhailla auktoriteeteilla on suurimmat a-arvot ja parhailla hubeilla suurimmat h-arvot Tiedonlouhinta 2013/L7 p. 15 Samankaltaisten sivujen haku Ongelma: Annettu sivu p, etsi samankaltaisia sivuja. Muodosta verkko seuraavista sivuista: kaikki sivut joihin p osoittaa ja osa (tai kaikki), jotka osoittavat p:hen Alusta sivujen h ja a-arvot, esim. h(p)= (p, q) ja a(p) = (q, p) + normalisointi Suorita HIT S Lopussa sivu jolla suurin a-arvo on samankaltaisin Tiedonlouhinta 2013/L7 p. 16

Sovellus sanoille ja virkkeille Annettuna avainsana tai -sanoja, muodostetaan niihin liittyvä 2-jakoinen verkko: SANA1 VIRKE1 VIRKE2 VIRKE3 VIRKE4 SANA2 SANA3 SANA4 SANA5 SANA6 SANA7 Virkkeille lasketaan V-painoja ja sanoille S -painoja Alustetaan tasaisesti s.e. neliöiden summa 1 Päivityssääntö: V(v)= w i s S (w i ) ja S (w)= w s i V(s i ) + normalisointi Lopussa suurimman S -painon saaneet sanat samankaltaisimpia (ja suurimman V-painon saaneet virkkeet) Tiedonlouhinta 2013/L7 p. 17 Tuloksia Testattu suomenkielisillä kissa-aforismeilla ja -tarinoilla ei mitään vartalon etsintää tai stopwordin poistoa (olisi kannattanut) sanan kissa kanssa samankaltaisia mm. koira, ihminen (molemmat eri taivutusmuodoissa), runous, mukava, kotieläin sanan rakastavat kanssa samanlaisia mm. ruokkivat, pitävät, huolta, täytyy, jumalia homonyymeillä voi kiusata ohjelmaa ( Lassie palaa kotiin vs. Tuli palaa takassa ) lisäksi paljon roskaa! (erit. stopwordeja) toimisi varmasti paremmin tekstin esiprosessoinnin jälkeen Tiedonlouhinta 2013/L7 p. 18 Aikasarjadatan analyysiä Aikasarjadata Aikasarja (time series): Jonkin muuuttujan X arvot eri ajanhetkillä. (Kuvassa lehmän aktiivisuus) 80 70 60 50 40 30 20 akt Yleensä X mitattu tasavälein jollain tiheydellä= resoluutiolla (esim. 10 kertaa/s = 10Hz, tai kerran tunnissa) resoluutio=erotustarkkuus tyypillisesti mittaus on ko. mittausvälin keskiarvo Lokidatan tapahtumissa mittauksia vain kun jotain tapahtui Voi silti muodostaa tasavälisen aikasarjadatan, kun esim. summaa X:n arvot tietyllä aikaikkunalla (esim. minuuteittain, tunneittain) 10 0 50 100 150 200 250 300 350 Tiedonlouhinta 2013/L7 p. 19 Tiedonlouhinta 2013/L7 p. 20

Esimerkki: syöntifrekvenssi automaateittain Aikasarjadataa koskevia ongelmia Kuppi1 Onko nousevaa tai laskevaa trendiä? Kuppi2 Kuppi3 Kuppi4 fr 6:00 6:10 6:20 6:30 6:40 aika Löytyykö säännönmukaisuutta? periodisuus (jaksollisuus tai syklisyys): sama hahmo toistuu tasaisin aikavälein uudestaan esim. ulkolämpötilan vaihtelee vuoden sykleissä elollisten käyttäytyminen vuorokauden sykleissä tasaisen kävelyn kiihtyvyyksissä esim. sekunnin sykli 6:00 6:10 6:20 6:30 6:40 aika Millaiset piirteet luonnehtivat luokan C aikasarjoja? piirteiden eristys Löytyykö aikasarjasta s lyhyempi aikasarja v? aikasarjan sovitus (subsequence matching) Tiedonlouhinta 2013/L7 p. 21 Tiedonlouhinta 2013/L7 p. 22 Ensin kannattaa suodattaa kohinaa Liukuva keskiarvo muuntaa x i :n x i :ksi: M x i = w j x i+ j j= m eli painotettu keskiarvo pisteistä x i m, x i m+1,..., x i,..., x i+m voi olla m=m tai M= 0 (vain edelliset pisteet) w j voi olla tasainen (jos pieni ympäristö) tai painottaa kaukaisia naapureita vähemmän mediaanisuodatin palauttaa tutkitun välin mediaanin suodattaa häiriöpiikkejä (voivat olla kiintoisia!) joskus vaikea erottaa kohinaa oikeasta signaalista! Tiedonlouhinta 2013/L7 p. 23 Trendi pitkän aikavälin muutos keskiarvossa tai mediaanissa viittaa yleensä lineaariseen muutokseen, mutta voi olla esim. polynomi (joskus jopa termi syklinen trendi ) lineaarinen trendi löytyy helposti yhden muuttujan lineaariregressiolla! samalla idealla (pienimmän neliösumman minimointi) voi sovittaa muitakin funktioita trendi kannattaa poistaa ennen periodisuuden tutkimista! Tiedonlouhinta 2013/L7 p. 24

Trendiesimerkki Sademäärät ja joen vesimäärän muutokset Keltaisenjoen alueella 1945 2000 Lähde: Xu et al.: Temporal trend of precipitation and runoff in major Chinese Rivers since 1951, Global and Panetary Change 73, pp. 219 232, 2010 Periodisuuden tunnistus Ongelma: Onko periodeja? Millä aikavälillä toistuvat? Helppo tekniikka: analysoidaan autokorrelaatiot tavallisen Pearsonin korrelaation sovellus aikasarjalle Hieman hankalampaa: spektraalianalyysi analysoidaan signaalin spektriä eli mistä taajuuskomponenteista se koostuu esim. Fourier- ja Wavelet-analyysi ei toimi aina (herkkä kohinalle tai ulkopuolisille?) Tiedonlouhinta 2013/L7 p. 25 Tiedonlouhinta 2013/L7 p. 26 Autokorrelaatio ja korrelogrammit Korrelogrammi: autokorrelaatiot :n funktiona Olkoon aika sarja x 1,..., x n. Yksinkertaistus: Ol. että X:n keskiarvo ja varianssi suurinpiirtein vakiot. Estimaatit: µ X = 1 n i x i jaσ 2 X = 1 n i(x i µ X ) 2 40 39.5 39 38.5 38 T 0.4 0.3 0.2 nimi..txt using 2 Idea: Tutkitaan :n päässä toisistaan olevien arvojen korrelaatiota R( )= n i=1 (x i µ X )(x i+ µx ) σ 2 X kannattaa tutkia systemaattisesti eri :n arvoilla (jos periodia ei arvata) tulokset voi esittää havainnollisesti korrelogrammina 37.5 37 36.5 36 35.5 35 0 20 40 60 80 100 120 140 160 180 0.1 0-0.1-0.2-5 0 5 10 15 20 25 30 Korrelogrammi Vasemmalla pötsin lämpötila tunneittain ja oikealla korrelogrammi. Tiedonlouhinta 2013/L7 p. 27 Tiedonlouhinta 2013/L7 p. 28

[Ekstra] Miten FT? [Extra] Esim.2: Sama märehtimiselle (kiihtyvyysdata) Ei selkeitä piikkejä liian epäsäännöllinen data? 180 Kok.kiiht. 0.5 nimi..txt using 2 178 0.4 176 0.3 174 0.2 172 0.1 170 0 168-0.1 166 0 50 100 150 200 250 300 350-0.2-10 0 10 20 30 40 50 Korrelogrammi Tiedonlouhinta 2013/L7 p. 29 Tiedonlouhinta 2013/L7 p. 30 [Extra] Esim. 2: Miten FT? Piirteiden eristys: esimerkkinä kiihtyvyys Ongelma: Datasta on kerättyä näytepaloja, esim. 10s pätkiä, joilta on kiihtyvyydet ja joiden aikainen toiminto (luokka) tiedetään. Eristä piirteitä joilla eri toimintoihin liittyvät sarjat voisi erottaa toisistaan! Tiedonlouhinta 2013/L7 p. 31 Tiedonlouhinta 2013/L7 p. 32

Tavallisia piirteitä Kukin data-alkio on siis osasarja (x 1, y 1, z 1 ),...,(x n, y n, z n ). Ajanhetkellä i kokonaiskiihtyvyys (sen magnitudi) kok= xi+ 2 y 2 i+ z 2 i. x:n, y:n ja z:n sekä kokonaiskiihtyvyyden keskiarvo, keskihajonta, minimi, maksimi, energia (neliösumma) joskus myös vinouma (skew) ja kurtoosi ( huipukkuus, kurtosis) jos pätkässä tarpeeksi pisteitä, myös xy-, xz- ja yz-korrelaatiot voivat olla hyviä (mutta herkkiä ulkopuolisille) Fourier-analyysistä ensimmäiset komponentit (jos tasaisen periodinen liike) Tiedonlouhinta 2013/L7 p. 33 Muunnettu signaali: kiihtyvyyden muutokset Heuristisia piirteitä: piikit 200 180 160 140 120 100 80 Piikkien lukumäärä, keskimääräinen tai maksimaalinen korkeus, korkeus/leveys-suhde, jne. Hyviä kun raju epäsäännöllinen liike! Voi tutkia myös muunnetusta signaalista 0 2 4 6 8 10 12 x y z Lehmä nousee makuulta Tiedonlouhinta 2013/L7 p. 34 Esimerkki: laskeutumisen kokonaiskiihtyvyyden magnitudierot Usein informatiivisempaa tutkia kiihtyvyyden magnitudin ja suunnan muutoksia! Kokonaiskiihtyvyyden magnitudierot mittarin orientaatiosta riippumattomia! kulmaerot vaativat origon tietämistä (arvio riittää) kannattaa tutkia myös xy-, xz- ja yz-tasoissa muunnetun signaalin aaltojen amplitudi ja frekvenssi sekä piikit hyviä piirteitä 300 250 200 150 100 50 0 20 40 60 80 100 120 140 x y z kok 80 kokero 60 40 20 0-20 -40-60 -80-100 0 20 40 60 80 100 120 140 Tiedonlouhinta 2013/L7 p. 35 Tiedonlouhinta 2013/L7 p. 36

Tapahtumadatan mallinnusmenetelmiä Tapahtumadatan mallinnusmenetelmiä Aikasarja muotoa (t 1, A 1 ),...,(t n, A n ), missä A i :t tapahtumia (kategorisia muuttujia) Markov-ketjut probabilistisia tilakoneita esim. Jos Mansikki juo nyt, millä todennäköisyydellä Mansikki alkaa nuolla seuraavaksi? Ongelma: riippuu siitä, monestiko on jo toistanut juo nuolee-sykliään Episodit Usein toistuvia tapahtumahahmoja, esim. tapahtumat A ja B esiintyvät peräkkäin tai rinnakkain Ongelma: perustuu vain frekvensseihin onko mitään tilastollista relevanssia? Haku edellyttää että hahmon templaatti on valmiiksi määritelty Tiedonlouhinta 2013/L7 p. 37 Tiedonlouhinta 2013/L7 p. 38 HMM:t ja dynaamiset Bayes-verkot (ennustukseen) Vinkkejä Kuvassa dynaaminen naiivi-bayes-verkko C 1 C 2 X 1 Y 1 Z 1 X 2 Y 2 Z 2 X 3 Y 3 Z 3 esim. C= toiminto ja X, Y ja Z kiihtyvyysdatasta eristettyjä piirteitä. Voidaan hyödyntää tietoa edellisestä toiminnosta! C 3 Piirrä (plottaa) paljon kuvia! (usein puolet mallinnusta) Periodisten hahmojen löytäminen vaatii paljon dataa! esim. eläimillä periodi yleensä vuorokausi eli oltava paljon vuorokausia joka yksilöltä Tarjolla monia tutkimushaasteita, esim. tilastotieteellisesti soundi (ja yleisempi) versio episodeista temporaalisen datan louhinta riippuvuussäännöillä (mukaan ajallista kontekstia kuvaavat muuttujat) Tiedonlouhinta 2013/L7 p. 39 Tiedonlouhinta 2013/L7 p. 40