Ajatellaan jotakin datajoukkoa joka on talletettu datamatriisiin X: n vectors. TKK, Informaatiotekniikan laboratorio 1

Samankaltaiset tiedostot
Tämän luennon sisältö. Luku 3. Data vektoreina. Datamatriisi (2) Datamatriisi. T Datasta tietoon, syksy 2011

Luku 3. Data vektoreina

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

1 Vastaa seuraaviin. b) Taajuusvasteen

Numeeriset menetelmät

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

T Datasta tietoon, syksy 2011

Spektri- ja signaalianalysaattorit

Luku 1. Johdantoluento

1 Ominaisarvot ja ominaisvektorit

MS-C1340 Lineaarialgebra ja

Digitaalinen signaalinkäsittely Kuvankäsittely

Insinöörimatematiikka D

5 Ominaisarvot ja ominaisvektorit

e ax, kun x > 0 f(x) = 0, kun x < 0, 0, kun x > 0 e ax, kun x < 0 e (a iω)x dx = a+iω = 1 a 2 +ω 2. e ax, x > 0 e ax, x < 0,

Osoita, että täsmälleen yksi vektoriavaruuden ehto ei ole voimassa.

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Lineaarialgebra ja differentiaaliyhtälöt Laskuharjoitus 1 / vko 44

Signaalit ja järjestelmät aika- ja taajuusalueissa

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

1 Lineaariavaruus eli Vektoriavaruus

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

JAKSO 2 KANTA JA KOORDINAATIT

Tietoliikennesignaalit & spektri

Johdatus matematiikkaan

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

Matriisilaskenta, LH4, 2004, ratkaisut 1. Hae seuraavien R 4 :n aliavaruuksien dimensiot, jotka sisältävät vain

802320A LINEAARIALGEBRA OSA I

1 Sisätulo- ja normiavaruudet

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SIGNAALITEORIAN KERTAUSTA 1

JOHDATUS TEKOÄLYYN TEEMU ROOS

4. Fourier-analyysin sovelletuksia. Funktion (signaalin) f(t) näytteistäminen tapahtuu kertomalla funktio näytteenottosignaalilla

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Numeeriset menetelmät TIEA381. Luento 14. Kirsi Valjus. Jyväskylän yliopisto. Luento 14 () Numeeriset menetelmät / 55

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe

JOHDATUS TEKOÄLYYN TEEMU ROOS

2.5. Matriisin avaruudet ja tunnusluvut

JOHDATUS TEKOÄLYYN TEEMU ROOS

Jaksollisen signaalin spektri

Avaruuden R n aliavaruus

802320A LINEAARIALGEBRA OSA II

Sisätuloavaruudet. 4. lokakuuta 2006

T DATASTA TIETOON

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Signaalien datamuunnokset

Signaalien datamuunnokset. Digitaalitekniikan edut

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Talousmatematiikan perusteet: Luento 9

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Osa IX. Z muunnos. Johdanto Diskreetit funktiot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

Insinöörimatematiikka D

Lineaarialgebra ja matriisilaskenta II Syksy 2009 Laskuharjoitus 1 ( ) Ratkaisuehdotuksia Vesa Ala-Mattila

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Digitaalinen audio

Insinöörimatematiikka D

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Ratkaisuehdotukset LH 7 / vko 47

Insinöörimatematiikka D

Ristitulolle saadaan toinen muistisääntö determinantin avulla. Vektoreiden v ja w ristitulo saadaan laskemalla determinantti

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen.

Derivaatta: funktion approksimaatio lineaarikuvauksella.

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Laskennallinen data-analyysi II

Signaalien generointi

ELEC-C5070 Elektroniikkapaja (5 op)

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

Määritelmä 1. Olkoot V ja W lineaariavaruuksia kunnan K yli. Kuvaus L : V. Termejä: Lineaarikuvaus, Lineaarinen kuvaus.

Determinantti 1 / 30

Insinöörimatematiikka D

Ortogonaaliprojektio äärellisulotteiselle aliavaruudelle

=p(x) + p(y), joten ehto (N1) on voimassa. Jos lisäksi λ on skalaari, niin

Bijektio. Voidaan päätellä, että kuvaus on bijektio, jos ja vain jos maalin jokaiselle alkiolle kuvautuu tasan yksi lähdön alkio.

3.1 Lineaarikuvaukset. MS-A0004/A0006 Matriisilaskenta. 3.1 Lineaarikuvaukset. 3.1 Lineaarikuvaukset

802320A LINEAARIALGEBRA OSA III

Päättelyn voisi aloittaa myös edellisen loppupuolelta ja näyttää kuten alkupuolella, että välttämättä dim W < R 1 R 1

DSP:n kertausta. 1 Spektri, DFT, DTFT ja aika-taajuusresoluutio

MS-C1340 Lineaarialgebra ja

Laskuharjoitus 4 ( ): Tehtävien vastauksia

Muuntavat analogisen signaalin digitaaliseksi Vertaa sisääntulevaa signaalia referenssijännitteeseen Sarja- tai rinnakkaismuotoinen Tyypilliset

Lineaarialgebra ja matriisilaskenta I. LM1, Kesä /218

Luento 8: Epälineaarinen optimointi

Pienimmän neliösumman menetelmä

Tuntematon järjestelmä. Adaptiivinen suodatin

Insinöörimatematiikka D

Insinöörimatematiikka D

Insinöörimatematiikka D

802320A LINEAARIALGEBRA OSA II/PART II

Ratkaisuehdotukset LH 3 / alkuvko 45

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Täydellisyysaksiooman kertaus

Matematiikka kaikille, kesä 2017

Transkriptio:

3. DATA VEKTORINA 3.1. Vektorit, matriisit, etäisyysmitat Ajatellaan jotakin datajoukkoa joka on talletettu datamatriisiin X: n vectors {}}{ d vector elements X TKK, Informaatiotekniikan laboratorio 1

Matriisin sarakkeet ovat siis yksittäisiä datavektoreita ja kukin rivi vastaa tiettyä vektorialkiota (mittaustulosta, piirrettä, attribuuttia) Esimerkiksi kukin datavektori voisi olla äänispektri soittimen äänestä, jolloin vektorialkiot vastaisivat taajuuksia. Koko datamatriisi on tällöin ns. spektrogrammi (kuva). Kaikkea dataa ei suinkaan voi esittää vektorina mutta tämä kattaa hyvin paljon tapauksia. Vrt. myös relaatiotietokannat joissa tietueet on talletettu binäärivektoreina (kuva). Merkitään seuraavassa d-ulotteista vektoria merkinnällä x ja sen alkioita x 1, x 2,..., x d. Oletan että vektorien yhteenlasku x + y, sisätulo x T y ja normi x ovat tunnettuja, samoin matriisilla kertominen Ax, matriisien yhteenlasku A + B ja tulo AB sekä matriisin ominaisarvot ja -vektorit Ax = λx. TKK, Informaatiotekniikan laboratorio 2

3.2. Datan piirreirrotus ja vektorointi Analogisen datan digitointi Usein data on jo vektorimuodossa: siis järjestetty joukko lukuja (jatkuva-arvoisia, binäärisiä...). Jotta jatkuva (analoginen) data saataisiin tähän muotoon, se täytyy diskretoida (digitoida). Analoginen signaali, esim. ääni, kuvataan ajan mukana vaihtuvana jatkuvana funktiona f(t) Sekä aika t että amplitudi f täytyy diskretoida jotta ne voi esittää digitaalisessa muodossa Käytännössä mittalaite tekee sen analogia-digitaali (A/D) -muuntimensa avulla Esim. digikamera, tietokoneen äänikorttiin kytketty mikrofoni TKK, Informaatiotekniikan laboratorio 3

Tähän liittyvä teoreettinen kysymys on näytteistys (sampling) Yksiulotteinen signaali f(t) muutetaan jonoksi f m = f(mt) missä T on näytteistysväli Jos näytteistystaajuus 1/T on riittävän suuri verrattuna f(t):n suurimpaan taajuuteen, voidaan itse asiassa koko f(t) palauttaa näytteistään (näytteistyslause, sampling theorem; ks. kurssi T-61.3010 Digitaalinen signaalinkäsittely ja suodatus) Taajuusspektri Mitä tarkoittaa f(t):n taajuus? Funktiolla f(t) on taajuusspektri joka määritellään Fourier-muunnoksen avulla (kuva): F(ω) = f(t)e iωt dt TKK, Informaatiotekniikan laboratorio 4

missä ω on (kulma)taajuus ja i = 1 Tämän kompleksifunktion itseisarvo voidaan piirtää käyränä, ja se on ns. amplitudispektri. Perusteluja: taajuus on jaksollisen funktion ominaisuus (montako kertaa sekunnissa jakso toistuu), ja sinikäyrä f(t) = sin(αt + θ) on kaikkein tyypillisin jaksollinen funktio. α on sen (kulma)taajuus, θ on vaihe. Sinikäyrän Fourier-muunnos on nolla paitsi kulmataajuuden arvoilla ω = ±α (miksi?), joten F-muunnos paljastaa sinin taajuuden. Jos f(t) on summa monesta sinikäyrästä, niiden kaikkien taajuudet näkyvät piikkeinä taajuusalueessa eli kompleksitasossa. Diskreetti Fourier-muunnos (DFT) määritellään digitoidulle TKK, Informaatiotekniikan laboratorio 5

signaalille f m, m = 0,..., T 1: F n = T 1 m=0 f m e 2πimn/T Ks. demo http://www.jhu.edu/ signals/sampling/ Taajuussuodatus Usein aikasignaalista halutaan poistaa tiettyjä taajuuksia, esim. korkeita taajuuksia jotka vastaavat kohinaa tai verkkovirran taajuus 50 Hz. Tässä käytetään hyväksi lineaarisia suotimia jotka laskennallisesti toteutetaan ns. konvoluutiona: g k = f m s k m m= missä f m on suodatettava digitaalinen signaali ja s j on vastaavasti TKK, Informaatiotekniikan laboratorio 6

suodin (äärellinen lukujono). On helppo todistaa että konvoluution Fourier-muunnokselle pätee G n = F n S n Jos siis halutaan estää / korostaa tiettyjä taajuuksia, valitaan suodinjono s k siten että sen F-muunnoksessa S n nämä taajuudet ovat heikkoja / vahvoja. Suodattimen suunnittelu käytännössä on oma taiteenlajinsa, ks. Digitaalisen signaalinkäsittelyn ja suodatuksen kurssi. Joko aika-alueen digitaalinen signaali f m tai taajuusalueen digitaalinen signaali F n (amplitudispektri, mahdollisesti täydennettynä vaiheella) voivat sellaisenaan olla vektoreita joita jatkossa analysoidaan. Esimerkkinä puheen spektrogrammi. Kuville on olemassa 2-ulotteinen DFT jota voi vastaavalla tavalla TKK, Informaatiotekniikan laboratorio 7

käyttää kuvien suodatukseen; vrt. digikameroiden kuvankäsittelyoptiot. Spektriä voi myös kokonaisuudessaan tai osina käyttää tehokkaana piirrevektorina kuville. Se paljastaa esim. kuvassa olevien viivojen yleisimmät suunnat. Enemmän kurssissa T-61.5100 Digitaalinen kuvankäsittely. Muita tyypillisiä piirteitä eri datatyypeille Hyvin yleinen ja tehokas piirretyyppi on histogrammi DFT on esimerkki tästä eli taajuushistogrammi: paljonko signaalissa tai kuvassa on tiettyä taajuutta Kuvan värihistogrammi kertoo montako pikseliä kuvassa on kutakin väriä (dimensio 16.7 miljoonaa tiivistämättömänä) Tekstidokumentin sanahistogrammi kertoo montako kertaa kukin TKK, Informaatiotekniikan laboratorio 8

sana esiintyy dokumentissa (dimensio 50.000-100.000 tiivistämättömänä) Hyvä piirteiden lähde ovat standardit, etenkin JPEG (joint photographic experts group) ja MPEG (moving pictures expert group); esim MPEG-1 Audio Layer 3 eli MP3 äänelle ja musiikille Ne on kehitetty äänen, kuvien ja videon pakkaamiseen, mutta pakattua muotoa voi käyttää myös piirteenä automaattisessa analyysissä Teksti vektorina Edellä mainitttiin jo sanahistogrammit Jos yksittäisten dokumenttien sanahistogrammit ovat datamatriisin X sarakkeina, sitä kutsutaan termi-dokumentti-matriisiksi Käytännössä matriisia useimmiten muokataan seuraavasti: TKK, Informaatiotekniikan laboratorio 9

1. Tavallisimmat sanat (ja, siis,...) poistetaan; 2. sanoja (termejä) painotetaan niiden tärkeyden mukaan, usein käyttäen ns. käänteistä dokumenttitaajuutta (inverse document frequency) w(sana) = ln( L df(sana) ) missä w(sana) on painokerroin, df(sana) on sanan dokumenttifrekvenssi (kuinka monessa kokoelman dokumentissa tuo sana esiintyy), ja L on kokelman dokumenttien lukumäärä Nyt kunkin dokumentin sanahistogrammissa arvot kerrotaan painoilla w. Siten esim. sana ja joka luultavasti esiintyy jokaisessa dokumentissa (suomenkielisessä kokoelmassa) saa histogrammiarvon 0. Hankalampi tapaus ovat synonyymit ja sanojen taivutusmuodot. TKK, Informaatiotekniikan laboratorio 10

Näitä pohditaan kurssissa T-61.5020 Luonnollisen kielen tilastollinen mallinnus. Samaa vektorointimuotoa voi käyttää mille tahansa merkkijonoille; esim geneettisessä koodissa on 4 kirjainta A,C,G,T jotka ovat lyhenteitä tietyille nukleotideille. Sana voi olla esim. 3 merkin pituinen osajono: AAA, AAC,... TTT joita on vain 4 3 = 64 erilaista ja siten termi-dokumenttimatriisin sarakkeet 64-dimensioisia. Samantapainen idea yleistyy puille ja niitäkin yleisemmille tietorakenteille. TKK, Informaatiotekniikan laboratorio 11

3.3. Dimensionaalisuuden kirous Otoksen koko suhteessa avaruuden dimensioon Ajatellaan histogrammia moniulotteisessa avaruudessa. Katsotaan oheista kahta 1-ulotteista histogrammia: toisessa on 256 lokeroa, toisessa 17. Jos halutaan tasossa (2-ulotteinen avaruus) 17 lokeroa/dimensio, tulee jo 17 x 17 = 289 lokeroa (pientä suorakaidetta). Riittääkö data täyttämään ne? d-ulotteisessa avaruudessa 17 d ; esim. jos d = 100, niin 17 100! Maailmankaikkeuden atomien lukumääräksi arvioidaan 10 79 joten jo 79-ulotteisessa vektoriavaruudessa, jossa 10 lokeroa kullakin koordinaattiakselilla, tulisi vain 1 atomi kuhunkin lokeroon. Mikä tahansa vektorijoukko korkeaulotteisessa avaruudessa on tavattoman harva. TKK, Informaatiotekniikan laboratorio 12

Tämä on dimensionaalisuuden kirous: tarvitaan valtavasti dataa minkäänlaisen mallin muodostamiseksi korkeaulotteiselle datalle. Korkeulotteisten vektoriavaruuksien omituisuuksia Ajatellaan neliötä, kuutiota, hyperkuutiota jonka sivun pituus on 1 ja dimensio d. Ajatellaan datajoukkoa (datamatriisin X sarakkeet) joka on jakautunut tasaisesti hyperkuutioon. (Kussakin kahdessa osajoukossa joilla on sama tilavuus on keskimäärin sama määrä vektoreita). Kun d on suuri, törmätään joihinkin yllättäviin ilmiöihin. 1. Melkein koko hyperkuutio tarvitaan kattamaan pienikin osuus vektoreista. Mikä on sellaisen pienemmän hyperkuution sivun pituus, joka sisältää osuuden p kaikista vektoreista? (Esim. kymmenesosan, p = 0.1). Merkitään sivun pituutta s(p) Neliö: s(0.1) = 0.1 0.32, s(p) = p TKK, Informaatiotekniikan laboratorio 13

Kuutio: s(0.1) = (0.1) 1/3 0.46 s(p) = p 1/3 10-ulotteinen: s(0.1) = (0.1) 1/10 0.80 d-ulotteinen hyperkuutio: s(p) = p 1/d Mille tahansa osuudelle p pätee s(p) 1 kun d. Lähes koko hyperkuutio tarvitaan kattamaan pienikin osuus datasta. 2. Pisteet ovat kaukana toisistaan: melkein jokainen vektori (datapiste) on lähempänä kuution reunaa kuin toista pistettä. Hyperkuution keskipisteen etäisyys reunasta on 0.5. Se on maksimietäisyys; yleensä pisteiden etäisyys reunasta on pienempi. Olkoon datapisteitä n kpl ja avaruuden dimensio d. Voidaan osoittaa että pisteiden keskimääräinen etäisyys on D(d, n) = 1 2 ( 1 n )1/d. Nähdään että olipa n mikä tahansa, D(d, n) 0.5 kun d. TKK, Informaatiotekniikan laboratorio 14

3. Jos tehdään tasavälinen histogrammi, niin melkein kaikki lokerot ovat hyperkuution pinnalla. Olkoon lokeroiden lukumäärä dimensiota kohti b, kaikkiaan silloin lokeroita b d. Niistä osuus ( b 2 b )d on kuution sisäosassa. Mutta tämä menee nollaan kun d. Kaikki yhdessä osoittavat että korkeaulotteinen hyperkuutio ei vastaa käsitystämme kuutiosta, vaan on pikemminkin piikikäs. Opetus: data-analyysissä olisi tärkeää saada dimensio jotenkin pudotettua mahdollisimman pieneksi, että vältetään yo. ilmiöt. TKK, Informaatiotekniikan laboratorio 15

3.4. Esimerkki piirreirrotuksesta: PicSOM TKK, Informaatiotekniikan laboratorio 16