805306A Johdatus monimuuttujamenetelmiin, 5 op

Samankaltaiset tiedostot
805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

Diskriminanttianalyysi I

Sovellettu todennäköisyyslaskenta B

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Estimointi. Vilkkumaa / Kuusinen 1

Logistinen regressio, separoivat hypertasot

Moniulotteisia todennäköisyysjakaumia

pitkittäisaineistoissa

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

805306A Johdatus monimuuttujamenetelmiin, 5 op

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Sovellettu todennäköisyyslaskenta B

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

R: mikä, miksi ja miten?

MTTTP1, luento KERTAUSTA

Kvantitatiiviset menetelmät

Tilastollinen aineisto Luottamusväli

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

tilastotieteen kertaus

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.

Otoskoko 107 kpl. a) 27 b) 2654

30A02000 Tilastotieteen perusteet

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Kandidaatintutkielman aineistonhankinta ja analyysi

Harjoitus 2: Matlab - Statistical Toolbox

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

pitkittäisaineistoissa

Vastepintamenetelmä. Kuusinen/Heliövaara 1

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus regressioanalyysiin

Johdatus tilastotieteeseen

Mat Tilastollisen analyysin perusteet, kevät 2007

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Mat Tilastollisen analyysin perusteet, kevät 2007

riippumattomia ja noudattavat samaa jakaumaa.

7. laskuharjoituskierros, vko 10, ratkaisut

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Avainsanojen poimiminen Eeva Ahonen

MTTTP1, luento KERTAUSTA

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testejä suhdeasteikollisille muuttujille

Väliestimointi (jatkoa) Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

9. laskuharjoituskierros, vko 12-13, ratkaisut

Mat Sovellettu todennäköisyyslasku A

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Aineiston visualisointimenetelmiä

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Sovellettu todennäköisyyslaskenta B

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Mallipohjainen klusterointi

Tilastotieteen aihehakemisto

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Sovellettu todennäköisyyslaskenta B

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

6. laskuharjoitusten vastaukset (viikot 10 11)

Mat Sovellettu todennäköisyyslasku A

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Teema 8: Parametrien estimointi ja luottamusvälit

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

MTTTP1, luento KERTAUSTA

Tekoäly ja koneoppiminen metsävaratiedon apuna

Tämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Tilastollisen tutkimuksen vaiheet

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Transkriptio:

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava: Petal.Length Petal.Width Species 1.7 0.4 setosa 5.6 2.2 virginica 1.4 0.2 setosa 1.4 0.2 setosa 3.9 1.4 versicolor 6.1 2.5 virginica 5.1 1.5 virginica 4.4 1.2 versicolor 5.7 2.3 virginica Erään aineistoon kuulumattoman kurjenmiekan terälehden pituus (Petal.Length) on 4.6 cm ja leveys (Petal.Width) on 2.0 cm. Minkä kurjenmiekkalajin (Species) kasvista on kyse? monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 2 / 26

Esitettyyn luokitteluongelmaan liittyvä havaintoaineiston informaatio voidaan esittää esimerkiksi seuraavan kuvan avulla: 3.0 2.5 2.0 luokiteltava havainto Petal.Width 1.5 1.0 0.5 Setosa Virginica Versicolor 0.0 1 2 3 4 5 6 7 Petal.Length Luokittelisitko havainnon yllä olevan kuvan perusteella setosa lajin kurjenmiekaksi? monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 3 / 26

K:n lähimmän naapurin menetelmässä ideana on luokitella havainto siihen luokkaan, johon suurin osan sen K:sta lähimmästä naapurista kuuluu Luokittelua varten tarvitaan etäisyysmitta mittaamaan kahden havainnon välistä etäisyyttä (läheisyyttä) Pisteiden (x1, y 1 ) ja (x 2, y 2 ) välinen euklidinen etäisyys d e tavanomaisessa kaksiulotteisessa koordinaatistossa on d e = (x 1 x 2 ) 2 + (y 1 y 2 ) 2 Esimerkissämme luokiteltavan havainnon (4.6,2.0) euklidinen etäisyys havaintoaineiston seitsemänteen havaintoon (5.1,1.5) on siten d e = (4.6 5.1) 2 + (2.0 1.5) 2 = 0.71 monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 4 / 26

Seuraavassa kuvassa on esitetty havaintoaineistoon kuuluvien havaintojen euklidiset etäisyydet luokiteltavasta havainnosta: 3.0 2.5 2.0 luokiteltava havainto 1.14 1.02 1.58 Petal.Width 1.5 1.0 0.92 0.82 0.71 0.5 0.0 3.67 3.31 Setosa Virginica Versicolor 1 2 3 4 5 6 7 Petal.Length Valitaan luokittelun kriteeriksi esimerkiksi K = 3 lähintä havaintoa. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 5 / 26

Valituista kolmesta lähimmästä havainnosta kaksi kuuluu lajiin versicolor ja yksi lajiin virginica, kun taas lajiin setosa kuuluvia havaintoja ei kolmen lähimmän naapurin joukossa ole. Nyt voidaan arvioida, että P(Species = versicolor Petal.Length = 4.6, Petal.Width = 2.0) = 2/3 P(Species = virginica Petal.Length = 4.6, Petal.Width = 2.0) = 1/3 P(Species = setosa Petal.Length = 4.6, Petal.Width = 2.0) = 0/3 Ns. Bayes-luokittelijan perusteella luokiteltava havainto luokitellaan siihen luokkaan, johon liittyvä yllä annettu ehdollinen todennäköisyys on suurin. Havainto luokitellaan siten versicolor lajin kurjenmiekaksi. Jos luokittelun kriteerinä olisi lähimmän (K = 1) naapurin kriteeri, luokittelisimme havainnon lajin virginica kurjenmiekaksi, koska aineistossamme ko. lajin edustaja sijaitsee lähimpänä luokiteltavaa havaintoa. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 6 / 26

K:n lähimmän naapurin menetelmä voidaan suorittaa R:llä esimerkiksi class()-paketin funktiolla knn(): monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 7 / 26

Edellisen esimerkin alussa annetut yhdeksän havaintoyksikköä muodostivat ns. opetusaineiston, jonka perusteella muodostettiin uusien havaintojen luokitettelusääntö. Uusien havaintojen luokittelu tehtiin kyseisen luokittelusäännön perusteella. K:n lähimmän naapurin menetelmässä Vastemuuttuja Y on luokiteltu muuttuja Selittävät muuttujat (p kpl) voivat olla joko luokiteltuja tai jatkuvia muuttujia Havaintojen luokittelu perustuu Bayes-luokittelijaan, jonka perusteella havainto, jonka p-ulotteinen selittäjävektori on x 0, luokitellaan siihen vasteen luokkaan j, jossa P(Y = j X = x 0 ) on suurin. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 8 / 26

Bayes-luokittelijassa esiintyviä ehdollisia todennäköisyyksiä P(Y = j X = x 0 ) ei kuitenkaan tunneta, joten ne on estimoitava opetusaineiston perusteella Luokittelusäännön muodostamista varten valitaan luokittelussa vaikuttavien lähimpien naapurihavaintojen lukumäärä K Etsitään aineistosta luokiteltavan havainnon K lähintä naapuri(havainto)a jonkin sopivan etäisyysmitan avulla. Merkitään näiden havaintojen muodostamaa joukkoa merkinnällä N 0 Bayes-luokittelijan ehdollisia todennäköisyyksiä P(Y = j X = x 0 ) voidaan nyt estimoida kaavalla P(Y = j X = x 0 ) = 1 I(y i = j) K i N 0 Todennäköisyyttä P(Y = j X = x 0 ) estimoidaan siis vasteen luokkaan j kuuluvien havaintojen suhteellisella osuudella K:n lähimmän naapurin joukossa. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 9 / 26

Uusi havainto luokitellaan siihen luokkaan j, jossa sen havaintoproilin x 0 liittyvä estimoitu ehdollinen todennäköisyys tapahtumalle P(Y = j) on suurin Lähimpien naapureiden valintaa varten tarvitaan tilanteeseen sopiva etäisyys- tai samankaltaisuusmitta d, joka mittaa p-ulotteisessa avaruudessa sijaitsevien havaintojen (pisteiden) a 1 = (x 11, x 12,..., x 1p ) ja a 2 = (x 21, x 22,..., x 2p ) etäisyyden tai samankaltaisuuden määrän Numeerisille (jatkuville) muuttujille käytetään yleisimmin ns. euklidista etäisyyttä, jolloin d(a 1, a 2 ) = (x 11 x 21 ) 2 + (x 12 x 22 ) 2 +... + (x 1p x 2p ) 2 monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 10 / 26

Tällöin esimerkiksi 1-ulotteisessa tilanteessa a1 = x 11 ja a 2 = x 21 : d(a 1, a 2) = (x 11 x 21) 2 = x 11 x 21 2-ulotteisessa tilanteessa a1 = (x 11, x 12) ja a 2 = (x 21, x 22) : jne... d(a 1, a 2) = (x 11 x 21) 2 + (x 12 x 22) 2 Binäärimuuttujille ja merkkijonoille voidaan käyttää esim. Hammingin etäisyyttä, joka laskee käytännössä kahden samanmittaisen merkkijonon toisistaan poikkeavien vastinalkioiden lukumäärän Bittijonojen (1 0 1 1 1 0) ja (1 0 1 1 0 0) välinen Hammingin etäisyys on 1. Merkkijonojen kanava ja panama välinen Hammingin etäisyys on 2. Sopivan etäisyysmitan löytyminen on haastavinta luokiteltujen aineistojen ja ns. seka-aineistojen tilanteissa monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 11 / 26

Mikä olisi sopiva naapuruston koko K? Jos K on liian pieni, luokittelijasta tulee epävakaa suuri, voi naapuruston yleisin luokka poiketa oikeasta liian usein monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 12 / 26

Sopiva K:n arvo löytyy usein kokeilemalla (katso demo!). Pienidimensioisille (ja samalla riittävästi havaintoja sisältäville) aineistoille sopiva K:n arvo löytyy usein väliltä 510. Virheellisten osuus K:n eri arvoilla (hsb aineisto) Virheellisten osuus 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0 5 10 15 20 25 30 K monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 13 / 26

Eräässä K:n lähimmän naapurin menetelmän versiossa luokittelusääntö huomioi kaikki opetusaineiston havainnot (jolloin K = n) siten, että (lähimpien) naapurien vaikutus luokitteluun heikkenee sitä mukaa mitä kauempana ne ovat luokiteltavasta havainnosta (ns. painotetun K-lähimmän naapurin menetelmä). K lähimmän naapurin menetelmän etuja ovat mm.: Luokittelu- ja oppimismenetelmänä tehokas ja häiriösietoinen (vähäinen reagointi outliereihin) monissa sovellustilanteissa Luokittelija paranee sitä mukaa, kun opetusaineistoa saadaan lisää Menetelmä on parametriton menetelmä, joten selittäjien jakaumien muodosta ei tarvitse tehdä vaativia oletuksia monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 14 / 26

haittoja ovat mm.: Ei suositella suuridimensioisille aineistoille: jos esimerkiksi 20 selittäjästä vain muutama selittäjä on luokittelun kannalta merkityksellinen, voivat samankaltaiset luokat joutua kauaksi erilleen ja luokittelijan 'hyvyys' heikkenee (ns. dimensionaalisuuden kirous, curse of dimensionality) Hyvän etäisyysmitan d valinta voi olla haastavaa Esimerkiksi tilanteeseen, jossa selittäjät noudattavat multinormaalijakaumaa, on olemassa parempia luokittelumenetelmiä K lähimmän naapurin menetelmä on esimerkki ns. laiskasta oppijasta: opetusvaihe on nopea, mutta luokitteluvaihe on hidas. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 15 / 26

Esimerkki Laajennetaan aiempaa kurjenmiekka-esimerkkiä siten, että analysoimme R:n mukana tulevaa iris-aineistoa, jossa on mittaustiedot kaikkiaan 150 kurjenmiekasta seuraavista muuttujista: Sepal.Length: Sepal.Width: Petal.Length: Petal.Width: Species: verholehden pituus verholehden leveys terälehden pituus terälehden leveys kasvin laji Aineistossa on 50 edustajaa kustakin kolmesta lajista: versicolor, setosa ja virginica. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 16 / 26

Poimitaan ko. aseistosta 75 kappaleen satunnaisotos, joka toimii jatkossa analyysissämme opetusaineistona. Tavoitteena on luokitella tämän jälkeen alkuperäiseen aineistoon jäljelle jääneet 75 havaintoa k lähimmän naapurin menetelmällä oikeisiin lajiluokkiinsa. Opetusaineiston poiminta Opetusaineistoon valitaan siis selittäjiksi aineiston kaikki neljä numeerista muuttujaa ja kasvin oikean lajin kertova muuttuja talletetaan omaksi vektoriksi nimellä oikealaji. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 17 / 26

Opetusaineiston parittainen sirontakuviomatriisi: 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Petal.Length setosa versicolor virginica 1 2 3 4 5 6 7 0.5 1.0 1.5 2.0 Petal.Width Sepal.Length 4.5 5.5 6.5 7.5 2.5 3.0 3.5 4.0 Sepal.Width 1 2 3 4 5 6 7 4.5 5.5 6.5 7.5 monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 18 / 26

Luokitellaan seuraavaksi alkuperäiseen havaintoaineistoon testiaineistoksi jääneet havainnot eri lajeihin kuuluviksi k lähimmän naapurin menetelmällä. Valitaan analyysissä käytettäväksi k:n arvoksi 5. Oikein luokiteltujen osuus on nyt (23 + 23 + 23)/75 = 0.92 eli 92 %. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 19 / 26

Luokituksen lopputulos näkyy parittaisessa sirontakuviomatriisissa seuraavasti: 0.5 1.0 1.5 2.0 2.5 2.0 2.5 3.0 3.5 4.0 Petal.Length Setosa Versicolor Virginica Väärä luokitus 1 2 3 4 5 6 0.5 1.0 1.5 2.0 2.5 Petal.Width Sepal.Length 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width 1 2 3 4 5 6 4.5 5.5 6.5 7.5 monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 20 / 26

Tässä esimerkissä luokituksen lopputulos jopa paranee, jos käytämme selittäjänä vain kahta muuttujaa: Petal.Length ja Petal.Width. 0.5 1.0 1.5 2.0 2.5 Setosa Versicolor Virginica Väärä luokitus Petal.Length 1 2 3 4 5 6 0.5 1.0 1.5 2.0 2.5 Petal.Width 1 2 3 4 5 6 monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 21 / 26

Selittäjien standardoinnista Jos selittävät muuttujat on mitattu eri mittayksiköissä ja/tai niiden vaihtelu on selvästi eri suurta, kannattaa analyysissä usein käyttää standardoituja selittäjiä. Muuttujan standardointi z i = x i x s x, i = 1,..., n Standardoidulla muuttujalla aritmeettinen keskiarvo x = 0 ja keskihajonta s x = 1. Ilman standardointia suuren vaihtelun (varianssin) omaava muuttuja hallitsee etäisyyslaskentaa ja peittää alleen muiden muuttujien yhteyden vasteeseen. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 22 / 26

Esimerkki Luokiteltavalla muuttujalla on kolme mahdollista arvoa: A, B ja C. Selittäjänä ovat numeeriset muuttujat x ja y ja opetusaineistossa tilanne on seuraava: 15 Ryhmä A Ryhmä B Ryhmä C 10 y 5 0 0 5 10 15 x monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 23 / 26

Luokiteltavaksi saadaan uusi havainto: 15 Ryhmä A Ryhmä B Ryhmä C Luokiteltava piste y 10 5 0 0 5 10 15 x Kumpi selittäjistä on mielestäsi parempi selittäjä? Onko selittäjien vaihtelu yhtä suurta? monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 24 / 26

Etsitään luokiteltavalle havainnolle opetusaineiston 10 lähintä naapuria, kun etäisyyslaskennessa on mukana kumpikin muuttuja y 15 10 y + s y y Ryhmä A Ryhmä B Ryhmä C Luokiteltava piste Lähimmat naapurit y s y 5 0 0 5 10 15 Kumpi muuttujista vaikuttaa enemmän lähimpien naapureiden etsinnässä? Ovatko nämä naapurit läheisiä luokiteltavalle havainnolle kummankin selittäjän suhteen? x monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 25 / 26

Käytetään seuraavaksi lähimpien naapureiden etsinnässä selittäjien standardoituja arvoja, jolloin tilanne on seuraava: 3 2 standardoitu y 1 0 1 2 3 3 2 1 0 1 2 3 standardoitu x Nyt kumpikin selittäjä vaikuttaa yhtä suurella painolla lähimpien naapureiden etsinnässä, monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 26 / 26