Maria Valaste Kela & Helsingin yliopisto 24.5.2012 SAS Technical Club
Sisällys 1 2 3 Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva 4 Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen institution-logo-filen
institution-logo-filen SAS/IML Studion (aiemmin SAS Stat Studio) kautta mahdollista käyttää a SAS 9.2 versiosta lähtien Vaatii toimiakseen SAS kokonaisuudet: Base SAS, SAS/STAT ja SAS/IML Ohjelmointikielenä SAS/IML Studiossa on IMLPlus, joka on laajennus SAS/IML ohjelmointikielestä SAS/IML Studiolla voi mm. käyttää R:n ominaisuuksia SAS/IML ja SAS ohjelmia. SAS- ja R-muotoisten datatiedostojen ja -matriisien käyttö on suhteellisen helppoa
institution-logo-filen R on tilastollinen ohjelmointiympäristö Vapaa ohjelma Ladattavissa osoitteesta http://cran.r-project.org/ Saatavilla eri käyttöjärjelmille (Linux, Windowsiin ja Macintosh) Moni uusista tilastometodeista on ensin koodattu an
Aineisto: Economic Freedom 2009* Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva # Variable Type Label 1 Country Char Country 2 Overall Num 2009 Overall 3 Business Num Business Freedom 4 Trade Num Trade Freedom 5 Fiscal Num Fiscal Freedom 6 GovtSize Num Government Size 7 Monetary Num Monetary Freedom 8 Investm Num Investment Freedom 9 Finance Num Finance Freedom 10 Property Num Property Rights 11 Corrupt Num Freedom from Corrupt 12 Labor Num Labor Freedom 13 EU Num 1=EU, 0=Ei EU * Lähde: http://www.heritage.org/index/ institution-logo-filen
institution-logo-filen Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva libname a C:\Users\Maria\STUFF\Esitys 20120524 ; submit; proc corr data=a.econfree noprob; var Overall Business Trade Fiscal GovtSize Monetary Investm Finance Property Corrupt Labor; run; endsubmit;
Tunnuslukuja (R) Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva /* Lähetetään data EconFree an */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; print( Tulostetaan sta: ); EconFree <- EconFree[,2:12] # Country & Eu jäävät pois names(econfree) # tulostetaan muuttujalista c = cor(econfree) # korrelaatiomatriisi nimet <- colnames(c) # muuttujien nimien tallennus endsubmit; run ImportMatrixFromR( IMLNames, nimet ); run ImportMatrixFromR( IMLCorr, c ); print Korrelaatiomatriisi: ; print IMLCorr[rowname=IMLNames colname=imlnames]; institution-logo-filen
Hierarkkinen ryhmittely Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva /* Hierarkkinen ryhmittely */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; EconFree2 <- EconFree[,1:12] d <- dist(econfree2, method = euclidean ) # etäisyysmatriisi # ryhmittelymenetelmä etäisin naapuri t <- hclust(d, method= complete ) # puukuvan (dendrogrammi) piirto plot(t,labels=econfree2$country) ryhma <- cutree(t, k=4) # jaetaan neljään ryhmään # korostetaan ryhmiä kuvassa rect.hclust(t, k=4, border= red ) endsubmit; institution-logo-filen
Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva Cluster Dendrogram Height 0 20 40 60 80 100 120 140 Denmark Austria Belgium Netherlands United_Kingdom Sweden Finland Germany Greece Poland Lithuania Slovak_Republic Bulgaria Romania Ireland Spain Estonia Luxembourg Malta Cyprus Czech_Republic Hungary Italy France Portugal Slovenia d hclust (*, "complete") institution-logo-filen
Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva institution-logo-filen /* Piirretään Chernoffin naamoja */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; # Otetaan TeachingDemos käyttöön library(teachingdemos) EconFree3 <- EconFree[,1:12] faces(econfree3[,2:12], labels=econfree3$country) endsubmit;
Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva institution-logo-filen Austria Belgium Bulgaria Cyprus Czech_Republic Denmark Estonia Finland France Germany Greece Hungary Ireland Italy Lithuania Luxembourg Malta Netherlands Poland Portugal Romania Slovak_Republic Slovenia Spain Sweden United_Kingdom
institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Simulointisuunnitelma: 1 Luodaan aineisto SAS:n työkaluilla 2 Viedään aineisto an, jossa moni-imputoidaan simuloitua dataa PAN-paketilla 3 Tuodaan moni-imputoitu aineisto SAS/IML Studioon ja yhdistetään laskelmat proseduurin MIANALYZE avulla 4 Sovitetaan malli ja tulostetaan tulokset
Luodaan aineisto SAS:n työkaluilla Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Proseduuri SIMNORMAL luo ennalta annetulla korrelaatiomatriisi- tai kovarianssimatriisirakenteella simuloidun aineiston normaalijakaumasta Esimerkissä luodaan muuttujat x1 ja x2 Yhdessä aineistossa kaksi eri kokoista klusteria (koot: 2 ja 3) ja kummassakin klusterissa 600 havaintoa Simuloidaan kymmenen aineistoa Luodaan jokaiselle havainnolle id-muuttuja sekä jokaiselle klusterille oma id Jäljempänä laskettavaan logistista mallia varten simuloidaan Y -muuttuja sekä jokaiselle klusterille oma satunnainen vakio Käytetään proseduuria SURVEYSELECT satunnaisten puuttuvien arvojen luomiseen institution-logo-filen
institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Viedään aineisto an, jossa moni-imputoidaan simuloitua dataa PAN-paketilla Viedään data an komennolla run ExportDataSetToR( esim2.esimerkki2 MIS, esimerkki2 MIS ); n paketti PAN soveltuu mm. ryvästyneen aineiston moni-imputoimiseen Moni-imputoidaan aineistoa 5 kertaa Käytetään moni-imputoidun aineiston tallennukseen n pakettia foreign, joka tuottaa tekstimuotoisen datatiedoston sekä valmiin SAS-ohjelman datan sisäänlukua varten
institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Tuodaan moni-imputoitu aineisto SAS/IML Studioon, yhdistetään laskelmat proseduurin MIANALYZE avulla, sovitetaan malli ja tulostetaan tulokset PAN tuottaa datatiedoston, jossa imputoidut viisi muuttujaa ovat rinnakkain. Käännetään data ja yhdistetään alkuperäiseen aineistoon Muodostetaan jokaiselle imputointikerralle logistinen malli, jossa dikotomista muuttujaa Y selitetään imputoidulla x1-muuttujalla sekä x2-muuttujalla Yhdistetään imputointikertojen tulokset proseduurilla MIANALYZE ja tulostetaan ruudulle
institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Kiitos!