Koneoppimisen seminaari: Käytännön virherajat
|
|
- Aimo Hyttinen
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 hyväksymispäivä arvosana arvostelija Koneoppimisen seminaari: Käytännön virherajat Otso Mäkinen Helsinki HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos
2 HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Tiedekunta/Osasto Fakultet/Sektion Faculty Laitos Institution Department Tekijä Författare Author Otso Mäkinen Työn nimi Arbetets titel Title Koneoppimisen seminaari: Käytännön virherajat Oppiaine Läroämne Subject Työn laji Arbetets art Level Aika Datum Month and year Sivumäärä Sidoantal Number of pages Tiivistelmä Referat Abstract sivua + 0 liitesivua Avainsanat Nyckelord Keywords Säilytyspaikka Förvaringsställe Where deposited Muita tietoja övriga uppgifter Additional information
3 ii Sisältö 1 Johdanto 1 2 Luokittelija 1 3 Virherajan määrittely 2 4 Satunnaistetut luokittelijat Satunnaistetun luokittelijan virheraja Puolivalvotut virherajat Bagging Cross-Validation Puolivalvottu testijoukkoa käyttävä raja Muita menetelmiä Tuloksia 7 7 Yhteenveto 8 Lähteet 9
4 1 1 Johdanto Tässä kirjoitelmassa käsitellään luokittelijoiden käytännöllisiä virherajoja. Pohjana on käytetty pääasiassa artikkeleita [Kää05], [Kää] ja [Lan]. Täysin yleisesti ei luokittelijoiden tulevaisuudessa tekemistä virheistä voida päätellä kovinkaan paljoa. Jos kuitenkin voimme tehdä oletuksia alkuperäisestä jakaumasta, jonka tuottamia näytteitä haluamme luokitella, voidaan kysymykseen Kuinka usein luokittelija c on tulevaisuudessa väärässä? vastata. Oletamme että data on IID, eli otokset otetaan toisistaan riippumatta samasta jakaumasta. Voidaan osoittaa että tämä on riittävä oletus luokittelijoiden virherajojen määrittelyyn. Koske tutkimme tuntemattomia jakaumia, on virheraja aina määritelty vain tietyn todennäköisyyden puitteissa. Esimerkiksi Luokittelijan virhe on alle 20.0% todennäköisyydellä 99% 2 Luokittelija Tässä luokittelijoilla tarkoitetaan funktioita, jotka jakavat syötejoukon kahteen tulosjoukkoon, esim. { +1, -1 } tai {kuuluu luokkaan A, ei kuulu luokkaan A}. Luokittelija saadaan oppimisalgoritmin tuloksena, jonka tavoitteena on löytää funktio joka mallintaa tuntematonta (syöte, tulos) jakaumaa. Jakaumasta oletetaan ainoastaan, että se on IID, eli näytteet otetaan toisistaan riippumatta samasta jakaumasta. Toisin sanoen näytteiden välillä ei ole korrelaatiota. Jakauma ei myöskään välttämättä ole minkään deterministisen funktion määrittelemä, vaan voi esimerkiksi sisältää kohinaa. Esitetyissä tuloksissa kaikki luokittelijat ajatellaan mustina laatikoina, eikä niiden varsinaiseen toteutukseen tai oppimisalgoritmiin oteta mitään kantaa. Joitain käytettyjä merkintöjä ([Lan]): Merkintä X Y = { 1, 1} D S m c x y Kuvaus Luokittelijan syöteavaruus Luokittelun tulosavaruus. Tuntematon jakauma X Y :ssä Sarja D:stä otettuja riippumattomia näytteitä. S näytteiden lukumäärä Kuvaus X:ltä Y :lle Syöte x X Haluttu tulos kun, x ja y X Y
5 2 3 Virherajan määrittely Todellinen virhe Luokittelijan todellinen virhe määritellään yksinkertaisesti todennäköisyydeksi, että näyte x luokitellaan väärin. Empiirinen virhe e(c, D) = Pr (c(x) y) (x,y) D Koska jakauma D on tuntematon, ei todellista virhettä e(c, D) voida suoraan havainnoida. Tarkka todellinen virhe voidaan selvittää vain jos funktio jonka luokittelija yrittää oppia on tarkasti tiedossa. Käytännössä mitataan empiiristä virhettä ê(c, S) = 1 S (x,y) S I(c(x) y) Empiirinen virhe on väärin luokiteltujen näytteiden ja testattujen näytteiden lukumäärän suhde otoksessa S. Seuraavaksi esitetään kuinka kokeellisesti virheestä voidaan laskea yläraja todelliselle virheelle tietyllä luottamusvälillä. Yläraja todelliselle virheelle todennäköisyydellä 1 δ Empiirinen virhe on mitattu testaamalla luokittelijaa m kappaleella nimettyjä näytteitä ts. joiden oikea luokittelu on ennalta tiedossa (labeled sample). Käytettävissä olevat suureet ovat siis havaittujen virheiden määrä k ja käytettyjen näytteiden määrä m. Siis ê(c, S) = k/m. Todetaan, että havaittujen virheiden määrä on binomijakautunut parametrein m ja e(c, D). Koska jakauman keskiarvo e(c, D) on tuntematon, etsimme sen sijaan binomijakauman keskiarvon joka on halutulla todennäköisyydellä yläraja oikealle keskiarvolle. Tämä löydetään etsimällä suurin keskiarvo, jonka kanssa mitattu virhe ê(c, S) on yhteensopiva. Määritelmä [Lan]: (Inverse binomial tail) Bin (k/m, m, δ) on q jolle k ( ) m q i (1 q) m i = δ. i i=0 Todennäköisyys saada k/m:ää pienempi virhe binomijakaumasta, jonka keskiarvo on suurempi kuin Bin (k/m, m, δ), on pienempi kuin δ. Siten todellisen virheen e on oltava pienempi kuin Bin (k/m, m, δ) luotettavuudella 1 δ.
6 3 Kaikille D, c ( ) Pr Bin (ê(c, S), m, δ) e(c, D) 1 δ. S D m Eli: todennäköisyys, että virheraja on suurempi kuin todellinen virhe on 1 δ. Tällä tavalla määritelty virheraja on täydellisen tiukka: jos oikea virhe on riittävän suuri, virheraja rikotaan täsmälleen suhteessa δ. (IID oletuksella) Riippumattoman virhearvion saamiseksi on helpointa käyttää joukkoa valmiiksi nimettyjä näytteitä, joita ei käytetä oppimiseen. Tällöin virhearvioon käytetyt näytteet eivät pääse vaikuttamaan oppimisen tulokseen ja antavat siten luotettavan arvion todellisesta virheestä. Nimettyjä näytteitä voi olla kuitenkin saatavissa vain rajoitettu määrä, jolloin mahdollisemman moni näyte halutaan käyttää oppimiseen. Tällöin on virheraja laskettava oppimiseen käytetyn datan perusteella ja tarvitaan monimutkaisempia menetelmiä virheenmäärittelyyn, sillä virheen mittauksen ja oppimisen välille syntyy riippuvuus. Perinteisesti oppimisdatasta lasketut luotettavat virherajat ovat olleet liian väljiä ollakseen käyttökelpoisia. 4 Satunnaistetut luokittelijat Satunnaistetuissa luokittelijoissa lopullinen luokitus määritetään käyttämällä useampaa samalla datalla opetettua luokittelijaa, joiden joukosta yksi valitaan jonkun satunnaisjakauman perusteella. Tässä esitellyt satunnaiset luokittelijat toimivat jakamalla opetusdatan k:hon osaan S i ja opettamalla monta instanssia samasta luokittelijasta näillä eri näytejoukoilla. Kullekin luokittelijalle c i määritellään virheraja käyttämällä sitä osaa datasta (S i ), jota ei käytetty kyseisen luokittelijan opettamiseen. Näin koko data saadaan käyttöön sekä opettamiseen että virherajan määrittelyyn. Lopullinen luokittelija valitsee yhden näistä luokittelijoista tasaisesta jakaumasta ja käyttää sitä annetun syötteen luokitteluun. Luokittelija valitaan aina uudestaan jokaiselle syötteelle. Satunnainen luokittelija antaa siis tilastollisen keskiarvon useammasta luokittelijasta. Myös virhearvio tälle yhdistetylle luokittelijalle voidaan laskea keskiarvona osaluokittelijoiden virheestä. Deterministinen luokittelija, jota käytettiin testijoukkoon perustuvan virheen määrittelyyn, saadaan erikoistapauksena k = 1.
7 4 4.1 Satunnaistetun luokittelijan virheraja Satunnaistetun luokittelijan f virheraja e(f, D) saadaan seuraavasti. on vähintään to- Jokaiselle aliluokittelijalle c i virheraja käyttämällä testidataa S i dennäköisyydellä 1 δ/k e(c i, D) Bin (ê(c i, S i), S i, δ/k). Yhdistetyn luokittelijan, joka siis valitsee aina satunnaisesti yhden c i luokittelua tehdessään, virherajaksi saadaan vähintään todennäköisyydellä 1 δ e(f, D) = 1 k k e(c i, D) 1 k i=1 k Bin (ê(c i, S i), S i, δ/k) i=1 eli virherajojen keskiarvo. 5 Puolivalvotut virherajat Usein parhaat virherajat saadaan juuri satunnaistetuilla luokittelijoilla, mutta niiden ominaisuudet eivät yleensä ole käytännössä toivottuja. Suurimpana haittapuolena sama syöte x voidaan luokitella eri tavalla kun luokittelijaa käytetään sille monta kertaa. Tämä johtuu yhdistetyn luokittelijan stokastisesta luonteesta. Satunnaiselle luokittelijalle saatua virherajaa voidaan kuitenkin käyttää hyödyksi laskettaessa virherajaa paremmin käyttäytyvälle deterministiselle luokittelijalle poistamalla satunnaisuus virherajoista. Merkitsemättömiä näytteitä voidaan käyttää satunnaistetun luokittelijan virherajan turvalliseen muuntamiseen deterministiselle luokittelijalle sopivaksi. Ideana on käyttää merkitsemättömiä näytteitä arvioimaan todennäköisyyttä, että satunnainen luokittelija ja valittu deterministinen luokittelija ovat eri mieltä. Tämä erimielisyys muutetaan sitten luokittelijoiden väliseksi virheeksi, joka voidaan lisätä satunnaisen luokittelijan virherajaan. Selvennyksenä käytetty deterministinen luokittelija on samaa algoritmia käyttämällä opittettu luokittelija jonka opettamiseen käytetään kaikki nimetyt näytteet. Menetelmää käytetään seuraavasti:
8 5 1. Valitaan oppimisalgoritmi 2. Opetetaan satunnainen luokittelija f, jolle voidaan laskea tiukka virheraja. 3. Opetetaan lopullinen deterministinen luokittelija c nal kaikella datalla S. 4. Käytetään nimeämätöntä dataa ja lasketaan luokittelijoiden välinen ns. etäisyys d(f, c nal ), eli kuinka usein ne ovat eri mieltä. 5. Lopullisen luokittelijan virheraja on satunnaisen luokittelijan virheraja + luokittelijoiden erimielisyyteen perustuva virhe. (Disagreement probability) luokittelijoiden f ja g erimielisyyden todennäköisyys määritellään suhteena jolla luokittelijat ovat eri mieltä näytteen luokittelusta joukossa D. d(f, g) = d(f, g, D) = Pr (f(x) g(x)) (x,y) D Tätäkään ei voida suoraan mitata, vaan käytetään empiiristä versiota: ˆd(f, g, U) = 1 U I(f(x) g(x)) x U Jossa U on joukko nimeämättömiä näytteitä. Tärkeää on huomata tämän metriikan yhteys luokittelijan virheen määrittelyyn. Samaa binomijakaumaan perustuvaa virherajan laskentaa voidaan soveltaa myös ˆd:n rajojen määrittelyyn. Luokittelijoiden välinen etäisyys d(f, c nal ) lasketaan siis käytännössä samalla tavalla kuin satunnaisen luokittelijan virhe verrattuna oikeaan jakaumaan D. Intuitiivisesti siis lasketaan ensin satunnaistetun luokittelijan etäisyys jakaumaan D, sekä deterministisen luokittelijan etäisyys satunnaistettuun luokittelijaan. Etäisyyksien summa on yläraja deterministisen luokittelijan etäisyydelle jakaumaan D (kolmioepäyhtälö). Ja vähintään todennäköisyydellä 1 δ e(c nal, D) e(f, D) + d(f, c nal )
9 6 e(c nal, D) 1 k Bin (ê(c i, S k i), S i, δ/(2k)) i=1 ( ) +Bin ˆd(f, cnal, U), U, δ/2. Deterministinen luokittelija siis tässä tapauksessa käyttää kaiken datan S oppimiseen, eikä testidataa tarvitse jättää syrjään. Mahdollisuudesta käyttää nimeämättömiä näytteitä voi olla suurta etua, sillä se on yleensä paljon halvempaa tuottaa kuin nimetyt näytteet. Käytännössä tilanteissa joissa tilastollista oppimista käytetään, voi nimeämättömien näytteiden tuottaminen olla ilmaista. Seuraavaksi esitellään eri menetelmiä satunnaistetun luokittelijan käyttämien joukkojen S i valitsemiseksi. 5.1 Bagging Breiman esitteli Bagging-menetelmän ([Bre96]). Siinä kukin S i tuotetaan valitsemalla satunnaisesti takaisinpanoin n otosta S:stä. Jokaiselle i noin 1 1/e 0.63 osuus näytteistä valitaan joukkoon S i loppujen 0.37 jäädessä testauskäyttöön joukkoon S i. Alunperin Bagging-menetelmä esiteltiin äänestävänä luokittelijana, joka vastaa aiemmin esiteltyä satunnaista luokittelua, mutta satunnaisen luokittelijan sijaan lopullinen luokittelu ratkaistaan äänestämällä kaikkien c i luokittelijoiden kesken. Tässä esiteltyjä menetelmiä voidaan käyttää myös tällaisen äänestävän luokittelijan virherajan laskemiseen. Äänestävän luokittelijan yhtenä huonona puolena jokaista luokittelua tehdessä on luokittelu tehtävä k kertaa, joka vaatii luonnollisesti enemmän laskentaresursseja. Jokainen luokittelija on myöskin pidettävä yhtä aikaa muistissa. 5.2 Cross-Validation Cross-Validation -menetelmä toimii seuraavasti. Näytejoukko S jaetaan k:hon (mahdollisimman) yhtä suureen osaan S i. Oppimisalgoritmi ajetaan k kertaa ja kullakin ajolla i oppimiseen käytetään näytteitä S i, jotka eivät ole joukossa S i. Virhearvion tekemiseen käytetään vastaavasti kullakin ajolla joukkoa S i. Kun valitaan k = S saadaan erikoistapaus, jossa jätetään aina yksi näyte virheen tarkistamiseen. Tätä ei kuitenkaan voi soveltaa tässä esiteltyihin
10 7 menetelmiin, sillä yhdellä näytteellä ei saada millään tavalla hyödyllisiä virherajoja yksittäisille luokittelijoille. Cross-validation -menetelmää käytetään usein käytännössä koko joukolla S opetetun deterministisen luokittelijan virheen approksimointiin. Sen tekemä arvio ei kuitenkaan ole tilastollisesti pätevä ja voi olla hyvinkin kaukana todellisesti virheestä. Esitellyllä virherajan satunnaisuuden poistamisella saadaan kuitenkin luotettavia tuloksia. Myös Cross-Validation -menetelmästä voi tehdä äänestävän luokittelijan. 5.3 Puolivalvottu testijoukkoa käyttävä raja Erikoistapauksena valinta k = 1 vastaa deterministisen luokittelijan, jonka virheraja on saatu erillistä testijoukkoa käyttämällä, muuntamista puolivalvotuksi opetusjoukkoon perustuvaksi virherajaksi luokittelijalle c nal. Satunnaisen luokittelijan sijaan käytetään siis suoraan luvussa 3 esiteltyä virherajan mittausta pohjana lopullisen luokittelijan virherajoille. Jos testijoukon kooksi S 1 valitaan n/k, on saatu virheraja suoraan vertailtavissa Cross-Validation -menetelmän rajaan, sillä niillä on sama odotusarvo luotettavuustermiä lukuun ottamatta. 5.4 Muita menetelmiä Kääriäinen ja Langford vertailevat myös muita menetelmiä, mukaan lukien onlinemenetelmät ja PAC-Bayesian virherajoja. Bayesiläisillä menetelmillä on monta kiinnostavaa ominaisuutta, mutta käytännössä PAC-Bayes rajat näyttävät olevan selvästi muita esiteltyjä rajoja huonommat. [Kää] 6 Tuloksia Kääriäinen ja Langford [Kää05] mittasivat virherajojen käytännön tuloksia laskemalla esitellyillä menetelmillä virherajat useille tunnetuilla vertailujoukoille käyttäen erilaisia yleisessä jaossa olevia oppivia luokittelijoita. Taulukoissa 6 ja 6 on esitetty osa tuloksista, paljon kattavampi taulukko löytyy alkuperäisestä artikkelista. Testeissä nimeämättömät näytteet saatiin unohtamalla luokittelu 10% alkuperäisestä datasta. Kaikissa testeissä on valittu δ = 0.01, eli rajojen luotettavuus on 99%.
11 8 Taulukko 1: Tuloksia virherajojen laskemisesta satunnaistetuille virherajoille. Data/algoritmi R-Test R-Bag R-CV AU ST RALIAN/SV M LIGHT 13.04/ / /32.30 CEN SU S IN COM E/c / / /5.01 CRX/c / / /33.48 F OU RCLASS/SV M LIGHT 19.54/ / /32.23 SAT IM AGE/c / / /18.72 Taulukko 2: Tuloksia puolivalvotuille virherajoille. Data/algoritmi S-Test S-Bag S-CV AU ST RALIAN/SV M LIGHT CENSUS INCOME/c CRX/c F OU RCLASS/SV M LIGHT SAT IM AGE/c Testijoukkoon perustuva virheen laskeminen käytti 10% näytteistä testaukseen ja Bagging- ja Cross-Validation -menetelmät käyttivät arvoa k = 10. R-alkuiset sarakkeet tarkoittavat satunnaistettujen luokittelijoiden virherajoja ja ne sisältävät mitattu virhe/virheraja parin. S-alkuiset sarakkeet ovat samoista luokittelijoista muunnettuja deterministisiä luokittelijoita, joiden virheraja on esitetty. Satunnaisille luokittelijoille parhaat virherajat näytetään saavan Bagging-menetelmällä, mutta se ei kuitenkaan saa parhaita tuloksia mitatusta varsinaisesta virheestä. Tämä on luonnollista, sillä Bagging-menetelmä käyttää noin 37% näytteistä virheen arviointiin, jotka ovat pois oppimisessa käytetyistä näytteistä. Puolivalvotut oppimisjoukolle lasketut virherajat ovat selvästi satunnaistettuja huonompia, mutta silti Kääriäisen ja Langfordin mukaan vaikuttavia aikaisempiin tuloksiin verrattuna. 7 Yhteenveto Jos käytössä on ylimääräistä nimettyä dataa, on virherajojen määrittely suoraviivaista ja tuloksena saadaan tiukat tilastolliset rajat. Ongelmana on ollut virherajat jotka saadaan kun kaikki data halutaan käyttää opetukseen. Tämä on erityisen haluttua jos valmiiksi luokiteltua opetusdataa on vain rajoitetusti saatavilla. Kääriäisen ja Langfordin mukaan esitetyt puolivalvotut virherajat alkavat olla jo
12 9 käyttökelpoisia verrattuna aikaisempiin menetelmiin. Vaatimuksena on ainoastaan luokittelemattoman datan saatavuus, mikä ei yleensä ole ongelma luokittelijoiden käyttökohteissa. Parhaan oppimistuloksen saavuttamisen ja opitun tuloksen luotettavuuden välillä on tehtävä kompromissi: parhaan virherajan saamiseksi osa näytteistä on jätettävä pois oppimisesta ja käytettävä virherajan tiukentamiseen. Tämä kuitenkin heikentää luokittelijan todellista luokittelukykyä. Lähteet Bre96 Kää Kää05 Lan Breiman, L., Bagging predictors. Machine Learning, 24,2(1996), sivut URL citeseer.ist.psu.edu/breiman96bagging.html. Kääriäinen, Matti; Langford, J., A comparison of tight generalization error bounds. ICML Kääriäinen, M., Generalization error bounds using unlabeled data. Lecture Notes in Computer Science, 3559, sivut Langford, J., Tutorial on practical prediction theory for classication.
arvostelija OSDA ja UDDI palveluhakemistoina.
Hyväksymispäivä Arvosana arvostelija OSDA ja UDDI palveluhakemistoina. HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Tiedekunta/Osasto Fakultet/Sektion Faculty/Section Laitos Institution
Työn laji Arbetets art Level Aika Datum Month and year Sivumäärä Sidoantal Number of pages
Tiedekunta/Osasto Fakultet/Sektion Faculty Laitos Institution Department Tekijä Författare Author Työn nimi Arbetets titel Title Oppiaine Läroämne Subject Työn laji Arbetets art Level Aika Datum Month
Selainpelien pelimoottorit
Selainpelien pelimoottorit Teemu Salminen Helsinki 28.10.2017 Seminaaritutkielma Helsingin yliopisto Tietojenkäsittelytiede ! 1 HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Tiedekunta
Aika/Datum Month and year Kesäkuu 2012
Tiedekunta/Osasto Fakultet/Sektion Faculty Laitos/Institution Department Filosofian, historian, kulttuurin ja taiteiden tutkimuksen laitos Humanistinen tiedekunta Tekijä/Författare Author Veera Lahtinen
Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos
Satunnaisalgoritmit Topi Paavilainen Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Helsinki, 23. helmikuuta 2014 1 Johdanto Satunnaisalgoritmit ovat algoritmeja, joiden
Pro gradu -tutkielma Meteorologia SUOMESSA ESIINTYVIEN LÄMPÖTILAN ÄÄRIARVOJEN MALLINTAMINEN YKSIDIMENSIOISILLA ILMAKEHÄMALLEILLA. Karoliina Ljungberg
Pro gradu -tutkielma Meteorologia SUOMESSA ESIINTYVIEN LÄMPÖTILAN ÄÄRIARVOJEN MALLINTAMINEN YKSIDIMENSIOISILLA ILMAKEHÄMALLEILLA Karoliina Ljungberg 16.04.2009 Ohjaajat: Ari Venäläinen, Jouni Räisänen
TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)
JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.
pitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
pitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
T Luonnollisten kielten tilastollinen käsittely
T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
Tutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
! #! %! & #!!!!! ()) +
! #! %! & #!!!!! ()) + Tiedekunta/Osasto Fakultet/Sektion Faculty Humanistinen tiedekunta Laitos Institution Department Taiteiden tutkimuksen laitos Tekijä Författare Author Matti Pesonen Työn nimi Arbetets
Katsaus korruption vaikutuksesta Venäjän alueelliseen talouskasvuun ja suoriin ulkomaisiin investointeihin
INSTITUUTIOTTALOUSKASVUNEDELLYTYKSENÄ KatsauskorruptionvaikutuksestaVenäjänalueelliseentalouskasvuunjasuoriin ulkomaisiininvestointeihin2000 2010 AshekMohamedTarikHossain HelsinginYliopisto Valtiotieteellinentiedekunta
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
Maailman muutosta tallentamassa Marko Vuokolan The Seventh Wave -valokuvasarja avauksena taidevalokuvan aikaan
Maailman muutosta tallentamassa Marko Vuokolan The Seventh Wave -valokuvasarja avauksena taidevalokuvan aikaan Pro gradu -tutkielma 31.1.2012 Helsingin yliopisto Humanistinen tiedekunta Filosofian, historian,
Koht dialogia? Organisaation toimintaympäristön teemojen hallinta dynaamisessa julkisuudessa tarkastelussa toiminta sosiaalisessa mediassa
Kohtdialogia? Organisaationtoimintaympäristönteemojenhallinta dynaamisessajulkisuudessatarkastelussatoiminta sosiaalisessamediassa SatuMariaPusa Helsinginyliopisto Valtiotieteellinentiedekunta Sosiaalitieteidenlaitos
Tilastollisia peruskäsitteitä ja Monte Carlo
Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia
Luonnontieteiden popularisointi ja sen ideologia
Luonnontieteiden popularisointi ja sen ideologia Tapauksina Reino Tuokko ja Helsingin Sanomat 1960-luvulla Ahto Apajalahti Helsingin yliopisto Humanistinen tiedekunta Suomen ja Pohjoismaiden historia Pro
Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut
Matematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 7 1 Useamman muuttujan funktion raja-arvo Palautetaan aluksi mieliin yhden muuttujan funktion g(x) raja-arvo g(x). x a Tämä raja-arvo kertoo, mitä arvoa funktio g(x)
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi
Harjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden
1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella
MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)
21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.
Nollasummapelit ja bayesilaiset pelit
Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006 Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1
Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
Tilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
ImageRecognition toteutus
ImageRecognition toteutus Simo Korkolainen 27 kesäkuuta 2016 Projektin tarkoituksena on tehdä ohjelma, joka opettaa neuroverkon tunnistamaan kuvia backpropagation-algoritmin avulla Neuroverkon opetuksessa
Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari
Konsensusongelma hajautetuissa järjestelmissä Niko Välimäki 30.11.2007 Hajautetut algoritmit -seminaari Konsensusongelma Päätöksen muodostaminen hajautetussa järjestelmässä Prosessien välinen viestintä
Väliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
6. laskuharjoitusten vastaukset (viikot 10 11)
6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287
Osa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Estimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet
Tilastotieteen jatkokurssi Sosiaalitieteiden laitos Harjoitus 5 (viikko 9) Ratkaisuehdotuksia (Laura Tuohilampi). Jatkoa HT 4.5:teen. Määrää E(X) ja D (X). E(X) = 5X p i x i =0.8 0+0.39 +0.4 +0.4 3+0.04
MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
Tilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.
10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn
ABHELSINKI UNIVERSITY OF TECHNOLOGY
Todennäköisyyslaskennan käsitteitä Satunnaisuus ja deterministisyys Deterministisessä ilmiössä alkutila määrää lopputilan yksikäsitteisesti. Satunnaisilmiö puolestaan arpoo - yhdestä alkutilasta voi päätyä
Tilastotieteen kertaus. Kuusinen/Heliövaara 1
Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?
MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo
Injektio (1/3) Funktio f on injektio, joss. f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f )
Injektio (1/3) Määritelmä Funktio f on injektio, joss f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f ) Seurauksia: Jatkuva injektio on siis aina joko aidosti kasvava tai aidosti vähenevä Injektiolla on enintään
LIITE 1 VIRHEEN ARVIOINNISTA
Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi
tilastotieteen kertaus
tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään
1 Määrittelyjä ja aputuloksia
1 Määrittelyjä ja aputuloksia 1.1 Supremum ja infimum Aluksi kerrataan pienimmän ylärajan (supremum) ja suurimman alarajan (infimum) perusominaisuuksia ja esitetään muutamia myöhemmissä todistuksissa tarvittavia
Tiedekunta/Osasto Fakultet/Sektion Faculty Valtiotieteellinen tiedekunta
Tiedekunta/Osasto Fakultet/Sektion Faculty Valtiotieteellinen tiedekunta Laitos Institution Department Politiikan ja talouden tutkimuksen laitos Tekijä Författare Author Virta, Mikko Antero Työn nimi Arbetets
P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.
Yhteenveto: Satunnaisvektorit ovat kuvauksia tn-avaruudelta seillaiselle avaruudelle, johon sisältyy satunnaisvektorin kaikki mahdolliset reaalisaatiot. Satunnaisvektorin realisaatio eli otos on jokin
(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?
6.10.2006 1. Keppi, jonka pituus on m, taitetaan kahtia täysin satunnaisesti valitusta kohdasta ja muodostetaan kolmio, jonka kateetteina ovat syntyneet palaset. Kolmion pinta-ala on satunnaismuuttuja.
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
Lukujonon raja-arvo 1/7 Sisältö ESITIEDOT: lukujonot
Lukujonon raja-arvo 1/7 Sisältö Esimerkki lukujonon raja-arvosta Lukujonossa a 1,a 2,a 3,... (jossa on äärettömän monta termiä) voivat luvut lähestyä jotakin arvoa, kun jonossa edetään yhä pidemmälle.
Oppimateriaalin kokoaminen ja paketointi
Oppimateriaalin kokoaminen ja paketointi Pekka Simola Helsinki 14.4.2004 HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Tiedekunta/Osasto
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu
1 Kannat ja kannanvaihto
1 Kannat ja kannanvaihto 1.1 Koordinaattivektori Oletetaan, että V on K-vektoriavaruus, jolla on kanta S = (v 1, v 2,..., v n ). Avaruuden V vektori v voidaan kirjoittaa kannan vektorien lineaarikombinaationa:
r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
Hallintomallit Suomen valtionhallinnon tietohallintostrategioissa
Hallintomallit Suomen valtionhallinnon tietohallintostrategioissa Lauri Eloranta Helsingin yliopisto Valtiotieteellinen tiedekunta Viestintä Pro gradu -tutkielma, 2014 Hallintomallit)Suomen)valtionhallinnon)tietohallintostrategioissa
MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I
MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I G. Gripenberg Aalto-yliopisto 21. tammikuuta 2016 G. Gripenberg (Aalto-yliopisto) MS-A0207 Differentiaali- ja integraalilaskenta
D ( ) E( ) E( ) 2.917
Mat-2.091 Sovellettu todennäköisyyslasku 4. harjoitukset/ratkaisut Aiheet: Diskreetit jakaumat Avainsanat: Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen jakauma, Kertymäfunktio,
LIITE 1 VIRHEEN ARVIOINNISTA
1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten
Korvausvastuun ennustejakauma bootstrap-menetelmän avulla
Korvausvastuun ennustejakauma bootstrap-menetelmän avulla Sari Ropponen 13.5.2009 1 Agenda Korvausvastuu vahinkovakuutuksessa Korvausvastuun arviointi Ennustevirhe Ennustejakauma Bootstrap-/simulointimenetelmä
4. laskuharjoituskierros, vko 7, ratkaisut
4. laskuharjoituskierros, vko 7, ratkaisut D1. Kone valmistaa kuulalaakerin kuulia, joiden halkaisija vaihtelee satunnaisesti. Halkaisijan on oltava tiettyjen rajojen sisällä, jotta kuula olisi käyttökelpoinen.
Parametrin estimointi ja bootstrap-otanta
Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista
Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle
Arkkitehtuurinen reflektio
Arkkitehtuurinen reflektio Toni Ruokolainen Toni.Ruokolainen@cs.helsinki.fi Helsinki 6.10.2003 Tiivistelmä HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET
f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))
Määritelmä: on O(g(n)), jos on olemassa vakioarvot n 0 > 0 ja c > 0 siten, että c g(n) kun n > n 0 O eli iso-o tai ordo ilmaisee asymptoottisen ylärajan resurssivaatimusten kasvun suuruusluokalle Samankaltaisia
4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on
Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen
MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen
MAT-5 Todennäköisyyslaskenta Tentti.. / Kimmo Vattulainen Vastaa jokainen tehtävä eri paperille. Funktiolaskin sallittu.. a) P A). ja P A B).6. Mitä on P A B), kun A ja B ovat riippumattomia b) Satunnaismuuttujan
Johdatus tilastotieteeseen
Johdatus tilastotieteeseen Jari Päkkilä Kevätlukukausi 2017 Matemaattisten tieteiden laitos Esimerkki mittauksen luotettavuudesta Viime viikon mittausharjoituksessa pelattiin mm. kunnat kartalle -peliä
Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta
MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,
Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
Matematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 4 Jatkuvuus Jatkuvan funktion määritelmä Tarkastellaan funktiota f x) jossakin tietyssä pisteessä x 0. Tämä funktio on tässä pisteessä joko jatkuva tai epäjatkuva. Jatkuvuuden
P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
Parinmuodostuksesta tietojenkäsittelytieteen silmin. Petteri Kaski Tietojenkäsittelytieteen laitos Aalto-yliopisto
Parinmuodostuksesta tietojenkäsittelytieteen silmin Petteri Kaski Tietojenkäsittelytieteen laitos Aalto-yliopisto Suomalainen Tiedeakatemia Nuorten Akatemiaklubi 18.10.2010 Sisältö Mitä tietojenkäsittelytieteessä
Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1
Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen
LIITE 1 VIRHEEN ARVIOINNISTA
1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy
Jatkuvat satunnaismuuttujat
Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään
MTTTP5, luento Luottamusväli, määritelmä
23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A
ABHELSINKI UNIVERSITY OF TECHNOLOGY
Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai
χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut
Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,
MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu
10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2
Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat
1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden
Matematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 10 1 Sarjakehitelmiä Palautetaan mieliin, että potenssisarja on sarja joka on muotoa a n (x x 0 ) n = a 0 + a 1 (x x 0 ) + a 2 (x x 0 ) 2 + a 3 (x x 0 ) 3 +. n=0 Kyseinen
Laskennallinen data-analyysi II
Laskennallinen data-analyysi II Ella Bingham, ella.bingham@cs.helsinki.fi Kevät 2008 Muuttujien valinta Kalvot perustuvat Saara Hyvösen kalvoihin 2007 Laskennallinen data-analyysi II, kevät 2008, Helsingin
Derivaatat lasketaan komponenteittain, esimerkiksi E 1 E 2
MS-C50 Osittaisdifferentiaaliyhtälöt Harjoitukset syksy 07. Oletetaan että vektorikenttä E E E E : R R on kaksi kertaa jatkuvasti derivoituva E C R. Näytä että E E. Derivaatat lasketaan komponenteittain
Asuntojen neliöhinnan vaihtelu Helsingissä (1997-2010)
hyväksymispäivä arvosana arvostelija Asuntojen neliöhinnan vaihtelu Helsingissä (1997-2010) Tuomas Puikkonen Helsinki 8.1.2010 Geoinformatiikan menetelmät ja kirjallisuus -kurssin harjoitustyö HELSINGIN
Johdatus tn-laskentaan torstai 16.2.2012
Johdatus tn-laskentaan torstai 16.2.2012 Muunnoksen jakauma (ei pelkkä odotusarvo ja hajonta) Satunnaismuuttujien summa; Tas ja N Vakiokerroin (ax) ja vakiolisäys (X+b) Yleinen muunnos: neulanheittoesimerkki
Inversio-ongelmien laskennallinen peruskurssi Luento 2
Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +
Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin Yliopisto Harjoitus 1, ratkaisuehdotukset
Todennäköisyyslaskenta I, kesä 207 Helsingin yliopisto/avoin Yliopisto Harjoitus, ratkaisuehdotukset. Kokeet ja Ω:n hahmottaminen. Mitä tarkoittaa todennäköisyys on? Olkoon satunnaiskokeena yhden nopan
Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13
Testit järjestysasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten