JUSSI TAIPALMAA TEKSTIRIIPPUMATON PUHUJANTUNNISTUS

Koko: px
Aloita esitys sivulta:

Download "JUSSI TAIPALMAA TEKSTIRIIPPUMATON PUHUJANTUNNISTUS"

Transkriptio

1 JUSSI TAIPALMAA TEKSTIRIIPPUMATON PUHUJANTUNNISTUS Kandidaatintyö Tarkastaja: Hanna Silén

2 ii TIIVISTELMÄ TAMPEREEN TEKNILLINEN YLIOPISTO Tietotekniikan koulutusohjelma TAIPALMAA, JUSSI: Tekstiriippumaton puhujantunnistus Kandidaatintyö, 19 sivua, 1 liitesivu Toukokuu 2012 Pääaine: Signaalinkäsittely ja multimedia Tarkastaja: Hanna Silén Avainsanat: Puhujantunnistus, tekstiriippumaton, Gaussian mixture model, piirteenirrotus, MFCC-kertoimet Ääninäyte on yksi biometrisista tunnisteista. Ääninäytteitä on helppo kerätä verrattuna muihin biometrisiin tunnisteisiin, ja täten tulevaisuudessa puhujantunnistus saattaa olla laajalti käytetty menetelmä henkilöiden identifioinnissa ja verifioinnissa. Tässä kandidaatintyössä keskitytään tekstiriippumattomaan puhujantunnistukseen. Aluksi puhujantunnistukseen paneudutaan biometrisen tunnisteen ominaisuuksien näkökulmasta. Lisäksi keskitytään yksinkertaisen tekstiriippumattoman puhujantunnistimen taustalla olevaan teoriaan ja puhujantunnistusjärjestelmän taustalla olevaan hahmontunnistusprosessiin. Tässä tapauksessa puhujantunnistus suoritetaan MFCCpiirteiden ja GMM-mallien avulla. Lopuksi yksinkertaisen tekstiriippumattoman puhujantunnistimen suunnittelu ja toteutus käsitellään vaihe vaiheelta Matlab-ohjelmistolla. Lisäksi luodaan nopea käsitys tuloksista, joita toteutetun kaltaiselta, yksinkertaiselta puhujantunnistimelta voidaan odottaa.

3 iii ABSTRACT TAMPERE UNIVERSITY OF TECHNOLOGY Bachelor s Degree Programme in Information Technology TAIPALMAA, JUSSI: Text-independent Speaker Recognition Bachelor of Science Thesis, 19 pages, 1 Appendix page May 2012 Major: Signal Processing and Multimedia Examiner: Hanna Silén Keywords: Speaker recognition, text-independent, Gaussian mixture model, feature extraction, mel-frequency cepstral coefficients Voice sample is part of the biometrics. Voice samples are easy to gather and therefore in the near future speaker recognition can be widely used in the fields of verification and identification. In this bachelor s thesis the focus is set on text-independent speaker recognition. First, speaker recognition is reviewed from a perspective of biometrics. Then the focus is turned to the theory of a simple speaker recognition system and to the theory of a pattern recognition system. In this case, the pattern recognition is performed using melfrequency cepstral coefficients and Gaussian mixture speaker models. In conclusion, creating a simple speaker recognition system is reviewed with Matlab. In addition, a quick insight of the performance and results of a simple speaker recognition system are created.

4 iv ALKUSANAT Tämä tekniikan kandidaatintyö on tehty Tampereen teknillisen yliopiston signaalinkäsittelyn laitokselle osana signaalinkäsittelyn laitoksen kandidaatintyöseminaaria keväällä Tampereella Jussi Taipalmaa

5 v SISÄLLYS 1 Johdanto Puhujantunnistuksen teoriaa Puhujantunnistuksen ominaisuudet Yksilöllisyys Universaalisuus Mitattavuus Pysyvyys Turvallisuus Hyväksyttävyys Suorituskyky Puhujantunnistusprosessin teoriaa Mittaus ja datan kerääminen Esikäsittely ja segmentointi Piirteenirrotus Opetus ja luokitus Jälkikäsittely Puhujantunnistin Toteutus Ikkunointi ja esikäsittely MFCC-kertoimien laskeminen Puhujan mallinnus Testaus Tulosten arviointi Johtopäätökset Lähteet LIITE A... 20

6 vi TERMIT JA NIIDEN MÄÄRITELMÄT Biometrinen tunniste Esisuodatus Identifiointi Kaiuton huone Normaalijakauma Stokastinen malli Verifiointi Ääntöväylä Ihmisen fysiologisiin ominaisuuksiin perustuva tunniste, jolla voidaan yksilöidä henkilö. Pre-emphasis filtering, tarkoittaa suodatusta, jolla pyritään vahvistamaan joitakin taajuuksia (usein korkeampia taajuuksia) suhteessa joihinkin muihin taajuuksiin (usein mataliin taajuuksiin) tavoitteena lisätä koko signaalin signaalikohinasuhdetta (SNR). Tuntemattoman henkilön henkilöllisyyden määrittämistä. Akustiikassa käytetty nimitys tilasta, jonka seinät absorboivat suurimman osan äänestä mittausta häiritsevien heijasteiden poistamiseksi. Jatkuvan jakauman erikoistapaus, jolla on lukuisia tilastollisia sovelluksia. Sitä noudattavia satunnaisilmiöitä esiintyy usein luonnontieteissä ja tekniikassa, esimerkiksi yksilön pituus ja paino. Matemaattinen malli, jonka arvot määräytyvät satunnaisesti. Varmistuminen siitä, että henkilö on kuka väittää olevansa. Kurkunpään jälkeiset puhe-elimet: nieluontelo, nenäontelo ja suuontelo. Tärkeimpinä eliminä kieli, kitapurje, alaleuka ja huulet.

7 1 1 JOHDANTO Puhujantunnistus tarkoittaa henkilön tunnistamista tämän puheen perusteella. Kahden eri ihmisen äänentuottoon tarkoitetut elimet eivät ole identtisesti samanlaisia, ja tästä syystä jokainen ihminen tuottaa ääntä itselleen ominaisella tavalla [1]. Tämä mahdollistaa ääninäytteen käyttämisen biometrisena tunnisteena. Muita biometrisia tunnisteita ovat esimerkiksi DNA, sormenjälki ja kasvokuva. Biometrisiin tunnisteisiin liittyy joitakin olennaisia puutteita. Esimerkiksi sormenjälkitunnistusta ei voida soveltaa kaikkiin ihmisiin, koska on olemassa ihmisiä joiden sormet ovat vaurioituneet tunnistuskelvottomiksi. Tällaisia ihmisiä ovat esimerkiksi rakennustyöläiset ja muut käsillään töitä tekevät ihmiset. Lisäksi on ihmisiä, joilta puuttuu raajoja tai sormia jonkin onnettomuuden seurauksena. National Institute of Standards and Technology (NIST) ilmoittaa näiden ihmisten määrän olevan noin 2 % väestöstä. [2] Samoja ongelmia on luonnollisesti myös muissa biometrisissa tunnistusmenetelmissä. Puhujantunnistukseen soveltumattomien ihmisten, kuurojen ja mykkien, vastaava osuus on 0,4 % (osuus yhdysvaltalaisista), joka on vain noin neljännes edellisestä määrästä [3]. Tämän lisäksi biometristen tunnisteiden käytössä tarvitaan tunnistukseen soveltuva laitteisto, jotta tunnistustehtävä voidaan suorittaa. Sormenjälkitunnistuksessa tarvitaan sormenjälkiskanneri ja kasvokuvantunnistuksessa kamera. Puhujantunnistuksessa riittää, että tunnistettavalla henkilöllä on matkapuhelimella yhteys puhelinverkkoon [2]. Matkapuhelimen mikrofoni on riittävän tarkka tallennusväline, jotta puhuja voidaan tunnistaa, ja tästä johtuva tunnistuksen helppo testattavuus tuo puhujantunnistukselle etua muihin tunnistusmenetelmiin nähden. Puhujantunnistuksen ensisijaisia käyttötarkoituksia ovat puhujan identifiointi ja puhujan verifiointi. Identifiointi tarkoittaa ennalta tuntemattoman henkilön tunnistamista ja verifiointi puolestaan ennalta tunnetun henkilön henkilöllisyyden varmistamista. Molemmissa tapauksissa tarvitaan aikaisempaa puhemateriaalia tunnistettavalta henkilöltä, tosin verifioinnissa tiedetään keneen tunnistettavan henkilön puhetta verrataan ja indentifioinnissa ei. Puhujantunnistusjärjestelmät voidaan jakaa tekstistä riippumattomiin järjestelmiin ja tekstistä riippuviin järjestelmiin. Tekstistä riippuvissa järjestelmistä tunnistukseen käytetään jotakin tiettyä sanaa tai lausetta. Esimerkiksi tunnistettavaa henkilöä voidaan pyytää lukemaan jokin tietty merkki- tai lukujono. Tekstistä riippumattomissa järjestelmissä ei ole rajoitettu mitä sanoja käyttäjät voivat käyttää. Tämä tekee tekstistä riippumattomasta tunnistuksesta huomattavasti tekstistä riippuvaista tunnistusta hankalampaa. [1]

8 Tunnistusta suorittavaa järjestelmää suunniteltaessa tulee ottaa huomioon puhujan henkilökohtaiset muutokset ajan kuluessa [1]. Tällaisia muutoksia ovat esimerkiksi puhujan terveydentilan, mielentilan ja iän muutokset. On luonnollista, että henkilö kuulostaa sairaana erilaiselta kuin terveenä tai että henkilö kuulostaa kiihtyneessä mielentilassa erilaiselta kuin tavallisesti. Lisäksi henkilön ikääntyminen muuttaa henkilön ääntä. Kaikki edellä mainitut hankaloittavat tunnistusta, ja kahden nauhoituskerran välinen vaihtelevuus onkin puhujantunnistuksen suurin haaste [1]. Tässä kandidaatintyössä keskitytään yksinkertaisen tekstiriippumattoman GMMpohjaisen (Gaussian mixture model) puhujantunnistusjärjestelmän toteutukseen MFCCpiirteitä (mel-frequency cepstral coefficients) käyttäen. Aluksi perehdytään puhujantunnistuksen ominaisuuksiin biometrisen tunnisteen näkökulmasta. Lisäksi keskitytään puhujantunnistuksen taustalla olevaan signaalinkäsittelyn ja hahmontunnistuksen teoriaan (luku 2), jonka jälkeen perehdytään itse toteutukseen (luku 3). Lopuksi luodaan nopea yhteenveto toteutuksella aikaansaaduista tuloksista (luku 4). 2

9 3 2 PUHUJANTUNNISTUKSEN TEORIAA Tässä luvussa kerrotaan puhujantunnistukselle ominaisista piirteistä ja ominaisuuksista. Ensin perehdytään siihen, miksi puhujantunnistusta voisi käyttää hyvänä ja helppokäyttöisenä biometrisena tunnisteena, jonka jälkeen käsitellään puhujantunnistukseen tarvittavaa laitteistoa ja näytteitä. Tämän lisäksi käsitellään koko puhujantunnistusprosessi hahmontunnistusprosessin näkökulmasta. 2.1 Puhujantunnistuksen ominaisuudet Tässä kandidaatintyössä tarkastellaan puhujantunnistusta biometrisena tunnisteena samasta näkökulmasta kuin Tapio Mannisen kandidaatintyössä [4] on tarkasteltu iiristä biometrisena tunnisteena pohjautuen Jainin artikkelin [5] seitsemään biometrisen tunnisteen kriteeriin, jotka määrittävät biometrisen tunnisteen hyödyllisyyden. Tällaisia ominaisuuksia ovat universaalisuus, yksilöllisyys, pysyvyys, mitattavuus, suorituskyky, hyväksyntä ja turvallisuus Yksilöllisyys Yksilöllisyys tarkoittaa, miten hyvin henkilö on erotettavissa muista henkilöistä mitattavan ominaisuuden perusteella. Ihminen tuottaa puhetta tavalla, jossa keuhkojen aiheuttama ilmavirta kulkee ääniraon läpi ja moduloituu ääntöväylässä. Ääneen vaikuttavat kaikkien ääntöväylän puhe-elinten suuruudet ja muodot. Äänen vaikuttavien tekijöiden lukumäärä on suuri, ja on lähes mahdotonta, että kahden ihmisen ääntöväylät olisivat niin samankaltaiset, että niistä muodostuvat äänet olisivat toistensa kanssa identtisiä Universaalisuus Universaalisuudella tarkoitetaan mitattavan ominaisuuden yleisyyttä. Sormenjälkitunnistuksessa vaatimuksena on esimerkiksi, että mitattavalla henkilöllä on sormet, joista voidaan saada tunnistettava sormenjälki. Puhujantunnistuksessa puolestaan tarvitaan puhenäyte eli vaatimuksena on, että ihminen on kykenevä tuottamaan puhetta. Kuten luvussa 1 todettiin, puhujantunnistukseen soveltumattomien henkilöiden määrä on suhteessa pienempi kuin sormenjälkitunnistukseen soveltumattomien henkilöiden. Puhe on siis erittäin universaali ihmisen ominaisuus.

10 Mitattavuus Mitattavuus kuvaa ominaisuuden mittaamisen mahdollisuutta. Puhujantunnistus täyttää tämän kriteerin todella hyvin, sillä puheen mittaamiseen ei tarvita samankaltaista raskasta kalustoa, kuten sormenjälkitunnistuksessa tai iiristunnistuksessa tarvittavat skannerit ja kamerat. Puheentunnistukseen riittää mittausta tehtäessä yksinkertainen mikrofoni, esimerkiksi matkapuhelimen mikrofoni Pysyvyys Pysyvyydellä tarkoitetaan mitattavan ominaisuuden muuttumattomuutta ajan kuluessa ja yleisesti muuttumattomuutta mittauskertojen välissä. Pysyvyys on puhujantunnistuksen suurimpia haasteita. Puhe vaihtelee paljon normaaliin puheeseen nähden. Esimerkiksi muutokset terveydentilassa tai tunnetiloissa vaikuttavat siihen, miltä ihmisen ääni kuulostaa. Myös ikääntyminen vaikuttaa huomattavasti ihmisen ääneen. Huipputason puheentunnistusjärjestelmissä tosin pyritään ottamaan huomioon joitakin mittauskertojen välisiä muutoksia ja mittaamaan ominaisuuksia, joiden muutokset ovat vähäisiä Turvallisuus Yksi puhujantunnistusjärjestelmien suurista huolenaiheista on tunnistusjärjestelmien huijaaminen nauhoitetun puheen avulla. Yksi tapa yrittää estää huijausyritykset on käyttää esimerkiksi verifiointijärjestelmissä yhdistettyä puhujan ja puheentunnistusta satunnaisesti generoitavaan tunnisteeseen, esimerkiksi sarjaan kirjaimia. Näin suoritetussa verifioinnissa järjestelmää olisi vaikea huijata, koska lausuttavaa kirjainsarjaa ei voida tietää etukäteen (vrt. nettipankkiin kirjautumisessa vaadittava salausavain-salasana yhdistelmä) Hyväksyttävyys Julkinen hyväksyttävyys riippuu monesta asiasta. Ensinnäkin, puhenäytteiden kerääminen on melko vaivatonta ja inhimillistä, joten tämä puoltaa puhujantunnistuksen hyväksyttävyyttä. Toisaalta henkilöitä ja heidän liikkeitään pystyttäisiin tarkkailemaan melko helposti ulkopuolisen tahon toimesta ilman, että tarkkailtava huomaa olevansa tarkkailun kohteena. Käyttötarkoituksesta riippuen tämä voi olla joko positiivinen tai negatiivinen asia Suorituskyky Identifioinnissa järjestelmät joutuvat suorittamaan raskaita laskutoimituksia, koska tunnistettavia näytteitä joudutaan vertaamaan kaikkiin puhujatietokantaan tallennettuihin malleihin parhaan tuloksen löytämiseksi. Tehtävien vertailujen lukumäärä saattaa olla jopa satoja tuhansia. Nykyään laskentatehoa saadaan kuitenkin lisättyä melko helposti.

11 5 Identifiointi puolestaan onnistuu helposti, koska siinä tunnistettavaa näytettä verrataan ainoastaan yhteen puhujatietokantaan tallennettuun malliin. 2.2 Puhujantunnistusprosessin teoriaa Seuraavaksi puhujantunnistusprosessia tarkastellaan hahmontunnistusprosessin näkökulmasta. Prosessin tarkastelussa keskitytään nimenomaan tekstiriippumattoman GMMpohjaisen puhujantunnistimen kehittämiseen liittyvään teoriaan Mittaus ja datan kerääminen Puhujantunnistusprosessin ensimmäinen vaihe on tunnistettavan aineiston kerääminen. Tämä tapahtuu mittaamalla puhetta. Mittaus on puhujantunnistuksessa melko yksinkertainen vaihe verrattuna muihin biometrisiin tunnisteisiin, koska mittaus tapahtuu perinteisesti nauhoittamalla puhetta mikrofonilla ja mittaus pystytään toteuttamaan myös halvalla ja yksinkertaisella välineellä, kuten esimerkiksi puhelimen sisäänrakennetulla kondensaattorimikrofonilla. Laadukkaampien tulosten saamiseksi voidaan käyttää studio-olosuhteita eli suorittaa nauhoitus kaiuttomassa huoneessa laadukkaalla studiomikrofonilla. Täten saadaan mitattua henkilön puhetta halutulla tarkkuudella ja ilman häiritseviä taustaääniä. Laadukas mittaus helpottaa prosessin myöhempiä vaiheita. [6] Puhujantunnistuksessa mittauksella on kaksi tarkoitusta. Aluksi on mitattava puhetta järjestelmälle, jotta voidaan muodostaa puhujatietokanta. Toisena tarkoituksena on mitata puhetta, jota verrataan puhetietokannan puhenäytteisiin. Todellisuudessa tilan säästämiseksi puhujatietokannassa kannattaa tietokantaan puheen sijasta tallentaa mallinnus puhujasta, joka siis on mallinnus joka muodostetaan puhujasta piirteenirrotuksen jälkeen (lisää kohdassa 2.2.3). Kuvassa 2.1 on esitetty malli puheen keräämisestä puhujatietokantaan. Kuva 2.1: Puheen kerääminen puhujatietokantaan Tallentamalla puhujamalli tietokantaan vältytään siltä, että piirteenirrotus ja puhujan mallinnus tarvitsisi tehdä joka kerta uudelleen, kun verrataan puhujaa tietokannan puhujiin. Kun puhujaa verrataan tietokantaan, prosessi on lähes samanlainen kuin kuvassa 2.1, mutta tietokantaan tallentamisen sijasta luotua mallia verrataan puhujatietokantaan

12 6 ja luokitus (luokituksesta lisää kohdassa 2.2.4) tehdään etsimällä suurin vastaavuus puhujatietokantaan tallennetuista malleista. Kuvassa 2.2 on kuvattu vaiheittain identifiointiprosessi puhesignaalista päätöksentekoon. Kuva 2.2: Puhujan identifiointi tapahtuu vertaamalla puhetta tietokantaan tallennettuun malliin. Jotta puhujatietokantaan tallennettavista malleista saadaan mahdollisimman hyviä, tulee tietokantaan kerätä monipuolista ja hyödyllistä dataa. Esimerkiksi numerot esiintyvät usein puheessa. Yksinkertaisessa tapauksessa opetukseen tarvittava puhemäärä on noin sekuntia ja testaukseen tarvittava noin 10 sekuntia yhtä puhujaa kohden [7] Esikäsittely ja segmentointi Puhe ei ole stationaarinen signaali, vaan sen ominaisuudet muuttuvat millisekuntien tai kymmenien millisekuntien aikana. Tämä johtaa siihen, että signaalinkäsittelyn menetelmät, kuten diskreetti Fourier muunnos (DFT) tai autokorrelaatio, ovat sellaisinaan epätarkoituksenmukaisia. [8] Asia voidaan kuitenkin korjata ikkunoimalla käsiteltävää signaalia. Puhesignaalin ominaisuuksien voidaan olettaa pysyvän vakiona lyhyen ajanjakson ajan eli puhesignaalin lyhyeen ikkunaan voidaan soveltaa perinteisiä signaalinkäsittelyn menetelmiä. Puhesignaalia siis pystytään käsittelemään lyhyissä ikkunoissa, jotka voivat olla osittain myös päällekkäin. Tyypillisesti ikkunan pituus on noin millisekuntia ja peräkkäisten ikkunoiden etäisyys on noin puolet tästä eli ikkunat ovat puolittain toistensa päällä [8]. Ikkunafunktiona käytetään yleensä Hamming tai Hanning ikkunaa, näin saadaan pehmennettyä spektriä ja vältetään epäjatkuvuuskohdat ikkunan reunoilla. Lisäksi signaaleille voidaan halutessa tehdä esisuodatus (pre-emphasis filtering). Tällä tavalla voidaan korostaa joitakin tiettyjä taajuuksia signaalissa, mikä yleensä tarkoittaa korkeiden taajuuksien korostamista suhteessa mataliin taajuuksiin Piirteenirrotus Piirteenirrotus on yhdessä luokituksen kanssa puhujantunnistusprosessin tärkein vaihe. Piirteet ovat tarkkaan määriteltyjä persoonallisesti vaihtelevia ominaisuuksia, jotka ovat

13 7 löydettävissä puhesignaalista. Tarkoituksena piirteenirrotuksessa on etsiä puheesta ne ominaisuudet, joiden perusteella tunnistus voidaan suorittaa ja jättää siten ulkopuolelle kaikki ylimääräinen, kuten esimerkiksi taustakohina ja puheen varsinainen sanoma [9]. Idealistisessa tilanteessa piirteellä tulisi olla seuraavat ominaisuudet [10]: - mahdollisimman korkea vaihtelevuus eri puhujien välillä ja mahdollisimman pieni vaihtelevuus mittauskertojen välillä yhtä puhujaa tarkasteltaessa - helppo mitattavuus - ajan suhteen mahdollisimman stabiili - esiintyy normaalisti ja usein puheessa - puhujan ympäristöllä ei vaikutusta piirteeseen - ei ole helppo jäljentää. Käytetyimpiä tekniikoita nopea-aikaiseen piirteenirrotukseen (short-term feature extraction) ovat MFCC (mel-frequency cepstral coefficients), LPCC (linear prediction cepstral coefficients) ja PLP (perceptual linear prediction cepstral coefficients). Suosituimpia näistä ovat MFCC-kertoimet, ja juuri niihin tässäkin työssä perehdytään. [9] MFCC-kertoimet ovat laajalti käytettyjä sekä puheen- että puhujantunnistuksessa johtuen niiden hyvin määritellystä teoreettisesta taustasta ja hyvästä käytännön suorituskyvystä [9]. MFCC-kertoimien muodostaminen tapahtuu kuten alla on esitetty (Kuva 2.3). Aluksi signaali on ikkunoitu. Tämän jälkeen signaalin spektri saadaan muodostettua käyttämällä Fourier-muunnosta. Kuva 2.3: MFCC-kertoimien muodostaminen Seuraavaksi spektri muunnetaan tavallisesta taajuusasteikosta Mel-asteikkoon. Approksimaatio Mel ja tavallisen taajuusasteikon välillä on kuten kaavassa 2.1, jossa kuvaa Mel-taajuutta ja tavallista taajuutta. (2.1) Mel-asteikko on lineaarinen 1000 hertsiin asti, jonka jälkeen asteikko muuttuu logaritmiseksi. Muunnos Mel-asteikkoon tapahtuu käyttämällä Mel-asteikon mukaisesti sijoi-

14 8 tettua kolmiosuodinpankkia (Triangular Mel scale filterbank, Kuva 2.4), jonka avulla taajuus muunnetaan hertseistä Mel-asteikolle. Kuva 2.4: Matlabilla luotu 20-suotiminen Mel-asteikon kolmiosuodinpankki signaalille, jonka taajuus on 16kHz Muunnoksen tuloksena saadusta Mel-asteikolla olevasta spektristä otetaan seuravaksi logaritmi (yleensä kymmenkantainen) ja viimeisenä tehdään diskreetti kosinimuunnos (DCT), joka määritellään suodinten ulostuloille, seuraavasti [ ] (2.2) jossa on haluttujen MFCC-kertoimien lukumäärä [11]. Diskreetin kosinimuunnoksen sijasta viimeisessä vaiheessa voidaan joissakin tapauksissa käyttää myös käänteistä Fourier muunnosta. Käsittelyn lopputuloksena yhteen piirrevektoriin saadaan irrotettua tyypillisesti MFCC-kerrointa jokaista ikkunointivaiheessa muodostettua ikkunaa kohden [12]. Lisäksi halutessa voidaan muodostaa jokaista ikkunaa kohden energiatermi ja lisäksi delta- ja delta-delta kertoimet, jotka kuvaavat varsinaisten MFCC-piirteiden muutosta kehysten välillä. Tässä tapauksessa kuitenkin keskitytään piirteenirrotuksessa ja tunnistuksessa pelkkiin MFCC-kertoimiin Opetus ja luokitus Luokituksen tavoitteena on tässä tapauksessa luoda puhujasta mahdollisimman hyvä matemaattinen malli kohdassa irrotettujen piirteiden avulla. Luokituksen sijasta tässä tapauksessa voitaisiinkin käyttää termiä mallinnus. Tässä vaiheessa pyritään mal-

15 9 lintamaan puhujaa, jotta päätöstä tehtäessä pystytään vertaamaan testinäytteestä irrotettuja piirteitä opetusnäytteistä luotuihin mallinnuksiin. Tavoitteena on opettaa jokaista puhujaa kohden yksi GMM-malli (Gaussian Mixture Model) käyttäen hyväksi useaa normaalijakaumaa. Seuraavaksi käsitellään perinteinen normaalijakaumiin perustuva GMM-mallin muodostaminen, jonka jälkeen perehdytään puhujantunnistuksessa käytettyyn malliin. Normaalijakauma on puhujantunnistuksessa yksi käytetyimmistä stokastisista malleista. Normaalijakautumiin perustuvia sekoitemalleja (GMM), jotka ovat painotettuja summia normaalijakaumista, voidaan käyttää mallintamaan mielivaltaisesti jakaantuneita havaintoja. [13] GMM-mallia tarkasteltaessa täytyy tehdä seuraavat oletukset: [14] - luokkatiheysfunktiot ovat normaalijakautuneita, ( ), kaikille - keskiarvo ja kovarianssi ovat tuntemattomia - prioritodennäköisyydet ( ) ovat tuntemattomia - piirrevektorien luokat ovat tuntemattomia. Seuraavaksi haluamme ratkaista parametrit, ja prioritodennäköisyydet ( ). Johto niiden ratkaisemiselle tehdään kuten Jussi Tohkan opintomonisteessa Johdatus hahmontunnistukseen [14]. Oletetaan piirrevektorit riippumattomien satunnaismuuttujien realisaatioiksi ja jakautuneeksi jonkin luokkatiheysfunktion mukaan. Nyt voidaan määrittää todennäköisyys sille, että piirrevektori havaitaan ja se kuuluu johonkin luokista ( ) ( ) ( ) (2.3) Vielä ei tiedetä minkä luokkatiheyden mukaisesti on jakautunut, mutta sen on kuuluttava johonkin luokista, joten voidaan kirjoittaa ( ) (2.4) Yhdistämällä kaavat (2.2) ja (2.3) saadaan ( ) ( ) (2.5) Saatua tulosta kutsutaan sekoitetiheydeksi, sekoitetiheyksien prioreita ( ) sekoitusparametreiksi (jossakin tapauksissa puhutaan myös sekoitteen painokertoimista) ja

16 10 luokkatiheysfunktiota komponenttitiheydeksi. Koska komponenttitiheydet oletettiin normaalijakautuneiksi, saadaan parametriseksi sekoitetiheydeksi ( ) ( ) (2.6) jossa parametrivektori ( ) (2.7) Seuraavaksi ratkaistaan sekoitetiheyden parametrit. Koska piirrevektorit oletetaan riippumattomiksi, voidaan uskottavuusfunktioksi kirjoittaa ( ) ( ) (2.8) ja maksimoimalla tämä funktio parametrivektorin θ suhteen saadaan suurimman uskottavuuden estimaatti [ ( ) ( )] (2.9) Kyseistä funktiota on hankala maksimoida, mutta EM-algoritmilla pystytään helposti määrittämään funktion lokaali maksimi. Puheentunnistuksessa käytetty GMM-malli eroaa hieman perinteisestä. Tavallisessa luokittelussa käytetään yleensä yhtä jakaumaa jokaista luokkaa kohden. Puhujantunnistuksessa sen sijaan käytetään yleensä useaa jakaumaa kunkin puhujan mallintamiseen. Kaavasta (2.5), jossa on normaalijakautuneiden komponenttien lukumäärä ja ( ) on :nnen normaalijakautuneen komponentin prioritodennäköisyys, saadaan ( ) { ( ) } (2.10) jossa normaalijakautuneiden tiheysfunktioiden lukumäärä, keskiarvovektori ja kovarianssimatriisi. Prioritodennäköisyyksien ( ) summa pakotetaan ( ). Täysien kovarianssimatriisien sijasta käytetään usein diagonaalisia kovarianssimatriiseja, jossa nollasta poikkeavia arvoja sijaitsee ainoastaan diagonaalilla (ts. kovarianssivektoreita), numeerisista ja laskennallisista syistä. Täysien kovarianssimatriisien parametrien estimointi on laskennallisesti raskasta, ja se vaatisi huomattavasti enemmän opetusdataa. [1]

17 11 GMM-mallin opetus koostuu parametrien { ( ) } estimoinnista opetusnäytteelle. Tarkoituksena on määrittää suurin uskottavuus (likelihood). Näytteen { } keskimääräinen log-likelihood mallille määritellään: ( ) ( ) (2.11) Mitä suurempi arvo, sitä todennäköisempää, että tuntemattomat piirrevektorit ovat peräisin juuri mallista. Kertoimien evaluointi voidaan suorittaa helposti EMalgoritmilla, jossa algoritmin avulla haetaan kertoimet, jotka tuottavat parhaan arvon kaavalla. [1] EM-algoritmissa annettuja alkuarvoja parannetaan iteratiivisesti. Iteraatiokierrokset lopetetaan, kun opetusdatan mallinnuksen uskottavuutta ei pystytä enää parantamaan huomattavasti. [9] EM-algoritmin vaiheet tapahtuvat seuraavasti: 1. Alusta,, ja aseta. 2. E-askel: (expectation) Laske posterior todennäköisyydet, että kuuluu luokkaan ( ) 3. M-askel: (maximization) Laske uudet parametrien arvot ( ) ( )( ) Lopeta, jos on suoritettu tarvittava määrä iteraatiokierroksia, muutoin palaa kohtaan 2. Algoritmi löytää yleensä lokaalin maksimin. Lokaaleja maksimeita on kuitenkin yleensä useita, ja lopputulos riippuu piirrevektorista saadusta alustuksesta [14].

18 12 Luokitusvaiheessa testinäytteen piirteille tehdään samat toimenpiteet kuin opetuksessa, mutta sen sijaan, että luotaisiin testinäytteille mallinnus, verrataan muodostettuja ja EM-algoritmissa iteroituja kertoimia luotuihin GMM-malleihin. Identifioinnissa kertoimia verrataan kaikkiin luotuihin GMM-malleihin, ja se malli, joka kaavan (2.11) avulla tuottaa suurimman uskottavuuden on luokka, johon testinäyte luokitetaan. Verifioinnissa puolestaan verrataan kertoimia samalla tavalla, mutta vain ennalta ilmoitettuun GMM-malliin. Tässä tapauksessa täytyy käsin määrittää raja-arvo, jonka ylitettyä voidaan katsoa luokitus onnistuneeksi eli henkilön identiteetistä on saatu varmuus Jälkikäsittely Hahmontunnistusjärjestelmillä on yleensä tarkoitus tehdä joitakin toimenpiteitä luokittimista saatujen tulosten perusteella [14]. Tässä tapauksessa tehtävänä on joko identifiointi tai verifiointi. Verifioinnissa voidaan esimerkiksi sallia tunnistetulle henkilölle pääsy jonnekin (esim. kirjautuminen sovellukseen). Tällaisissa tapauksissa halutaan yleensä olla mahdollisimman varmoja siitä, että luokitustulos on oikea. Halutessa voidaan hylätä oikeakin luokitustulos, mikäli riittävää varmuutta tuloksen oikeellisuudelle ei ole saatu. Näin voidaan esimerkiksi tehdä, jos luokitustuloksen uskottavuus on osunut hyvin lähelle jotakin toista luokkaa, mutta ei kuitenkaan luokittunut siihen.

19 13 3 PUHUJANTUNNISTIN Tässä luvussa keskitytään yksinkertaisen puhujantunnistimen kehittämiseen. Luvussa käydään puhujantunnistimen toteutus läpi vaihe kerrallaan ja perehdytään käytettyihin menetelmiin. Lisäksi kerrotaan toteutetun järjestelmän testauksesta ja testauksen tuloksista. Lopuksi arvioidaan tulosten laatua, miten valittu menetelmä on vaikuttanut tuloksiin ja miten tulokset olisivat muuttuneet valitsemalla muita toteutusmenetelmiä. 3.1 Toteutus Työn toteutusta ja testausta varten on ladattu 600 puhenäytettä CHiMEpuhetietokannasta yhteensä 34 eri puhujalta [15]. Toteutuksessa käytettiin studioolosuhteissa nauhoitettua puhdasta ääntä, ja näytteissä on puheen lisäksi ainoastaan huonekaikua. Näytteiden näytteenottotaajuus on 16 khz, ja näytteet on nauhoitettu stereona, mutta käsittelyn helpottamiseksi näytteet muunnetaan yksikanavaisiksi käyttämällä kanavien keskiarvoa. Toteutus on tehty Matlab-ohjelmistolla. Toteutuksessa on käytetty Lausannen Swiss Federal Institution of Technology:n signaalinkäsittelyn instituutin tilastollisen mallinnuksen ja Lontoon Imperial College:n Voicebox Matlabpaketteja [7],[16] Ikkunointi ja esikäsittely Ikkunoinnista on kerrottu kohdassa Esikäsittely ja segmentointi (2.2.2). Tässä tapauksessa on käytetty 20 ms ikkunaa ja 10 ms siirtymää eli ikkunat ovat 50 % toistensa päällä (overlap). Ikkunointi tapahtuu tässä toteutuksessa samalla funktiolla, joka laskee MFCC-kertoimet. Lisäksi signaali on haluttu esisuodattaa käyttämällä suodinta 3.1. Tässä tapauksessa :n arvoksi on valittu 0,97. (3.1) jossa kerroin sijoittuu välille Suodinta on käytetty korkeimpien taajuuksien korostamiseen, jotta analyysin seuraavissa vaiheissa vältyttäisiin vääristymiltä.

20 MFCC-kertoimien laskeminen MFCC-kertoimet saadaan laskettua puhesignaalista käyttämällä funktiota [16] training_features = melcepst(s,fs, M,12,26,20e-3*fs,10e-3*fs), (3.2) jossa s on käsiteltävä signaali ja fs on näytteenottotaajuus (16kHz). Merkkijonolla M kuvataan käytettävän ikkunoinnissa Hamming-ikkunaa ja kertoimet 12 ja 26 kertovat laskettavien MFCC-kertoimien ja Mel-asteikon suodinpankin suodinten lukumäärän. Viimeiset kaksi parametria kertovat ikkunan pituuden (20ms) ja siirtymän (10ms). Funktio palauttaa näillä parametreilla vektorin, joka sisältää 12 MFCC-kerrointa. Lisäksi funktiolla voidaan parametreja muuttamalla laskea myös energiatermi ja delta- ja delta-delta kertoimet, mutta kuten kohdassa todettiin, ei niitä tässä toteutuksessa käytetä Puhujan mallinnus MFCC-kertoimien laskemisen jälkeen halutaan tuottaa kertoimien avulla mallinnus puhujasta käyttämällä GMM-pohjaista mallinnusta. Mallinnus onnistuu käyttämällä funktiota [7] [mu,sigma,c] = gmm_estimate(training_features,n,<it,mu_0,sigm_0,c_0,vm>). (3.3) Funktion saa parametreinaan kohdassa lasketut MFCC-kertoimet ja käytettävien normaalijakaumien lukumäärän. Normaalijakaumien lukumäärä tulee etsiä siten, että jakaumien lukumäärä on riittävän korkea tarkan tunnistustuloksen saamiseksi. Kuitenkin liian suuri jakaumien lukumäärä voi johtaa ylisovittamiseen eivätkä mallit yleisty testiaineistolle. Tässä tapauksessa hyväksi jakaumien lukumääräksi löydettiin 7. Lisäksi voidaan halutessa määrittä käsin EM-algoritmin iteraatiokierrosten lukumäärä (oletuksena 10) ja alkuarvot algoritmille. Lopputuloksena funktio palauttaa lasketun mallin keskiarvovektorin, kovarianssimatriisin ja painokertoimet (sekoitusparametrit). Palautettavana kovarianssimatriisina käytetään tässä tapauksessa diagonaalista kovarianssimatriisia. Lisäksi funktio visualisoi mallinnuksen onnistumisen. Kuvassa 3.1 on visualisoitu puheesta irrotettuja piirteitä, ja vierelle on luotu irrotettuja piirteitä vastaava malli, joka saadaan funktiolla (3.3). Kuvassa 3.1 on ollut reilusti opetusdataa ja mallinnuksella on onnistuttu kuvaamaan irrotettuja piirteitä lähes täydellisesti. Lisäksi piirteistä voidaan huomata selkeät normaalijakaumia noudattavat muodot. Kuvassa 3.2 puolestaan on ollut saatavilla liian vähän dataa, jotta mallinnus olisi voitu tehdä riittävän hyvin. Datan vähäinen määrä on vaikkutanut myös piirteisiin, sillä

21 15 ne ovat jakaantuneet melko satunnaisesti ja niitä vastaava mallinnus ei todennäköisesti kuvaa kovin hyvin kyseistä puhujaa. Kuva 3.1: vasemmalla irrotetun piirteen visualisointi ja oikealla vastaava mallinnus punaisella. Kuvassa piirteitä on esitetty vain neljä lasketun kahdentoista sijasta. Kuva 3.2: kuvassa on yritetty mallintaa puhujaa jolta on liian vähän dataa kerättynä kunnollista mallinnusta varten. Piirteet kuvassa harmaalla ja mallinnus punaisella. 3.2 Testaus Testauksessa verrataan testidatasta irrotettuja piirteitä opetusdatasta luotuihin malleihin. Vertaaminen tapahtuu funktiolla [7] [lym,ly]=lmultigauss(training_features',mu,sigma,c), (3.4)

22 16 joka laskee usean normaalijakauman logaritmisen uskottavuuden (multigaussian loglikelihood). Parametri training_features edustaa testidatasta irrotettuja piirteitä ja loput parametrit verrattavan mallin keskiarvovektoria, kovarianssimatriisia ja painokertoimia. Tämä vaihe on laskennallisesti melko raskas, sillä testidataa on verrattava kaikkiin malleihin erikseen ja luokitus tehdään sen perusteella, minkä mallin kanssa testidata saa suurimman uskottavuuden. 3.3 Tulosten arviointi Tulosten arvioinnin visualisoimiseksi on varmasti helpoin kirjoittaa testauksen tulokset matriisiin, jossa jokainen rivi kuvaa puhujan mallinnusta ja jokainen sarake testattavia piirteitä. Näin ollen jokainen ruutu (x,y) kuvaa x:nnen mallinnuksen ja y:nnen testinäytteen log-likelihood-arvoa. Testi näyte voidaan katsoa luokittuneeksi siihen luokkaan, jonka kanssa sillä on paras tulos, tässä tapauksessa suurin arvo. Taulukossa 3.5 on listattu kahdeksalla eri puhujalla toteutettu puhujan identifiointi. Testinäyte L u o k k a Taulukko 3.5: Taulukoon on listattu Matlabilla lasketut log-likelihood-arvot kehdeksalta eri puhujalta, kahdeksaan eri malliin verrattuna. Oikea luokka sijaitsee diagonaalilla ja testinäytteelle saatu luokitustulos on lihavoituna. Identifioinnissa on käytetty kahdeksaa satunnaisesti valittua puhujaa [15] ja jokaiselta puhujalta on satunnaisesti valittu näytteet opetukseen ja testaukseen. Opetuksessa ja testauksessa yhdenkään puhujan kohdalla ei ole käytetty samaa näytettä. Tässä tapauksessa näytteistä 75 prosenttia on luokittunut oikein. Virheprosentti on siis 25 prosenttia, joka on melko suuri, mutta kuitenkin luokittelutulos on huomattavasti arvausta parempi. Mitään suuria johtopäätöksiä ei tästä testistä voida kuitenkaan puhujien pienehkön määrän vuoksi tehdä, ja todellisen virhesuhteen määrittämiseen tarvittaisiin huomattavasti suurempi otos. Voidaan kuitenkin todeta, että työssä on onnistuttu pelkkiä MFCCpiirteitä käyttämällä toteuttamaan kohtalaisen hyvällä luokitteluvarmuudella toimiva puhujantunnistin.

23 17 4 JOHTOPÄÄTÖKSET Toteutuksellisessa osiossa näytettiin, että yksinkertaisen tekstiriippumattoman puhujantunnistimen toteuttaminen onnistuu melko vaivattomasti MFCC-kertoimia ja GMMmallinnusta käyttäen ja toteutuksen helpottamiseksi on saatavilla valmiita ja monipuolisia työkaluja ja testiaineistoa [7][15][16]. Itse toteutus tuotti odotusten mukaisia tuloksia ja suppeassa testissä 75 prosenttia testinäytteistä luokittui oikein. Suurempi varmuus oikein luokittuneiden testinäytteiden osuudesta olisi saatu tekemällä samat testit suuremmalla otannalla. Reynolds:n ja Rosen artikkelissa [17] vastaaviksi arvoiksi on saatu 49 henkilön otoskoolla 96,8 prosentin oikeinluokittuneiden määrä 5 sekunnin mittaisilla puhtailla puhesignaaleilla ja 80,8 prosentin oikeinluokittuneiden määrä puhelimella nauhoitetuilla 15 sekunnin mittaisilla testinäytteillä. Tämän kandidaatintyön toteutuksesta on vielä matkaa käytännössä toimivaan puhujantunnistusjärjestelmään ja seuraavina askeleina olisivat varmasti useamman piirteen käyttäminen ja järjestelmän kehittäminen niin, että mittauskertojen välillä tapahtuvien muutosten vaikutus luokitustulokseen olisi mahdollisimman pieni. Tässä vaiheessa kaikki testisignaalit olivat puhtaita, joten kohinan vaikutuksista luokitustuloksiin ei ole näyttöä. Ei voida myöskään sanoa mallintaako nykyinen järjestelmä enemmän itse puhujaa vai nauhoituslaitteistoa. Toteutusympäristöstä riippuen todellisilla puhujantunnistusjärjestelmillä, kuten esimerkiksi järjestelmillä, joilla on jotakin tekimistä esimerkiksi kulunvalvonnan tai pankkiasioinnin kanssa, tulisi oikein luokittuneiden osuus olla mahdollisimman lähellä 100 prosenttia. Kuitenkin ehdottoman tärkeää on, ettei järjestelmä anna väärälle henkilölle oikeuksia tehdä jotakin, mikä on hänelle luvatonta. Lähitulevaisuus varmasti kertoo mihin suuntaan puhujantunnistusjärjestelmät kehittyvät.

24 18 LÄHTEET [1] T. Kinnunen and H. Li, An overview of text-independent speaker recognition: From features to supervectors, Speech Communication 52 (2010), pp Saatavissa: [2] H. Beigi, Speaker Recognition, InTech: Biometrics (2011), pp Saatavissa: speaker-recognition [3] Disability census results for 2005 [verkkodokumentti]. Saatavissa: [4] T. Manninen, Iiris biometrisena tunnisteena, kandidaatintyö, Tampereen teknillinen yliopisto (2008), 27 s. [5] A. K. Jain, Biometric Recognition: How Do I Know Who You Are?, Proceedings of the IEEE 12th Signal Processing and Communications Applications Conference (2004), pp. 3 5 [6] P. Maijala, Akustiikan mittaukset, esivedos , 164 s. [7] A. Alexander and A. Drygajlo, Speaker identification: A demonstration using Matlab, Swiss Federal Institute of Technology, Lausanne, Signal Processing Institute (2008), [verkkodokumentti]. Saatavissa: ch/courses/biometrics_lectures pdf/03-biometrics-exercise / [8] K. Koppinen, SGN-4010 Puheenkäsittelyn menetelmät, Tampereen teknillinen yliopisto (2006), 72 s. [9] E. Karpov, Efficient Speaker Recognition for Mobile Devices, Publications of the University of Eastern Finland, Dissertations in Forestry and Natural Sciences (2011), p. 48 [10] J. Wolf, Efficient acoustic parameters for speaker recognition, Journal of the Acoustic Society of America 51, 6 (Part 2) (1972), pp [11] T. Kinnunen, Automaattinen puhujan tunnistus Joensuun yliopisto (1999), 55 s. [12] B. Pellom, T Automatic Speech Recognition: From Theory to Practice, University of Colorado, Department of Computer Science, Center for Spoken Language Research (2004). Saatavissa:

25 19 [13] R. Saeidi, Advances in Front-end and Back-end in Speaker Recognition, Publications of the University of Eastern Finland, Dissertations in Forestry and Natural Sciences No 34 (2011), p. 46 [14] J. Tohka, SGN-2500: Johdatus hahmontunnistukseen Tampereen teknillinen yliopisto (2008), 78 s. [15] CHiME Computational Hearing in Multisource Environments [WWW]. Saatavissa: [16] VOICEBOX: Speech Processing Toolbox for Matlab [WWW]. Saatavissa: [17] D. Reynolds and R. Rose, Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models IEEE Transactions on speech and audio processing, vol 3., no. 1 (1995), pp

26 20 LIITE A Liitteenä on yksinkertaisen puhujantunnistusjärjestelmän Matlab-toteutus. Liitteen toteutuksessa on tilan säästämiseksi käytetty ainoastaan yhtä opetusnäytettä ja yhtä testinäytettä, koska vertailujen määrä kasvaa eksponentiaalisesti vertailtavien lisääntyessä. Tarkoituksena on tuoda esille toteutuksessa käytetyt menetelmät. Kaikki käytetyt funktiot ovat saatavilla lähteistä [7] ja [16]. % Käytettyjen normaalijakaumien lukumäärä No_of_Gaussians = 7; % Opetus-ja testidatan lukeminen [data1,fs] = wavread('training_data1.wav'); test1 = wavread('testing_data1.wav'); % Muunnos kaksikanavaisesta yksikanavaiseksi training_data1 = zeros(length(data1),1); testing_data1 = zeros(length(test1),1); for n = 1:length(training_data1) training_data1(n) = (data1(n,1)+data1(n,2))/2; end for n = 1:length(testing_data1) testing_data1(n) = (test1(n,1)+test1(n,2))/2; end % Piirteenirrotus training_features1 = melcepst(training_data1,fs,'m',12,26,20e-3*fs,10e-3*fs); testing_features1 = melcepst(training_data1,fs,'m',12,26,20e-3*fs,10e-3*fs); % Opetus ja mallinnus [mu_train1,sigma_train1,c_train1] = gmm_estimate(training_features1',no_of_gaussians); % Testaus, tässä vaiheessa tulisi verrata kaikkia testipiirteitä kaikkiin luotuihin malleihin, tulokset tallentuvat matriisiin A [lym,ly]= lmultigauss(testing_features1', mu_train1,sigma_train1,c_train1); A(1,1)=mean(lY);

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients THE audio feature: MFCC Mel Frequency Cepstral Coefficients Ihmiskuulo MFCC- kertoimien tarkoituksena on mallintaa ihmiskorvan toimintaa yleisellä tasolla. Näin on todettu myös tapahtuvan, sillä MFCC:t

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen.

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen. TL536DSK-algoritmit (J. Laitinen)..5 Välikoe, ratkaisut Millaisia ongelmia kvantisointi aiheuttaa signaalinkäsittelyssä? Miksi ongelmat korostuvat IIR-suodatinten tapauksessa? Tarkastellaan Hz taajuista

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

Mallipohjainen klusterointi

Mallipohjainen klusterointi Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe SGN-00 Signaalinkäsittelyn menetelmät Välikoe 9.3.009 Sivuilla - on. Älä vastaa siihen, jos et ollut ensimmäisessä välikokeessa. Tentin kysymykset ovat sivuilla 3-4. Vastaa vain jompaan kumpaan kokeeseen,

Lisätiedot

SGN-4200 Digitaalinen Audio Harjoitustyö-info

SGN-4200 Digitaalinen Audio Harjoitustyö-info 1 SGN-4200 Digitaalinen Audio Harjoitustyö-info 04.04.2012 Joonas Nikunen Harjoitystyö - 2 Suorittaminen ja Käytännöt Kurssin pakollinen harjoitustyö: Harjoitellaan audiosignaalinkäsittelyyn tarkoitetun

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe SGN-100 Signaalinkäsittelyn menetelmät Välikoe 6.4.010 Sivuilla 1- on. Älä vastaa siihen, jos et ollut ensimmäisessä välikokeessa. Tentin kysymykset ovat sivuilla 3-4. Vastaa vain jompaan kumpaan kokeeseen,

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS AI-TUTKIJAN URANÄKYMIÄ AJATUSTENLUKUA COMPUTER VISION SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA MUUTTUJIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Projektisuunnitelma ja johdanto AS-0.3200 Automaatio- ja systeemitekniikan projektityöt Paula Sirén

Projektisuunnitelma ja johdanto AS-0.3200 Automaatio- ja systeemitekniikan projektityöt Paula Sirén Projektisuunnitelma ja johdanto AS-0.3200 Automaatio- ja systeemitekniikan projektityöt Paula Sirén Sonifikaatio Menetelmä Sovelluksia Mahdollisuuksia Ongelmia Sonifikaatiosovellus: NIR-spektroskopia kariesmittauksissa

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

SGN-1251 Signaalinkäsittelyn sovellukset Välikoe Heikki Huttunen

SGN-1251 Signaalinkäsittelyn sovellukset Välikoe Heikki Huttunen SGN-5 Signaalinkäsittelyn sovellukset Välikoe.. Heikki Huttunen Tentissä ja välikokeessa saa käyttää vain tiedekunnan laskinta. Tenttikysymyksiä ei tarvitse palauttaa. Sivuilla - on. Sivuilla 4-6 on. Vastaa

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SGN-1200 Signaalinkäsittelyn menetelmät, Tentti 18.3.2008 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle

Lisätiedot

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään

Lisätiedot

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 Jussi Tohka jussi.tohka@tut.fi Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto SGN-2500 Johdatus hahmontunnistukseen 2007Luennot 4 ja

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

3 Ikkunointi. Kuvio 1: Signaalin ikkunointi.

3 Ikkunointi. Kuvio 1: Signaalin ikkunointi. 3 Ikkunointi Puhe ei ole stationaarinen signaali, vaan puheen ominaisuudet muuttuvat varsin nopeasti ajan myötä. Tämä on täysin luonnollinen ja hyvä asia, mutta tämä tekee sellaisten signaalinkäsittelyn

Lisätiedot

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Esimerkki otteluvoiton todennäköisyys A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Yksittäisessä pelissä A voittaa todennäköisyydellä p ja B todennäköisyydellä q =

Lisätiedot

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016 Osakesalkun optimointi Anni Halkola Turun yliopisto 2016 Artikkeli Gleb Beliakov & Adil Bagirov (2006) Non-smooth optimization methods for computation of the Conditional Value-at-risk and portfolio optimization.

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SG-1200 Signaalinkäsittelyn menetelmät, Tentti 24.4.2006 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle

Lisätiedot

Logistinen regressio, separoivat hypertasot

Logistinen regressio, separoivat hypertasot Logistinen regressio, separoivat hypertasot Topi Sikanen Logistinen regressio Aineisto jakautunut K luokkaan K=2 tärkeä erikoistapaus Halutaan mallintaa luokkien vedonlyöntikertoimia (odds) havaintojen

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet

Lisätiedot

Osa IX. Z muunnos. Johdanto Diskreetit funktiot

Osa IX. Z muunnos. Johdanto Diskreetit funktiot Osa IX Z muunnos A.Rasila, J.v.Pfaler () Mat-.33 Matematiikan peruskurssi KP3-i 9. lokakuuta 2007 298 / 322 A.Rasila, J.v.Pfaler () Mat-.33 Matematiikan peruskurssi KP3-i 9. lokakuuta 2007 299 / 322 Johdanto

Lisätiedot

S09 04 Kohteiden tunnistaminen 3D datasta

S09 04 Kohteiden tunnistaminen 3D datasta AS 0.3200 Automaatio ja systeemitekniikan projektityöt S09 04 Kohteiden tunnistaminen 3D datasta Loppuraportti 22.5.2009 Akseli Korhonen 1. Projektin esittely Projektin tavoitteena oli algoritmin kehittäminen

Lisätiedot

1. TILASTOLLINEN HAHMONTUNNISTUS

1. TILASTOLLINEN HAHMONTUNNISTUS 1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

SGN Signaalinkäsittelyn perusteet Välikoe Heikki Huttunen

SGN Signaalinkäsittelyn perusteet Välikoe Heikki Huttunen SGN- Signaalinkäsittelyn perusteet Välikoe.5.4 Heikki Huttunen Tentissä ja välikokeessa saa käyttää vain tiedekunnan laskinta. Tenttikysymyksiä ei tarvitse palauttaa. Sivuilla -3 on. Sivuilla 4-5 on. Sivulla

Lisätiedot

Laskuharjoitus 9, tehtävä 6

Laskuharjoitus 9, tehtävä 6 Aalto-yliopiston perustieteiden korkeakoulu Jouni Pousi Systeemianalyysin laboratorio Mat-2.4129 Systeemien identifiointi Laskuharjoitus 9, tehtävä 6 Tämä ohje sisältää vaihtoehtoisen tavan laskuharjoituksen

Lisätiedot

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH 8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH Osa aikasarjoista kehittyy hyvin erityyppisesti erilaisissa tilanteissa. Esimerkiksi pörssikurssien epävakaus keskittyy usein lyhyisiin

Lisätiedot

Esimerkki: Tietoliikennekytkin

Esimerkki: Tietoliikennekytkin Esimerkki: Tietoliikennekytkin Tämä Mathematica - notebook sisältää luennolla 2A (2..26) käsitellyn esimerkin laskut. Esimerkin kuvailu Tarkastellaan yksinkertaista mallia tietoliikennekytkimelle. Kytkimeen

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

1 Bayesin teoreeman käyttö luokittelijana

1 Bayesin teoreeman käyttö luokittelijana 1 Bayesin teoreeman käyttö luokittelijana Bayesin kaavan mukaan merkityksen kontekstille c ehdollistettu todennäkköisyys voidaan määrittää alla olevan yhtälön perusteella: P ( c) = P (c )P ( ) P (c) (1)

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SG-1200 Signaalinkäsittelyn menetelmät, Tentti 30.1.2006 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea. Roolit Tommi Perälä Department of Mathematics, Hypermedia Laboratory Tampere University of Technology 25.3.2011 J. Kleinberg kehitti -algoritmin (Hypertext Induced Topic Search) hakukoneen osaksi. n taustalla

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Spektri- ja signaalianalysaattorit

Spektri- ja signaalianalysaattorit Spektri- ja signaalianalysaattorit Pyyhkäisevät spektrianalysaattorit Suora pyyhkäisevä Superheterodyne Reaaliaika-analysaattorit Suora analoginen analysaattori FFT-spektrianalysaattori DFT FFT Analysaattoreiden

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Inversio-ongelmien laskennallinen peruskurssi Luento 2 Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SG-1200 Signaalinkäsittelyn menetelmät, Tentti 21.3.2006 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle

Lisätiedot

Laskuharjoitus 2 ( ): Tehtävien vastauksia

Laskuharjoitus 2 ( ): Tehtävien vastauksia TT12S1E Tietoliikenteen perusteet Metropolia/A. Koivumäki Laskuharjoitus 2 (11.9.2013): Tehtävien vastauksia 1. Eräässä kuvitteellisessa radioverkossa yhdessä radiokanavassa voi olla menossa samanaikaisesti

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

Kompleksiluvut signaalin taajuusjakauman arvioinnissa Kompleksiluvut signaalin taajuusjakauman arvioinnissa Vierailuluento IMA-kurssilla Heikki Huttunen Lehtori, TkT Signaalinkäsittely, TTY heikki.huttunen@tut.fi Department of Signal Processing Fourier-muunnos

Lisätiedot

SGN Signaalinkäsittelyn perusteet Välikoe Heikki Huttunen

SGN Signaalinkäsittelyn perusteet Välikoe Heikki Huttunen SGN-11 Signaalinkäsittelyn perusteet Välikoe 3.5.16 Heikki Huttunen Laskimen käyttö sallittu. Muiden materiaalien käyttö ei sallittu. Tenttikysymyksiä ei tarvitse palauttaa. Sivuilla 1-3 on. Sivuilla 4-5

Lisätiedot

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1) Harjoitustehtäviä (erä 1) 1 1. Käytetään yksinkertaisesti Bayesin kaavaa: P (A B) = P (A)P (B A). P (B) Tapauksessa B = 1 saadaan P (A = 0 B = 1) = P (A = 1 B = 1) = P (A = 0)P (B = 1 A = 0) P (A = 1)P

Lisätiedot

Algoritmit 2. Luento 13 Ti Timo Männikkö

Algoritmit 2. Luento 13 Ti Timo Männikkö Algoritmit 2 Luento 13 Ti 30.4.2019 Timo Männikkö Luento 13 Simuloitu jäähdytys Merkkijonon sovitus Horspoolin algoritmi Ositus ja rekursio Rekursion toteutus Algoritmit 2 Kevät 2019 Luento 13 Ti 30.4.2019

Lisätiedot

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti Luku 6 Dynaaminen ohjelmointi Dynaamisessa ohjelmoinnissa on ideana jakaa ongelman ratkaisu pienempiin osaongelmiin, jotka voidaan ratkaista toisistaan riippumattomasti. Jokaisen osaongelman ratkaisu tallennetaan

Lisätiedot

S-114.3812 Laskennallinen Neurotiede

S-114.3812 Laskennallinen Neurotiede S-114.381 Laskennallinen Neurotiede Projektityö 30.1.007 Heikki Hyyti 60451P Tehtävä 1: Virityskäyrästön laskeminen Luokitellaan neuroni ensin sen mukaan, miten se vastaa sinimuotoisiin syötteisiin. Syöte

Lisätiedot

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Kertymäfunktio TKK (c) Ilkka Mellin (2005) 1 Kertymäfunktio Kertymäfunktio: Määritelmä Diskreettien jakaumien kertymäfunktiot Jatkuvien jakaumien kertymäfunktiot TKK (c)

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

3.11.2006. ,ܾ jaü on annettu niin voidaan hakea funktion 0.1 0.2 0.3 0.4

3.11.2006. ,ܾ jaü on annettu niin voidaan hakea funktion 0.1 0.2 0.3 0.4 Ü µ ½ ¾Ü¾µ Ü¾Ê 3.11.2006 1. Satunnaismuuttujan tiheysfunktio on ¼ ļ ܽ ܾ ÜÒµ Ä Ü½ ÜÒµ Ò Ä Ü½ ܾ ÜÒµ ܽ µ ܾ µ ÜÒ µ Ò missä tietenkin vaaditaan, että ¼. Muodosta :n ¾Ä ܽ ÜÒµ Ò ½¾ ܾ Ò ½ ¾Ü¾½µ ½ ¾Ü¾Òµ

Lisätiedot

Diskriminanttianalyysi I

Diskriminanttianalyysi I Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi

Lisätiedot

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Heikki Mannila, Jouni Seppänen 12.12.2007 Webin lyhyt historia http://info.cern.ch/proposal.html http://browser.arachne.cz/screen/

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SGN-1200 Signaalinkäsittelyn menetelmät, Tentti 5.5.2008 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle

Lisätiedot

Digitaalinen signaalinkäsittely Desibeliasteikko, suotimen suunnittelu

Digitaalinen signaalinkäsittely Desibeliasteikko, suotimen suunnittelu Digitaalinen signaalinkäsittely Desibeliasteikko, suotimen suunnittelu Teemu Saarelainen, teemu.saarelainen@kyamk.fi Lähteet: Ifeachor, Jervis, Digital Signal Processing: A Practical Approach H.Huttunen,

Lisätiedot

Seminaarityö. Puhujantunnistus Gaussian Mixture malleilla

Seminaarityö. Puhujantunnistus Gaussian Mixture malleilla Lappeenrannan teknillinen yliopisto Teknillistaloudellinen tiedekunta Tietotekniikan koulutusohjelma Seminaarityö Puhujantunnistus Gaussian Mixture malleilla Seminaaripaperin ohjaajana toimii TkT Leena

Lisätiedot

Tilastolliset mallit hakkuukoneen katkonnan ohjauksessa. Tapio Nummi Tampereen yliopisto

Tilastolliset mallit hakkuukoneen katkonnan ohjauksessa. Tapio Nummi Tampereen yliopisto Tilastolliset mallit hakkuukoneen katkonnan ohjauksessa Tapio Nummi Tampereen yliopisto Runkokäyrän ennustaminen Jotta runko voitaisiin katkaista optimaalisesti pitäisi koko runko mitata etukäteen. Käytännössä

Lisätiedot

Lisäinformaation arvo monikriteerisessä projektiportfoliovalinnassa (valmiin työn esittely)

Lisäinformaation arvo monikriteerisessä projektiportfoliovalinnassa (valmiin työn esittely) Lisäinformaation arvo monikriteerisessä projektiportfoliovalinnassa (valmiin työn esittely) Jussi Hirvonen 23.03.2015 Ohjaaja: Eeva Vilkkumaa Valvoja: Ahti Salo Työn saa tallentaa ja julkistaa Aalto-yliopiston

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot