Avainsanojen poimiminen Eeva Ahonen

Samankaltaiset tiedostot
Avainsanojen poimiminen tekstistä

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Tilastollisia peruskäsitteitä ja Monte Carlo

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Jatkuvat satunnaismuuttujat

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Sovellettu todennäköisyyslaskenta B

Viikko 1: Johdantoa Matti Kääriäinen

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitus 7: NCSS - Tilastollinen analyysi

Testit laatueroasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

pitkittäisaineistoissa

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

2. TILASTOLLINEN TESTAAMINEN...

Mat Tilastollisen analyysin perusteet, kevät 2007

7. Normaalijakauma ja standardipisteet

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

pitkittäisaineistoissa

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1 Bayesin teoreeman käyttö luokittelijana

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Todennäköisyyden ominaisuuksia

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

T Luonnollisten kielten tilastollinen käsittely

Sovellettu todennäköisyyslaskenta B

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Normaalijakaumasta johdettuja jakaumia

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Tekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.

Testit järjestysasteikollisille muuttujille

Geneettiset algoritmit

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Tilastollinen aineisto Luottamusväli

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mittausepävarmuuden laskeminen ISO mukaisesti. Esimerkki: Campylobacter

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy päätöspuiden avulla tarkastellaan vasta seuraavissa harjoituksissa.

Diskreetit todennäköisyysjakaumat. Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Tilastotieteen aihehakemisto

Monitavoitteiseen optimointiin soveltuvan evoluutioalgoritmin tarkastelu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Paikkatietoa metsäbiomassan määrästä tarvitaan

Testejä suhdeasteikollisille muuttujille

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

TILASTOLLINEN OPPIMINEN

LITTEEPALTTOOSET PALLAUTTELIJAT. Jaktlig avkommebeskrivning metsästysominaisuuksien jälkeläiskuvaus

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS

Oppijan saama palaute määrää oppimisen tyypin

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TILASTOLLINEN HAHMONTUNNISTUS

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

805324A (805679S) Aikasarja-analyysi Harjoitus 5 (2016)

A-osa. Ratkaise kaikki tämän osan tehtävät. Tehtävät arvostellaan pistein 0-6. Taulukkokirjaa saa käyttää apuna, laskinta ei.

AS Automaation signaalinkäsittelymenetelmät. Tehtävä 1. Käynnistä fuzzy-toolboxi matlabin komentoikkunasta käskyllä fuzzy.

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tutkimustiedonhallinnan peruskurssi

NÄYTÖN ARVIOINTI: SYSTEMAATTINEN KIRJALLISUUSKATSAUS JA META-ANALYYSI. EHL Starck Susanna & EHL Palo Katri Vaasan kaupunki 22.9.

Estimointi. Otantajakauma

Arkkitehtuurien tutkimus Outi Räihä. OHJ-3200 Ohjelmistoarkkitehtuurit. Darwin-projekti. Johdanto

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Otoskoko 107 kpl. a) 27 b) 2654

MENETELMÄ POISTETTU KÄYTÖSTÄ

Genetiikan perusteet 2009

KORJAUSVELAN LASKENTAMALLI KÄYTTÖÖN

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

Tilastollinen päättely, 10 op, 4 ov

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Transkriptio:

Avainsanojen poimiminen 5.10.2004 Eeva Ahonen

Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset

Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle Vain harvoissa dokumenteissa valmiina Automaattinen avainsanojen eristäminen auttaisi tiedonhakijaa

Menetelmät Ohjattu oppiminen Lausekkeiden luokittelu luokka 1: avainsana luokka 2: ei-avainsana Sanojen (lausekkeiden) piirteisiin pohjautuva malli Malli ennustaa uuden kandidaatin luokan

Menetelmät / C4.5 Dokumentin lausekkeet piirrevektoreina Harjoitusmateriaalissa jokaiselle vektorille määritetty luokka Materiaalista päätöspuu, joka yhdistää piirteet ja luokat freq_phrase > 10? Esim. no yes class 2 (non-keyphrase) class 1 (keyphrase)

Menetelmät / C4.5 Soft-threshold luokalle todennäköisyys Bagging useita puita, jotka äänestävät luokasta Bagging + soft-threshold äänestämisen sijaan todennäköisyyksien keskiarvo

Menetelmät / GenEx Extractor avainsanojen eristämis algoritmi Turney Toimintaan vaikutetaan 12 parametrillä Parametrien arvot Genitorilla Geneettinen algoritmi Populaatio koostuu parametrien arvokombinaatioista

Menetelmät / GenEx Yksilön laadun mittarina Extractorin palauttamien avainsanojen tarkkuus Mutaatiot Risteytykset Korkeammin pisteytetyille yksilöille enemmän jälkeläisiä Uusi yksilö korvaa heikoimman Lopputuloksena paras yksilö

Menetelmät / Bayes tilastollinen malli todennäköisyydet avainsanassa esiintyville piirteille piirteinä lausekkeen TF IDF paino ja etäisyys dokumentin alusta

Testaus Kuinka hyviä tuloksia saadaan tarkkuus verrattuna valmiisiin (kirjoittajan antamiin) avainsanoihin Opetteluun kuluva aika Kontekstisidonnaisuus

Testaus / C4.5 perusasetukset: bagging 50 puuta näytekoko 1 % luokat näytteessä 50 / 50 avainsanoja 5, 7, 9, 11, 13, 15 tuloksena keskiarvo tarkkuudesta / korpus

Testaus / C4.5 Baggingin vaikutus Puiden määrä 1, 25, 50 50 puuta parempi kuin 1 Hypoteesi oikea

Testaus / C4.5 Luokkien jakauma näytteessä Alun perin vinon jakauman tasoittaminen Positiivisia esimerkkejä 1, 25, 50 % näytteestä Tarkkuus laskee, kun positiivisten esimerkkien osuus kasvaa Hypoteesi väärä

Testaus / C4.5 Näytteen laajuuden vaikutus 1, 25, 50 % näyte Pienempi näyte, parempi tulos Hypoteesi oikea Bagging toimii parhaiten, kun yhdistettävät puut heterogeenisiä, laajempi näyte tasoittaa eroja

Testaus / C4.5 Parhaat tulokset 3. testissä epätasaisella luokkajakaumalla Parhaimmillaan lähes 30 % tarkkuus (tietylle korpukselle) Opetusvaiheen kesto n. 4 min

Testaus / GenEx Genitorin perusasetukset: populaation koko 50 koeajoja 1050 Testit vertaillen C4.5 Tulokset merkittävästi parempia Parhaat tulokset myös 30 % luokkaa Keskiarvo parempi Opetusaika 48 ja puoli tuntia

Testaus / Kea GenEx testien toisto samat materiaalit sama tuloksen laskenta (tarkkuus) > vertailukelpoisuus Tuloksissa ei tilastollisesti merkittäviä eroja Opetusaika 8 min O (n log(n)) / lausekkeiden lkm

Testaus / Kea Harjoitusmateriaalin laajuuden vaikutus 0-20 dokumenttia -> paljon merkitystä 20-50 dokumenttia -> vain vähän parannusta 50- dokumenttia -> tulos ei enää parane 50 dokumentilla saavutetaan maximisuoritustaso

Testaus / Kea 3. piirre mukaan malliin tietyn lausekkeen todennäköisyys olla avainsana Domain-kohtainen tieto Tulos paranee huomattavasti Materiaalin määrä vaikuttaa 100-1000 dokumenttia -> selvä vaikutus

Tuloksista Domain-kohtaisesti saavutettavissa parempia tuloksia > oppimisajan merkitys Harjoitusmateriaalin määrä rajallinen Tarkkuuden laskeminen > onko riittävä mitta?

Tuloksia Ovatko kirjoittaman avainsanat aina parhaat? GenExissä luetettiin tekstejä ihmisillä > 80 % avainsanoista hyväksyttäviä Tulokset ehkä parempia kuin laskennallinen prosenttiluku antaa ymmärtää