Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Samankaltaiset tiedostot
T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

LIITE 1 VIRHEEN ARVIOINNISTA

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

LIITE 1 VIRHEEN ARVIOINNISTA

T Luonnollisten kielten tilastollinen käsittely

LIITE 1 VIRHEEN ARVIOINNISTA

Koodausteoria, Kesä 2014

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Määritelmä Olkoon T i L (V i, W i ), 1 i m. Yksikäsitteisen lineaarikuvauksen h L (V 1 V 2 V m, W 1 W 2 W m )

Ratkaisuehdotukset LH 3 / alkuvko 45

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

Ratkaisuehdotukset LH 8 / vko 47

MS-C1340 Lineaarialgebra ja

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Avainsanojen poimiminen Eeva Ahonen

(0 desimaalia, 2 merkitsevää numeroa).

Ratkaisuehdotukset LH 7 / vko 47

1 p p P (X 0 = 0) P (X 0 = 1) =

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Ratkaisuehdotukset LH 10 / vko 48

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Inversio-ongelmien laskennallinen peruskurssi Luento 4

MAB3 - Harjoitustehtävien ratkaisut:

Matriisilaskenta Luento 16: Matriisin ominaisarvot ja ominaisvektorit

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Väliestimointi (jatkoa) Heliövaara 1

MAB3 - Harjoitustehtävien ratkaisut:

Laskuharjoitus 5. Mitkä ovat kuvan 1 kanavien kapasiteetit? Kuva 1: Kaksi kanavaa. p/(1 p) ) bittiä lähetystä kohti. Voidaan

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Arvostus Verkostoissa: PageRank. Idea.

JAKSO 2 KANTA JA KOORDINAATIT

tään painetussa ja käsin kirjoitetussa materiaalissa usein pienillä kreikkalaisilla

Osittaistuenta Gaussin algoritmissa: Etsitään 1. sarakkeen itseisarvoltaan suurin alkio ja vaihdetaan tämä tukialkioiksi (eli ko. rivi 1. riviksi).

Determinantti 1 / 30

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

Numeeriset menetelmät

Harjoitusten 4 vastaukset

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Lineaarialgebra ja matriisilaskenta I, HY Kurssikoe Ratkaisuehdotus. 1. (35 pistettä)

Matematiikan tukikurssi

Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

Sovellettu todennäköisyyslaskenta B

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Jatkuvat satunnaismuuttujat

Numeeriset menetelmät

1 Avaruuksien ja lineaarikuvausten suora summa

Matematiikan tukikurssi

Lineaarikuvausten. Lineaarikuvaus. Lineaarikuvauksia. Ydin. Matriisin ydin. aiheita. Aiheet. Lineaarikuvaus. Lineaarikuvauksen matriisi

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Inversio-ongelmien laskennallinen peruskurssi Luento 3

4. Lasketaan transienttivirrat ja -jännitteet kuvan piiristä. Piirielimien arvot ovat C =

Matriisit, L20. Laskutoimitukset. Matriisikaavoja. Aiheet. Määritelmiä ja merkintöjä. Laskutoimitukset. Matriisikaavoja. Matriisin transpoosi

Moniulotteisia todennäköisyysjakaumia

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Ominaisvektoreiden lineaarinen riippumattomuus

Matematiikan tukikurssi, kurssikerta 3

Reaalilukuvälit, leikkaus ja unioni (1/2)

Matriisit, L20. Laskutoimitukset. Matriisikaavoja. Aiheet. Määritelmiä ja merkintöjä. Laskutoimitukset. Matriisikaavoja. Matriisin transpoosi

Lineaarikuvauksen R n R m matriisi

D ( ) E( ) E( ) 2.917

MS-A0004/A0006 Matriisilaskenta

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

4. laskuharjoituskierros, vko 7, ratkaisut

Matematiikan peruskurssi 2

Mittaustekniikka (3 op)

Sovellettu todennäköisyyslaskenta B

Lineaarialgebra ja matriisilaskenta I

2.2.1 Ratkaiseminen arvausta sovittamalla

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

Poisson-prosessien ominaisuuksia ja esimerkkilaskuja

Lineaarialgebra b, kevät 2019

A B = (1, q, q 2 ) (2, 0, 2) = 2 2q q 2 = 0 q 2 = 1 q = ±1 A(±1) = (1, ±1, 1) A(1) A( 1) = (1, 1, 1) (1, 1, 1) = A( 1) A(1) A( 1) = 1

5 OMINAISARVOT JA OMINAISVEKTORIT

Laskennallinen data-analyysi II

Markov-kustannusmallit ja kulkuajat

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Laskennallinen data-analyysi II

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä


S Laskennallinen systeemibiologia

pitkittäisaineistoissa

Satunnaismuuttujien muunnokset ja niiden jakaumat

Determinantti. Määritelmä

ABHELSINKI UNIVERSITY OF TECHNOLOGY

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

T Privacy amplification

Päättelyn voisi aloittaa myös edellisen loppupuolelta ja näyttää kuten alkupuolella, että välttämättä dim W < R 1 R 1

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Harha mallin arvioinnissa

Datatähti 2019 alku. task type time limit memory limit. A Kolikot standard 1.00 s 512 MB. B Leimasin standard 1.00 s 512 MB

Liikenneongelmien aikaskaalahierarkia

Derivaatta: funktion approksimaatio lineaarikuvauksella.

Transkriptio:

T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen laskemiseksi. kone relevantit ei relevantit valitsi tp 6 fp ei valinnut 2 fn 9988 tn kone 2 relevantit ei relevantit valitsi 6 tp fp ei valinnut 0 fn 9990 tn Taulukko : Muokatut taulukot. Taulukkoihin on merkkattu myös tp (True Positives, oikein hyväksytyt), fp (False Positives, väärin hyväksytyt), fn (False egatives, väärät hylätyt) ja fp (True egatives, oikeat hylätyt) Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. mitta measure määritelmä kone kone 2 Kuinka suuri osa tarkkuus saanti hajoama precision recall fallout täsmäävyys accuracy virhe error tp tp+fp tp tp+fn fp fp+tn tp+tn fp+fn = 0% 6 +6 = 67% 6 +2 6+0 6 = 0.06% 6+9988 +9990 +9988 6+9990 = 99.92% 0000 0000 6+2 = 0.08% 0000 0000 = 60% löytyneistä relevantteja 6+ = 00% relevanteista löytyi ei-relevanteista = 0.0% palautettiin = 99.96% luokiteltiin oikein = 0.0% luokiteltiin väärin Taulukko 2: Tulokset. Huomataan, että vain tarkkuuden ja palautuksen tulosprosentti liikkuu helposti miellettävällä alueella. F-mitta määritellään tarkuuden ja palautuksen avulla: α P + ( α) R missä P on tarkkuus ja R on palautus. α säätää näiden välistä painotusta. Jos valitaan α = 0.5 saadaan 2PR P + R Ensimmäiselle koneelle saadaan näinollen F = 50% ja toiselle F 2 = 75%. Interpoloimatonta keskitarkkuutta laskiessa katsotaan tarkkuutta aina kun löydetään relevantti dokumentti ja keskiarvoistetaan näiden tarkkuuksien yli. UAP = ( 6 + 2 2 + 3 + ) = 53% 0 UAP 2 = ( 6 + 2 2 + 3 3 + 5 + 5 7 + 6 ) = 86% 9

2. Tehtävänannossa annettiin sanojen dokumenttifrekvenssit: df = 2 ja df 2 = 500. Lisäksi tiedetään että kokoelmafrekvenssit ovat cf = 0 ja cf 2 = 700. Kaikenkaikkiaan kokoelmassa on = 0000 dokumenttia. Käänteinen dokumenttifrekvenssi 0000 määritellään IDF i = log 2 df i, joten sanalle w se on log 2 = 8.9 ja sanalle w 2 2 se 0000 on log 2 =.3. 500 Residuaalisen käänteisen dokumenttifrekvenssin (RIDF) kohdalla kirjan ensimmäisessä painoksessa on runsaasti virheitä. RIDF:n kantava idea perustuu seuraavanlaiselle päättelylle: voimme mallintaa sanan esiintymistä Poisson-jakaumalla p. Tämä toimii hyvin sanoille, jotka ovat suhteellisen tasaisesti jakautuneet korpuksessa. Sisällöllisesti merkittävät sanat esiintyvät yleensä ryhmissä, asiaa käsittelevän dokumentin sisällä ja Poisson-jakauma antaa siis tällöin väärän ennusteen sanojen yleisyydestä. RIDF:ssä mitataan käänteisen dokumenttifrekvenssin ja Poisson-jakauman välistä eroa. Mitä suurempi ero, sitä enemmän sana kuvaa dokumentin sisältöä. Tässä siis Poisson-jakauman käyttölogiikka on seuraava: Approksimodaan, että dokumentissä esiintyy sana w i keskimäärin λ = cf i kertaa. Todennäköisyys sille, että jossain tietyssä dokumentissä sana w esiintyy k kertaa saadaan Poisson-jakaumasta Poisson(k; λ) = e λλk k! RIDF määritellään siis ( ) RIDF = IDF log 2 Poisson(0, λ) Tässä siis Poisson-jakaumasta otetaan todennäköisyys, että dokumentissä esiintyy haluttu sana vähintään kerran ( Poisson(0, λ)). Sievennellään RIDF:n lauseketta: ( ) RIDF = IDF log 2 Poisson(0, λ) = log 2 + log df 2 ( Poisson(0, λ) i Sijoitellaan kaavaan luvut: ( e cf i ( λ 0! )0 ) = log 2 df i ( e cf i ) = log 2 df i 0000( e 0 0000 ) RIDF = log 2 2 0000( e 700 0000 ) RIDF 2 = log 2 500 = 2.3 = 0. 2

d d 2 d 3 d d 5 d 6 d 7 Schumacher 0 0 0 0 0 rata 0 0 0 formula 0 0 0 0 kolari 0 0 0 0 0 galaksi 0 0 0 0 0 tähti 0 0 0 0 planeetta 0 0 0 0 0 meteoriitti 0 0 0 0 0 0 Taulukko 3: Dokumentti sana-matriisi Huomataan, että RIDF painotti sanaa w 2.5 kertaa enemmän kuin IDF. Molempien menetelmien mielestä w on relevantimpi hakutermi kuin w 2. 3. Pyydetty dokumentti sanamatriisi on esitetty taulukossa 3. SVD-hajotelmassa puretaan matriisi A palasiksi: A = USV T Tässä U on t n matriisi, S on n n ja T d n. Matriisit on esitetty taulukoissa, 5, 6. Tiputetaan sisäinen dimensio kahteen jättämällä U ja V -matriiseista muut dimensiot pois ja ottamalla S-matriisista vain kaksi suurinta ominaisarvoa. yt dokumenttien samankaltaisuutta voi verrata matriisilla B = SV T. Jos matriisin sarakeet skaalataan yhden pituisiksi, on helppo laskea korrelaatioita rivien välillä. Tällainen skaalattu matriisi on esitetty taulukossa 7 ja siitä lasketut korrelaatiot taulukossa 8. Sanojen samankaltaisuutta voitaisiin verrata matriisista W = US. Korrelaatiomatriisista huomataan, että formula-artikkelit ja tähtitiedeartikkelit korreloivat sisäisesti paljon enemmän kuin ristiin. Alunperin täysin korreloimattomata dokumentit d 5 ja d 7 korreloivat nyt selvästi. Olemme projisoineet datan 2-ulotteiseen avaruuteen ja samantyyppiset artikkelit ovat päätyneet lähekkäin tähän alempiulotteiseen avaruuteen. Lopuksi vielä pieni varoitus: kirjan kappaleessa 5 on runsaasti pikkuvirheitä, kannattaa tarkastaa kirjan errata (http://www-nlp.stanford.edu/fsnlp/errata.html). 3

dim dim 2 dim 3 dim dim 5 dim 6 dim 7 dim 8 Schumacher -0.200-0.336 0.290 0.5 0.823 0.007 0.2-0.23 rata -0.590 0.007 0.8 0.686-0.232-0.83 0.025 0.23 formula -0.35-0.6-0.00-0.225-0.333 0.609 0.05-0.23 kolari -0.37-0.36-0.08-0.9 0.07-0.38-0.285 0.85 galaksi -0.200 0.00 0.602-0.22-0.053 0.028-0.563-0.23 tähti -0.6 0.376-0.08-0.23 0.03-0.35 0.275-0.85 planeetta -0.257 0.76-0.23-0.070 0.363 0.530-0.007 0.85 meteoriitti -0.026 0.6 0.53-0.336-0.32-0.08 0.73 0.23 Taulukko : U 2.99 0 0 0 0 0 0 0 2.07 0 0 0 0 0 0 0.59 0 0 0 0 0 0 0.3 0 0 0 0 0 0 0.83 0 0 0 0 0 0 0 0.638 0 0 0 0 0 0 0 0.60 0 0 0 0 0 0 0 Taulukko 5: S d d 2 d 3 d d 5 d 6 d 7 dim -0.38-0.27 0.099 0.352-0.78 0.669 0.52 dim 2-0.268-0.56 0.325 0.6 0.99-0.275 0.36 dim 3-0.63-0.20-0.255-0.87-0.390-0.559 0.30 dim -0.323-0.55 0.098-0.60 0.7 0.279-0.26 dim 5-0.077 0.25 0.779-0.0-0.57-0.030 0.328 dim 6-0.52 0.598 0.099 0.2 0.09 0.08-0.587 dim 7-0.2 0.0-0.0-0.26 0.335 0.290 0.583 Taulukko 6: V d d 2 d 3 d d 5 d 6 d 7 dim -0.93-0.92-0.97-0.63-0.00-0.768-0.66 dim 2-0.07-0.38-0.238-0.773 0.97 0.60 0.76 Taulukko 7: Skaalattu B

d d 2 d 3 d d 5 d 6 d 7 d.000 d 2.000.000 d 3 0.98 0.988.000 d 0.89 0.882 0.800.000 d 5-0.008 0.08 0.7-0.55.000 d 6 0. 0.6 0.59-0.008 0.89.000 d 7 0.279 0.30 0.6-0.80 0.958 0.985.000 Taulukko 8: Korrelaatiot 5