T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen laskemiseksi. kone relevantit ei relevantit valitsi tp 6 fp ei valinnut 2 fn 9988 tn kone 2 relevantit ei relevantit valitsi 6 tp fp ei valinnut 0 fn 9990 tn Taulukko : Muokatut taulukot. Taulukkoihin on merkkattu myös tp (True Positives, oikein hyväksytyt), fp (False Positives, väärin hyväksytyt), fn (False egatives, väärät hylätyt) ja fp (True egatives, oikeat hylätyt) Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. mitta measure määritelmä kone kone 2 Kuinka suuri osa tarkkuus saanti hajoama precision recall fallout täsmäävyys accuracy virhe error tp tp+fp tp tp+fn fp fp+tn tp+tn fp+fn = 0% 6 +6 = 67% 6 +2 6+0 6 = 0.06% 6+9988 +9990 +9988 6+9990 = 99.92% 0000 0000 6+2 = 0.08% 0000 0000 = 60% löytyneistä relevantteja 6+ = 00% relevanteista löytyi ei-relevanteista = 0.0% palautettiin = 99.96% luokiteltiin oikein = 0.0% luokiteltiin väärin Taulukko 2: Tulokset. Huomataan, että vain tarkkuuden ja palautuksen tulosprosentti liikkuu helposti miellettävällä alueella. F-mitta määritellään tarkuuden ja palautuksen avulla: α P + ( α) R missä P on tarkkuus ja R on palautus. α säätää näiden välistä painotusta. Jos valitaan α = 0.5 saadaan 2PR P + R Ensimmäiselle koneelle saadaan näinollen F = 50% ja toiselle F 2 = 75%. Interpoloimatonta keskitarkkuutta laskiessa katsotaan tarkkuutta aina kun löydetään relevantti dokumentti ja keskiarvoistetaan näiden tarkkuuksien yli. UAP = ( 6 + 2 2 + 3 + ) = 53% 0 UAP 2 = ( 6 + 2 2 + 3 3 + 5 + 5 7 + 6 ) = 86% 9
2. Tehtävänannossa annettiin sanojen dokumenttifrekvenssit: df = 2 ja df 2 = 500. Lisäksi tiedetään että kokoelmafrekvenssit ovat cf = 0 ja cf 2 = 700. Kaikenkaikkiaan kokoelmassa on = 0000 dokumenttia. Käänteinen dokumenttifrekvenssi 0000 määritellään IDF i = log 2 df i, joten sanalle w se on log 2 = 8.9 ja sanalle w 2 2 se 0000 on log 2 =.3. 500 Residuaalisen käänteisen dokumenttifrekvenssin (RIDF) kohdalla kirjan ensimmäisessä painoksessa on runsaasti virheitä. RIDF:n kantava idea perustuu seuraavanlaiselle päättelylle: voimme mallintaa sanan esiintymistä Poisson-jakaumalla p. Tämä toimii hyvin sanoille, jotka ovat suhteellisen tasaisesti jakautuneet korpuksessa. Sisällöllisesti merkittävät sanat esiintyvät yleensä ryhmissä, asiaa käsittelevän dokumentin sisällä ja Poisson-jakauma antaa siis tällöin väärän ennusteen sanojen yleisyydestä. RIDF:ssä mitataan käänteisen dokumenttifrekvenssin ja Poisson-jakauman välistä eroa. Mitä suurempi ero, sitä enemmän sana kuvaa dokumentin sisältöä. Tässä siis Poisson-jakauman käyttölogiikka on seuraava: Approksimodaan, että dokumentissä esiintyy sana w i keskimäärin λ = cf i kertaa. Todennäköisyys sille, että jossain tietyssä dokumentissä sana w esiintyy k kertaa saadaan Poisson-jakaumasta Poisson(k; λ) = e λλk k! RIDF määritellään siis ( ) RIDF = IDF log 2 Poisson(0, λ) Tässä siis Poisson-jakaumasta otetaan todennäköisyys, että dokumentissä esiintyy haluttu sana vähintään kerran ( Poisson(0, λ)). Sievennellään RIDF:n lauseketta: ( ) RIDF = IDF log 2 Poisson(0, λ) = log 2 + log df 2 ( Poisson(0, λ) i Sijoitellaan kaavaan luvut: ( e cf i ( λ 0! )0 ) = log 2 df i ( e cf i ) = log 2 df i 0000( e 0 0000 ) RIDF = log 2 2 0000( e 700 0000 ) RIDF 2 = log 2 500 = 2.3 = 0. 2
d d 2 d 3 d d 5 d 6 d 7 Schumacher 0 0 0 0 0 rata 0 0 0 formula 0 0 0 0 kolari 0 0 0 0 0 galaksi 0 0 0 0 0 tähti 0 0 0 0 planeetta 0 0 0 0 0 meteoriitti 0 0 0 0 0 0 Taulukko 3: Dokumentti sana-matriisi Huomataan, että RIDF painotti sanaa w 2.5 kertaa enemmän kuin IDF. Molempien menetelmien mielestä w on relevantimpi hakutermi kuin w 2. 3. Pyydetty dokumentti sanamatriisi on esitetty taulukossa 3. SVD-hajotelmassa puretaan matriisi A palasiksi: A = USV T Tässä U on t n matriisi, S on n n ja T d n. Matriisit on esitetty taulukoissa, 5, 6. Tiputetaan sisäinen dimensio kahteen jättämällä U ja V -matriiseista muut dimensiot pois ja ottamalla S-matriisista vain kaksi suurinta ominaisarvoa. yt dokumenttien samankaltaisuutta voi verrata matriisilla B = SV T. Jos matriisin sarakeet skaalataan yhden pituisiksi, on helppo laskea korrelaatioita rivien välillä. Tällainen skaalattu matriisi on esitetty taulukossa 7 ja siitä lasketut korrelaatiot taulukossa 8. Sanojen samankaltaisuutta voitaisiin verrata matriisista W = US. Korrelaatiomatriisista huomataan, että formula-artikkelit ja tähtitiedeartikkelit korreloivat sisäisesti paljon enemmän kuin ristiin. Alunperin täysin korreloimattomata dokumentit d 5 ja d 7 korreloivat nyt selvästi. Olemme projisoineet datan 2-ulotteiseen avaruuteen ja samantyyppiset artikkelit ovat päätyneet lähekkäin tähän alempiulotteiseen avaruuteen. Lopuksi vielä pieni varoitus: kirjan kappaleessa 5 on runsaasti pikkuvirheitä, kannattaa tarkastaa kirjan errata (http://www-nlp.stanford.edu/fsnlp/errata.html). 3
dim dim 2 dim 3 dim dim 5 dim 6 dim 7 dim 8 Schumacher -0.200-0.336 0.290 0.5 0.823 0.007 0.2-0.23 rata -0.590 0.007 0.8 0.686-0.232-0.83 0.025 0.23 formula -0.35-0.6-0.00-0.225-0.333 0.609 0.05-0.23 kolari -0.37-0.36-0.08-0.9 0.07-0.38-0.285 0.85 galaksi -0.200 0.00 0.602-0.22-0.053 0.028-0.563-0.23 tähti -0.6 0.376-0.08-0.23 0.03-0.35 0.275-0.85 planeetta -0.257 0.76-0.23-0.070 0.363 0.530-0.007 0.85 meteoriitti -0.026 0.6 0.53-0.336-0.32-0.08 0.73 0.23 Taulukko : U 2.99 0 0 0 0 0 0 0 2.07 0 0 0 0 0 0 0.59 0 0 0 0 0 0 0.3 0 0 0 0 0 0 0.83 0 0 0 0 0 0 0 0.638 0 0 0 0 0 0 0 0.60 0 0 0 0 0 0 0 Taulukko 5: S d d 2 d 3 d d 5 d 6 d 7 dim -0.38-0.27 0.099 0.352-0.78 0.669 0.52 dim 2-0.268-0.56 0.325 0.6 0.99-0.275 0.36 dim 3-0.63-0.20-0.255-0.87-0.390-0.559 0.30 dim -0.323-0.55 0.098-0.60 0.7 0.279-0.26 dim 5-0.077 0.25 0.779-0.0-0.57-0.030 0.328 dim 6-0.52 0.598 0.099 0.2 0.09 0.08-0.587 dim 7-0.2 0.0-0.0-0.26 0.335 0.290 0.583 Taulukko 6: V d d 2 d 3 d d 5 d 6 d 7 dim -0.93-0.92-0.97-0.63-0.00-0.768-0.66 dim 2-0.07-0.38-0.238-0.773 0.97 0.60 0.76 Taulukko 7: Skaalattu B
d d 2 d 3 d d 5 d 6 d 7 d.000 d 2.000.000 d 3 0.98 0.988.000 d 0.89 0.882 0.800.000 d 5-0.008 0.08 0.7-0.55.000 d 6 0. 0.6 0.59-0.008 0.89.000 d 7 0.279 0.30 0.6-0.80 0.958 0.985.000 Taulukko 8: Korrelaatiot 5