Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Todennäköisyyspohjainen rankkaus

Samankaltaiset tiedostot
2. Taloudessa käytettyjä yksinkertaisia ennustemalleja. ja tarkasteltavaa muuttujan arvoa hetkellä t kirjaimella y t

W dt dt t J.

XII RADIOAKTIIVISUUSMITTAUSTEN TILASTOMATEMATIIKKAA

PK-YRITYKSEN ARVONMÄÄRITYS. KTT, DI TOIVO KOSKI elearning Community Ltd

VÄRÄHTELYMEKANIIKKA SESSIO 18: Yhden vapausasteen pakkovärähtely, transienttikuormituksia

x v1 y v2, missä x ja y ovat kokonaislukuja.

DEE Lineaariset järjestelmät Harjoitus 4, ratkaisuehdotukset

12. ARKISIA SOVELLUKSIA

Epävarmuus diskonttokoroissa ja mittakaavaetu vs. joustavuus

Rahoitusriskit ja johdannaiset Matti Estola. luento 12 Stokastisista prosesseista

Rakennusosien rakennusfysikaalinen toiminta Ralf Lindberg Professori, Tampereen teknillinen yliopisto

MAT Fourier n menetelmät. Merja Laaksonen, TTY 2014

1 Excel-sovelluksen ohje

Kuntaeläkkeiden rahoitus ja kunnalliset palvelut

Rahoitusriskit ja johdannaiset Matti Estola. luento 13 Black-Scholes malli optioiden hinnoille

Dynaaminen optimointi ja ehdollisten vaateiden menetelmä

5. Vakiokertoiminen lineaarinen normaaliryhmä

Lyhyiden ja pitkien korkojen tilastollinen vaihtelu

KYNNYSILMIÖ JA SILTÄ VÄLTTYMINEN KYNNYKSEN SIIRTOA (LAAJENNUSTA) HYVÄKSI KÄYTTÄEN

Sopimuksenteon dynamiikka: johdanto ja haitallinen valikoituminen

Tilausohjatun tuotannon karkeasuunnittelu. Tilausohjatun tuotannon karkeasuunnittelu

( ) ( ) 2. Esitä oheisen RC-ylipäästösuotimesta, RC-alipäästösuotimesta ja erotuspiiristä koostuvan lineaarisen järjestelmän:

Mittaustekniikan perusteet, piirianalyysin kertausta

a) Esitä piirtämällä oheisen kaksoissymmetrisen ulokepalkkina toimivan kotelopalkin kaksi täysin erityyppistä plastista rajatilamekanismia (2p).

KÄYTTÖOPAS. Ilma vesilämpöpumppujärjestelmän sisäyksikkö ja lisävarusteet RECAIR OY EKHBRD011ADV1 EKHBRD014ADV1 EKHBRD016ADV1

b) Esitä kilpaileva myötöviivamekanismi a-kohdassa esittämällesi mekanismille ja vertaile näillä mekanismeilla määritettyjä kuormitettavuuksia (2p)

Diskreetillä puolella impulssi oli yksinkertainen lukujono:

ETERAN TyEL:n MUKAISEN VAKUUTUKSEN ERITYISPERUSTEET

Huomaa, että aika tulee ilmoittaa SI-yksikössä, eli sekunteina (1 h = 3600 s).

( ) 5 t. ( ) 20 dt ( ) ( ) ( ) ( + ) ( ) ( ) ( + ) / ( ) du ( t ) dt

Ilmavirransäädin. Mitat

Ratkaisu. Virittäviä puita on kahdeksan erilaista, kun solmut pidetään nimettyinä. Esitetään aluksi verkko kaaviona:

KÄYTTÖOPAS. -järjestelmän sisäyksikkö HXHD125A8V1B

TKK Tietoliikennelaboratorio Seppo Saastamoinen Sivu 1/5 Konvoluution laskeminen vaihe vaiheelta

JLP:n käyttämättömät mahdollisuudet. Juha Lappi

KOMISSION VALMISTELUASIAKIRJA

Öljyn hinnan ja Yhdysvaltojen dollarin riippuvuussuhde

Systeemimallit: sisältö

f x dx y dy t dt f x y t dx dy dt O , (4b) . (4c) f f x = ja x (4d)

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

Mallivastaukset KA5-kurssin laskareihin, kevät 2009

Konvoluution laskeminen vaihe vaiheelta Sivu 1/5

OSINKOJEN JA PÄÄOMAVOITTOJEN VEROTUKSEN VAIKUTUKSET OSAKKEEN ARVOON

6.4 Variaatiolaskennan oletusten rajoitukset. 6.5 Eulerin yhtälön ratkaisuiden erikoistapauksia

2. Suoraviivainen liike

Lineaaristen järjestelmien teoriaa

KULMAMODULOITUJEN SIGNAALIEN ILMAISU DISKRIMINAATTORILLA

S Signaalit ja järjestelmät Tentti

( ) ( ) x t. 2. Esitä kuvassa annetun signaalin x(t) yhtälö aikaalueessa. Laske signaalin Fourier-muunnos ja hahmottele amplitudispektri.

VATT-KESKUSTELUALOITTEITA VATT DISCUSSION PAPERS. JULKISEN TALOUDEN PITKÄN AIKAVÄLIN LASKENTAMALLIT Katsaus kirjallisuuteen

Mittaus- ja säätölaitteet IRIS, IRIS-S ja IRIS-M

JYVÄSKYLÄN YLIOPISTO Taloustieteiden tiedekunta TARJONTA SUOMEN ASUNTOMARKKINOILLA

Silloin voidaan suoraan kirjoittaa spektrin yhtälö käyttämällä hyväksi suorakulmaisen pulssin Fouriermuunnosta sekä viiveen vaikutusta: ( ) (

A-osio. Ei laskinta! Valitse seuraavista kolmesta tehtävästä vain kaksi joihin vastaat!

Notor Upotettava. 6

Painevalukappaleen valettavuus

KOMISSION KERTOMUS. Suomi. Perussopimuksen 126 artiklan 3 kohdan nojalla laadittu kertomus

Puolijohdekomponenttien perusteet A Ratkaisut 2, Kevät 2017

Suunnitteluharjoitus s-2016 (...k-2017)

OPINTOJAKSO FYSIIKKA 1 OV OPINTOKOKONAISUUTEEN FYSIIKKA JA KEMIA 2 OV. Isto Jokinen Mekaniikka 2

BETONI-TERÄS LIITTORAKENTEIDEN SUUNNITTELU EUROKOODIEN MUKAAN (TTY 2009) Betonipäivät 2010

joka on separoituva yhtälö, jolla ei ole reaalisia triviaaliratkaisuja. Ratkaistaan: z z(x) dx =

Termiinikurssi tulevan spot-kurssin ennusteena

TALOUSTIETEIDEN TIEDEKUNTA. Lauri Tenhunen KAIKKIALLA LÄSNÄ OLEVAN TIETOTEKNIIKAN TALOUSTIETEELLISTÄ ANALYYSIÄ

a. Varsinainen prosessi on tuttua tilaesitysmuotoa:

Asuntojen huomiointi varallisuusportfolion valinnassa ja hinnoittelussa

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Suomen kalamarkkinoiden analyysi yhteisintegraatiomenetelmällä

338 LASKELMIA YRITYS- JA PÄÄOMAVERO- UUDISTUKSESTA

Tehtävä I. Vaihtoehtotehtävät.

OH CHOOH (2) 5. H2O. OH säiliö. reaktori 2 erotus HCOOCH 3 11.

Muuttuvan kokonaissensitiivisyyden mallinnus valvontaohjelman riskinarvioinnissa esimerkkinä munintaparvet

F E . 1. a!? # % b $ c + ± = e < > [ \ ] ^ g λ Ø ø φ " 1 / 2 h Á á É. j À à È è Ì ì Ò k ò ù Ä ä Ë ë Ï. o à ã Ñ ñ Õ õ F` = 6mm = 9/12mm = 19mm

9. Epäoleelliset integraalit; integraalin derivointi parametrin suhteen. (x + y)e x y dxdy. e (ax+by)2 da. xy 2 r 4 da; r = x 2 + y 2. b) A.

Piennopeuslaite FMP. Lapinleimu

Luento 7 Järjestelmien ylläpito

Euroopan kehittyvien osakemarkkinoiden yhteisintegraatio

2. Matemaattinen malli ja funktio 179. a) f (-2) = -2 (-2) = = -6 b) f (-2) = 2 (-2) 2 - (-2) = (-8) + 7 = = 23

Juuri 13 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Kertaus. K1. A: III, B: I, C: II ja IV.

Finavian ympäristötyö 2006: Vesipäästöjen hallintaa ja tehokkaita prosesseja

Sijoitusriskien ja rahoitustekniikan vaikutus TyEL-maksun kehitykseen

Working Paper Yrittäjyyden ja yritysten verokannustimet. ETLA Discussion Papers, The Research Institute of the Finnish Economy (ETLA), No.

AKUSTISTEN ANALOGIOIDEN PERUSTEET 1 JOHDANTO 2 TIHEYSPOHJAISET ANALOGIAT. Seppo Uosukainen. VTT PL 1000, VTT

b) Ei ole. Todistus samaan tyyliin kuin edellinen. Olkoon C > 0 ja valitaan x = 2C sekä y = 0. Tällöin pätee f(x) f(y)

12. Luento. Modulaatio

Mallivastaukset KA5-kurssin laskareihin, kevät 2009

Seinämien risteyskohdat

9. Parametriset mallit, estimointi

Sähköstatiikka ja magnetismi Kondensaattorit ja kapasitanssi

1. Todista/Prove (b) Lause 2.4. käyttäen Lausetta 2.3./by using Theorem b 1 ; 1 b + 1 ; 1 b 1 1

Tuotannon suhdannekuvaajan menetelmäkuvaus

Finanssipolitiikan tehokkuudesta Yleisen tasapainon tarkasteluja Aino-mallilla

DEE Lineaariset järjestelmät Harjoitus 3, harjoitustenpitäjille tarkoitetut ratkaisuehdotukset

Tietoliikennesignaalit

Robusti tilastollinen päättely ensimmäisen ja toisen ehdollisen momentin mallintamisessa

Käyttövarmuuden ja kunnossapidon perusteet, KSU-4310: Tentti ma

BINÄÄRINEN SYNKRONINEN TIEDONSIIRTO KAISTARAJOITTAMATTOMILLA MIELIVALTAISILLA PULSSIMUODOILLA SOVITETTU SUODATIN JA SEN SUORITUSKYKY AWGN-KANAVASSA

Kuukausi- ja kuunvaihdeanomalia Suomen osakemarkkinoilla vuosina

1. Matemaattinen heiluri, harmoninen värähtelijä Fysiikka IIZF2020

YKSISIVUKAISTAMODULAATIO (SSB)

Transkriptio:

Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 Toennäköisyyeen perusuva rankkaus Tieonhakumeneelmä Toennäköisyyspohjainen rankkaus Dokumenien haussa ongelmana on löyää käyäjän kyselynä ilmaiseman ieoarpeen yyyäviä okumeneja Dokumeni ulisi järjesää sen peruseella, mien hyvin ne yyyävä ieoarpeen Hakuun liiyy erilaisia epävarmuusekijöiä Tieoarpeen ja kyselyn yhenmukaisuus Onko okumeni vasaus kyselyyn Toennäköisyyseoriassa käsiellään pääelyä epävarmoissa ilaneissa Toennäköisyyspohjaisissa malleissa (probabilisic moels haku perusuu siihen mien oennäköisä on, eä okumeni on relevani suheessa ieoarpeeseen. Toennäköisyyeen perusuva rankkaus Pikakerausa oennäköisyyksisä Vekorimallissa Dokumeni rankaaan sillä peruseella, mien samankalaisia kyselyvekori ja okumenin kuvausvekori ova Samankalaisuus ei välämää arkoia, eä okumeni vasaisi hyvin ieoarvea. Kaikkein samankalaisin voi olla hyvin ai ei lainkaan relevani. Toennäköisyysmalleissa perusa on ymmärreävämpi haeaan okumeni, joka oennäköisesi ova relevaneja (oennäköisyyen selviäminen on pääongelma A AB A B apahuman A oennäköisyys oennäköisyys sille, eä sekä A eä B apahuva ehollinen oennäköisyys, eli oennäköisyys sille, eä A apahuu kun B on apahunu AB = A B B =B A A A c = A : A c on A:n komplemeni 3 Pikakerausa oennäköisyyksisä Pikakerausa oennäköisyyksisä Osiussäänö: Jos jouko B i (i=..n muoosava B:n osiuksen, niin A= i A B i B i Bayesin säännön mukaan: Poseriori Priori Erikoisapaus äsä P(A= P(AB+P(AB c B A A A B [ B c x { A, A } B A ] A B x x Priori oennäköisyys A kuvaa ennakkokäsiysä oennäköisyyesä Poseriori oennäköisyys A B kuvaa millaisiksi ennakkokäsiyksiä oennäköisyyesä kannaaa muuaa sen jälkeen, kun saaaan ieää, eä apahuma A on saunu. 5 6 H.Laine

Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 Toennäköisyyspohjainen rankkaus Probabiliy Ranking Principle (PRP Lähökohana on joukko okumeneja ja kysely. Tuloksena palaueaan järjesey joukko okumeneja Relevanssimuuuja R,q (myöhemmin pelkäsään R: R,q =, jos okumeni on relevani kyselyn q kannala R,q = 0 muuen Toennäköisyyksiin perusuva rankkaus järjesää okumeni niien esimoiun relevanssioennäköisyyen R,q =, peruseella Oleeaan, eä okumenin relevanssi ei riipu muien okumenien relevanssisa Jos uloksena saaava okumeni järjeseään laskevaan järjesykseen relevanssioennäköisyyen peruseella järjeselmä uoaa parhaan mahollisen uloksen => Jos uloksena saaava okumeni järjeseään laskevaan järjesykseen käyeävissä olevan kuvailuieon peruseella esimoiun relevanssioennäköisyyen peruseella, niin järjeselmä uoaa parhaan uloksen miä kuvailuieojen avulla on saavueavissa 7 8 Binary Inepenence Moel (BIM Binary Inepenence Moel (BIM Binary Inepenence Moel on oennäköisyysrankkauksessa perineisesi käyey ekniikka Oleuksia: Dokumeni ja kysely esieään binäärisinä esiinymävekoreina: okumenia kuvaa vekori x=(x,x,,x M, missä x =, jos ermi esiinyy okumenissa ja x =0 muuoin Termien välillä ei ole riippuvuuksia Anony an Cleopara Julius Caesar The Tempes Hamle Ohello Macbeh 0 0 0 Anony Bruus 0 0 0 Caesar 0 Calpurnia 0 0 0 0 0 Cleopara 0 0 0 0 0 mercy 0 worser 0 0 esiinymävekori jos näyelmä sisälää ermin, muuen 0 9 0 Binary Inepenence Moel (BIM Relevanssioennäköisyys Tarviaan esimaai sille, mien okumenin ermi vaikuava relevanssiin Tilasoaineisoa (ermin esiinymisfrekvenssi, okumenifrekvenssi, okumenien piuus, jne, joka vaikuaa pääelyyn Tilasoaineison peruseella laskeaan esimaai oennäköisyyelle R=, (oennäköisyys sille, eä kyselyn q peruseella valiu okumeni on relevani Toennäköisyyä R, arkasellaan ermien esiinymävekoreien kaua eli R x, x R, R R x, x x R 0, R 0 R 0 x, x Toennäköisyysx R=, ilmaisee oennäköisyyen sille, eä jos on valiu relevani okumeni niin sen kuvausvekori on x H.Laine

Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 Relevanssioennäköisyys Relevanssioennäköisyys Toennäköisyye R= [n: valiaan relevani okumeni] ja R=0 ova priorioennäköisyyksiä (=ennakkokäsiyksiä. Jos ieeäisiin, eä kyselyyn q on k relevania okumenia, voiaisiin käyää oennäköisyyä R= =k/n (mua ää ei ieeä Dokumeni piäisi järjesää laskevaan järjesykseen oennäköisyyen R= x, peruseella Laskennan yksinkeraisamiseksi käyeään ämän ilalla osuma- ja huioennäköisyyen suhea (veonlyönikerroina, os R x, R x R, R 0 x, R 0 x R 0, 3 Kyselykohainen vakio, Ei vaikua järjesykseen Jäeään pois 4 Relevanssioennäköisyys Relevanssioennäköisyys Jos oleeaan, eä ermin esiinyminen okumenissa on riippumaon muien ermien esiinymisesä päee x R, x R 0, x R, M x R 0, Kun vielä eroellaan okumenissa esiinyvä ja esiinymäömä ermi saaaan R Merkiään: x R, x 0 R, : x x 0, : 0 ( 0 0, R q x p x R q p = x = R=, : n ermi esiinyy relevanissa okumenissa. u = x = R=0, : n ermi esiinyy epärelevanissa okumenissa 5 6 Relevanssioennäköisyys Relevanssioennäköisyys Jos oleeaan, eä kyselyssä esiinymäömä ermi ova yhä oennäköisiä sekä relevaneissa eä epärelevaneissa okumeneissa, riiää arkasella kyselyssä esiinyviä ermejä p p R u u : x : 0, q x q Siirämällä okumenissa esiinyvä ermi myös oikeanpuoleiseen lausekkeeseen saaaan R q Vain nämä oennäköisyye arviaan p ( u : x ( : q u p q p u Kyselykohaisesi vakio Ei riipu okumeneisa Voiaan ohiaa 7 8 H.Laine 3

Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 Relevanssioennäköisyys / Lopullinen mia Relevanssioennäköisyys / lopullinen mia Muunneaan mia logarimiseksi (summa helpompi kuin ulo ja saaaan mia RSV log RSV = RerievalSaus Value p ( u u ( p p ( u log u ( p : x q : x q On siis laskeava arvo c : p ( u p u c log log log u ( p ( p ( u c =0, jos ermillä on yhä suuri n esiinyä relevanissa ja epärelevanissa okumenissa c >0, jos ermillä on suurempi oennäköisyys esiinyä relevanissa okumenissa 9 p = n ermi esiinyy relevanissa okumenissa. u = n ermi esiinyy epärelevanissa okumenissa 0 Relevanssioennäköisyys / lopullinen mia Relevanssioennäköisyys / lopullinen mia Teoriassa oennäköisyye voiaisiin määrää esiinymien lukumäärien avulla: okumeni relevani epärelevani Yheensä Termi esiinyy x = s f -s f Termi ei esiinny x = S-s (N-f (S-s N-f Yheensä: S N-S N Taulukon peruseella: p = s/s u =(f -s/(n-s Tällöin saaaisiin s /( S s c K( N, f, S, s log ( f s /(( N f ( S s Nollalla jaon välämiseksi korjaaan kaavaa lisäämällä ½ eellisen aulukon keskimmäisen sarakkeien arvoihin, joen ( s /( S s c K( N, f, S, s log ( f s /( N f S s Relevanssioennäköisyys / lopullinen mia Relevanssioennäköisyys / lopullinen mia Käyännössä lukumääriä ei ieeä - ne äyyy arvioia. Jos oleeaan, eä relevaneja okumeneja on hyvin vähän suheessa kaikkiin okumeneihin on u f / N ja log[( u u ] log[( N f / f ] log N / f n ermi esiinyy epärelevanissa okumenissa If! Relevanien kohalla ilanne on hankalampi Toennäköisyys p voiaisiin laskea joienkin olemassa olevien relevanien okumenien peruseella (näyeesä Voiaan käyää myös vakioa 0.5, jolloin p ei vaikua lainkaan miaan. Yhiseynä epärelevaneille esieyyn arvioon if määräisi ällöin mian Toimii yyyäväsi lyhyillä okumeneilla, esim. osakkeilla, ei oimi hyvin pikillä ekseillä 3 4 H.Laine 4

Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 BIM Toennäköisyysperusaise malli vanhimpia ieonhaun eoreeisia malleja Painojen laskena ehävissä kuen vekorimallissa, sama ieorakenee BIM:ssä ongelmallisia oleuksia: Binäärinen malli, frekvenssi eivä vaikua Termien riippumaomuus Kyselyyn kuulumaoma ermi eivä vaikua Dokumeni riippumaomasi relevaneja Jonkinlainen relevanssiieo on arpeen, joa meneelmä oimisi [bes mach] (oennäköisyyspohjainen ei binäärinen malli Oaa huomioon ermifrekvenssi Oaa huomioon okumenien piuue Laajali käyössä ja ehokas Toennäköisyyen esimoini poikkeaa eellisesä 5 6 Yksinkeraisin mia RSV Nollalla jako? q log N f Miaa voiaan kehiää oamalla mukaan ermien paino N k f RSV q f ( log k(( b b( L / Lave f Tässä: f on ermin frekvenssi okumenissa L on okumenin piuus ja L ave okumenien keskipiuus k ja b ova sääöarvoja. k sääää ermifrekvenssien vaikuusa (0 ei vaikuusa, suure arvo enemmän vaikuusa. b sääää okumenipiuuen huomioimisa painojen sääössä (0 ei vaikuusa.. äysi vaikuus 7 8 Myös kyselyermien paino voiaan oaa mukaan RSV Tässä log N f k ( k (( b b ( L / L q ave 3 f q on ermin frekvenssi kyselyssä q ja f k ( 3 f k 3 on ermien kyselyfrekvenssin painoa sääelevä ekijä f k f q q Korjausekijä k, k3 ja b ulisi sääää esiaineison avulla opimaalisen uloksen saavuamiseksi Jos esiaineisoa ei ole, on kokeellisesi hyväksi havaiu arvo k ja k 3 välillä, - ja b=0,75 BM5 on laajali käyössä ja oimii hyvin sääeyillä paramereilla 9 30 H.Laine 5