Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 Toennäköisyyeen perusuva rankkaus Tieonhakumeneelmä Toennäköisyyspohjainen rankkaus Dokumenien haussa ongelmana on löyää käyäjän kyselynä ilmaiseman ieoarpeen yyyäviä okumeneja Dokumeni ulisi järjesää sen peruseella, mien hyvin ne yyyävä ieoarpeen Hakuun liiyy erilaisia epävarmuusekijöiä Tieoarpeen ja kyselyn yhenmukaisuus Onko okumeni vasaus kyselyyn Toennäköisyyseoriassa käsiellään pääelyä epävarmoissa ilaneissa Toennäköisyyspohjaisissa malleissa (probabilisic moels haku perusuu siihen mien oennäköisä on, eä okumeni on relevani suheessa ieoarpeeseen. Toennäköisyyeen perusuva rankkaus Pikakerausa oennäköisyyksisä Vekorimallissa Dokumeni rankaaan sillä peruseella, mien samankalaisia kyselyvekori ja okumenin kuvausvekori ova Samankalaisuus ei välämää arkoia, eä okumeni vasaisi hyvin ieoarvea. Kaikkein samankalaisin voi olla hyvin ai ei lainkaan relevani. Toennäköisyysmalleissa perusa on ymmärreävämpi haeaan okumeni, joka oennäköisesi ova relevaneja (oennäköisyyen selviäminen on pääongelma A AB A B apahuman A oennäköisyys oennäköisyys sille, eä sekä A eä B apahuva ehollinen oennäköisyys, eli oennäköisyys sille, eä A apahuu kun B on apahunu AB = A B B =B A A A c = A : A c on A:n komplemeni 3 Pikakerausa oennäköisyyksisä Pikakerausa oennäköisyyksisä Osiussäänö: Jos jouko B i (i=..n muoosava B:n osiuksen, niin A= i A B i B i Bayesin säännön mukaan: Poseriori Priori Erikoisapaus äsä P(A= P(AB+P(AB c B A A A B [ B c x { A, A } B A ] A B x x Priori oennäköisyys A kuvaa ennakkokäsiysä oennäköisyyesä Poseriori oennäköisyys A B kuvaa millaisiksi ennakkokäsiyksiä oennäköisyyesä kannaaa muuaa sen jälkeen, kun saaaan ieää, eä apahuma A on saunu. 5 6 H.Laine
Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 Toennäköisyyspohjainen rankkaus Probabiliy Ranking Principle (PRP Lähökohana on joukko okumeneja ja kysely. Tuloksena palaueaan järjesey joukko okumeneja Relevanssimuuuja R,q (myöhemmin pelkäsään R: R,q =, jos okumeni on relevani kyselyn q kannala R,q = 0 muuen Toennäköisyyksiin perusuva rankkaus järjesää okumeni niien esimoiun relevanssioennäköisyyen R,q =, peruseella Oleeaan, eä okumenin relevanssi ei riipu muien okumenien relevanssisa Jos uloksena saaava okumeni järjeseään laskevaan järjesykseen relevanssioennäköisyyen peruseella järjeselmä uoaa parhaan mahollisen uloksen => Jos uloksena saaava okumeni järjeseään laskevaan järjesykseen käyeävissä olevan kuvailuieon peruseella esimoiun relevanssioennäköisyyen peruseella, niin järjeselmä uoaa parhaan uloksen miä kuvailuieojen avulla on saavueavissa 7 8 Binary Inepenence Moel (BIM Binary Inepenence Moel (BIM Binary Inepenence Moel on oennäköisyysrankkauksessa perineisesi käyey ekniikka Oleuksia: Dokumeni ja kysely esieään binäärisinä esiinymävekoreina: okumenia kuvaa vekori x=(x,x,,x M, missä x =, jos ermi esiinyy okumenissa ja x =0 muuoin Termien välillä ei ole riippuvuuksia Anony an Cleopara Julius Caesar The Tempes Hamle Ohello Macbeh 0 0 0 Anony Bruus 0 0 0 Caesar 0 Calpurnia 0 0 0 0 0 Cleopara 0 0 0 0 0 mercy 0 worser 0 0 esiinymävekori jos näyelmä sisälää ermin, muuen 0 9 0 Binary Inepenence Moel (BIM Relevanssioennäköisyys Tarviaan esimaai sille, mien okumenin ermi vaikuava relevanssiin Tilasoaineisoa (ermin esiinymisfrekvenssi, okumenifrekvenssi, okumenien piuus, jne, joka vaikuaa pääelyyn Tilasoaineison peruseella laskeaan esimaai oennäköisyyelle R=, (oennäköisyys sille, eä kyselyn q peruseella valiu okumeni on relevani Toennäköisyyä R, arkasellaan ermien esiinymävekoreien kaua eli R x, x R, R R x, x x R 0, R 0 R 0 x, x Toennäköisyysx R=, ilmaisee oennäköisyyen sille, eä jos on valiu relevani okumeni niin sen kuvausvekori on x H.Laine
Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 Relevanssioennäköisyys Relevanssioennäköisyys Toennäköisyye R= [n: valiaan relevani okumeni] ja R=0 ova priorioennäköisyyksiä (=ennakkokäsiyksiä. Jos ieeäisiin, eä kyselyyn q on k relevania okumenia, voiaisiin käyää oennäköisyyä R= =k/n (mua ää ei ieeä Dokumeni piäisi järjesää laskevaan järjesykseen oennäköisyyen R= x, peruseella Laskennan yksinkeraisamiseksi käyeään ämän ilalla osuma- ja huioennäköisyyen suhea (veonlyönikerroina, os R x, R x R, R 0 x, R 0 x R 0, 3 Kyselykohainen vakio, Ei vaikua järjesykseen Jäeään pois 4 Relevanssioennäköisyys Relevanssioennäköisyys Jos oleeaan, eä ermin esiinyminen okumenissa on riippumaon muien ermien esiinymisesä päee x R, x R 0, x R, M x R 0, Kun vielä eroellaan okumenissa esiinyvä ja esiinymäömä ermi saaaan R Merkiään: x R, x 0 R, : x x 0, : 0 ( 0 0, R q x p x R q p = x = R=, : n ermi esiinyy relevanissa okumenissa. u = x = R=0, : n ermi esiinyy epärelevanissa okumenissa 5 6 Relevanssioennäköisyys Relevanssioennäköisyys Jos oleeaan, eä kyselyssä esiinymäömä ermi ova yhä oennäköisiä sekä relevaneissa eä epärelevaneissa okumeneissa, riiää arkasella kyselyssä esiinyviä ermejä p p R u u : x : 0, q x q Siirämällä okumenissa esiinyvä ermi myös oikeanpuoleiseen lausekkeeseen saaaan R q Vain nämä oennäköisyye arviaan p ( u : x ( : q u p q p u Kyselykohaisesi vakio Ei riipu okumeneisa Voiaan ohiaa 7 8 H.Laine 3
Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 Relevanssioennäköisyys / Lopullinen mia Relevanssioennäköisyys / lopullinen mia Muunneaan mia logarimiseksi (summa helpompi kuin ulo ja saaaan mia RSV log RSV = RerievalSaus Value p ( u u ( p p ( u log u ( p : x q : x q On siis laskeava arvo c : p ( u p u c log log log u ( p ( p ( u c =0, jos ermillä on yhä suuri n esiinyä relevanissa ja epärelevanissa okumenissa c >0, jos ermillä on suurempi oennäköisyys esiinyä relevanissa okumenissa 9 p = n ermi esiinyy relevanissa okumenissa. u = n ermi esiinyy epärelevanissa okumenissa 0 Relevanssioennäköisyys / lopullinen mia Relevanssioennäköisyys / lopullinen mia Teoriassa oennäköisyye voiaisiin määrää esiinymien lukumäärien avulla: okumeni relevani epärelevani Yheensä Termi esiinyy x = s f -s f Termi ei esiinny x = S-s (N-f (S-s N-f Yheensä: S N-S N Taulukon peruseella: p = s/s u =(f -s/(n-s Tällöin saaaisiin s /( S s c K( N, f, S, s log ( f s /(( N f ( S s Nollalla jaon välämiseksi korjaaan kaavaa lisäämällä ½ eellisen aulukon keskimmäisen sarakkeien arvoihin, joen ( s /( S s c K( N, f, S, s log ( f s /( N f S s Relevanssioennäköisyys / lopullinen mia Relevanssioennäköisyys / lopullinen mia Käyännössä lukumääriä ei ieeä - ne äyyy arvioia. Jos oleeaan, eä relevaneja okumeneja on hyvin vähän suheessa kaikkiin okumeneihin on u f / N ja log[( u u ] log[( N f / f ] log N / f n ermi esiinyy epärelevanissa okumenissa If! Relevanien kohalla ilanne on hankalampi Toennäköisyys p voiaisiin laskea joienkin olemassa olevien relevanien okumenien peruseella (näyeesä Voiaan käyää myös vakioa 0.5, jolloin p ei vaikua lainkaan miaan. Yhiseynä epärelevaneille esieyyn arvioon if määräisi ällöin mian Toimii yyyäväsi lyhyillä okumeneilla, esim. osakkeilla, ei oimi hyvin pikillä ekseillä 3 4 H.Laine 4
Tieonhakumeneelmä Helsingin yliopiso / TKTL.4.04 BIM Toennäköisyysperusaise malli vanhimpia ieonhaun eoreeisia malleja Painojen laskena ehävissä kuen vekorimallissa, sama ieorakenee BIM:ssä ongelmallisia oleuksia: Binäärinen malli, frekvenssi eivä vaikua Termien riippumaomuus Kyselyyn kuulumaoma ermi eivä vaikua Dokumeni riippumaomasi relevaneja Jonkinlainen relevanssiieo on arpeen, joa meneelmä oimisi [bes mach] (oennäköisyyspohjainen ei binäärinen malli Oaa huomioon ermifrekvenssi Oaa huomioon okumenien piuue Laajali käyössä ja ehokas Toennäköisyyen esimoini poikkeaa eellisesä 5 6 Yksinkeraisin mia RSV Nollalla jako? q log N f Miaa voiaan kehiää oamalla mukaan ermien paino N k f RSV q f ( log k(( b b( L / Lave f Tässä: f on ermin frekvenssi okumenissa L on okumenin piuus ja L ave okumenien keskipiuus k ja b ova sääöarvoja. k sääää ermifrekvenssien vaikuusa (0 ei vaikuusa, suure arvo enemmän vaikuusa. b sääää okumenipiuuen huomioimisa painojen sääössä (0 ei vaikuusa.. äysi vaikuus 7 8 Myös kyselyermien paino voiaan oaa mukaan RSV Tässä log N f k ( k (( b b ( L / L q ave 3 f q on ermin frekvenssi kyselyssä q ja f k ( 3 f k 3 on ermien kyselyfrekvenssin painoa sääelevä ekijä f k f q q Korjausekijä k, k3 ja b ulisi sääää esiaineison avulla opimaalisen uloksen saavuamiseksi Jos esiaineisoa ei ole, on kokeellisesi hyväksi havaiu arvo k ja k 3 välillä, - ja b=0,75 BM5 on laajali käyössä ja oimii hyvin sääeyillä paramereilla 9 30 H.Laine 5