JOHDATUS TEKOÄLYYN TEEMU ROOS

Samankaltaiset tiedostot
JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN LUENTO 4.

a. (2 p) Selitä Turingin koe. (Huom. ei Turingin kone.) Minkälainen tekoäly on saavutettu, kun Turingin koe ratkaistaan?

JOHDATUS TEKOÄLYYN TEEMU ROOS

Kokeessa piti vastata viiteen (5) tehtävään kuudesta (6). Jokaisen tehtävän maksimipistemäärä on 8.

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

JOHDATUS TEKOÄLYYN TEEMU ROOS

Johdatus tekoälyyn

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Johdatus tekoälyyn

Todennäköisyyden ominaisuuksia

JOHDATUS TEKOÄLYYN TEEMU ROOS

1. TILASTOLLINEN HAHMONTUNNISTUS

Tilastollinen päättely, 10 op, 4 ov

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

1 Bayesin teoreeman käyttö luokittelijana

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

X X. Johdatus tekoälyyn. v=1 X O. Kevät 2016 T. Roos. v=1 v= 1 8) 9) 10) X X O X O O. v=1 13) 14) X X X O O X O O X O. v=1 v=1 v= 1.

JOHDATUS TEKOÄLYYN TEEMU ROOS

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

1. Tilastollinen malli??

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

Mat Tilastollisen analyysin perusteet, kevät 2007

JOHDATUS TEKOÄLYYN TEEMU ROOS

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Festo Online Shop käyttöohje.

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Tilastotieteen aihehakemisto

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

4.0.2 Kuinka hyvä ennuste on?

Mallipohjainen klusterointi

RINNAKKAINEN OHJELMOINTI A,

MATEMATIIKAN KOE PITKÄ OPPIMÄÄRÄ

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

Tehtävä 1. Oletetaan että uv on neliö ja (u, v) = 1. Osoita, että kumpikin luvuista u ja v on. p 2j i. p j i

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Dynaamiset regressiomallit

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Laskennallinen data-analyysi II

Ennustaminen ARMA malleilla ja Kalmanin suodin

805306A Johdatus monimuuttujamenetelmiin, 5 op

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

IFAGG WORLD CUP I, CHALLENGE CUP I and GIRLS OPEN INTERNATIONAL COMPETITION 1 st 2 nd April 2011, Vantaa Finland

The Metropolis-Hastings Algorithm

JOHDATUS TEKOÄLYYN TEEMU ROOS

Johdatus tekoälyyn (T. Roos) Kurssikoe

Mat Sovellettu todennäköisyyslasku A

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Teknillinen tiedekunta, matematiikan jaos Numeeriset menetelmät

HARJOITUS- PAKETTI A

Johdatus tn-laskentaan perjantai

Väliestimointi (jatkoa) Heliövaara 1

Asuntomarkkinajäykkyydet ja asuntopolitiikan vaikutusten arviointi. Niku Määttänen, ETLA Asumisen tulevaisuus, päätösseminaari Messukeskus

ImageRecognition toteutus

30A02000 Tilastotieteen perusteet

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Otanta ilman takaisinpanoa

Laskuharjoitus 5. Mitkä ovat kuvan 1 kanavien kapasiteetit? Kuva 1: Kaksi kanavaa. p/(1 p) ) bittiä lähetystä kohti. Voidaan

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Taulukkolaskenta 1 (12 pistettä)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

8.1 Ehdolliset jakaumat

Yhteistyötä sisältämätön peliteoria jatkuu

Sovellettu todennäköisyyslaskenta B

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Järvitesti Ympäristöteknologia T571SA

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Otantajakauman käyttö päättelyssä

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

TILASTOLLINEN OPPIMINEN

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta:

031021P Tilastomatematiikka (5 op)

TOOLS. Tapani Matala-aho MATEMATIIKKA/LUTK/OULUN YLIOPISTO TOOLS 1 / 28

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Pohdiskeleva ajattelu ja tasapainotarkennukset

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

102 Käyrä. Piste ( 3,0 ) on käyrällä, jos ja vain jos sen koordinaatit. Siis piste ( 1, 2) Siis piste ( 3,0 ) ei ole käyrällä.


MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

812336A C++ -kielen perusteet,

Transkriptio:

JOHDATUS TEKOÄLYYN TEEMU ROOS

KUINKA RIKASTUA

NAIVI BAYES FROM: "MARGARETTA NITA" <MARGUERITESEBRINA@WMLE.COM> SUBJECT: SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! X-BOGOSITY: YES, TESTS=BOGOFILTER, SPAMICITY=0.99993752, VERSION=2011-08-29 DATE: MON, 26 SEP 2011 21:52:26 +0300 X-CLASSIFICATION: JUNK - AD HOC SPAM DETECTED (CODE = 73) SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! COMPARE THE BEST ONLINE PHARMACIES TO BUY VIAGRA. ORDER VIAGRA ONLINE WITH HUGE DISCOUNT. MULTIPLE BENEFITS INCLUDE FREE SHIPPING, REORDER DISCOUNTS, BONUS PILLS HTTP://RXPHARMACYCVS.RU

NAIVI BAYES FROM: "MARGARETTA NITA" <MARGUERITESEBRINA@WMLE.COM> SUBJECT: SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! X-BOGOSITY: YES, TESTS=BOGOFILTER, SPAMICITY=0.99993752, VERSION=2011-08-29 DATE: MON, 26 SEP 2011 21:52:26 +0300 X-CLASSIFICATION: JUNK - AD HOC SPAM DETECTED (CODE = 73) SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! COMPARE THE BEST ONLINE PHARMACIES TO BUY VIAGRA. ORDER VIAGRA ONLINE WITH HUGE DISCOUNT. MULTIPLE BENEFITS INCLUDE FREE SHIPPING, REORDER DISCOUNTS, BONUS PILLS HTTP://RXPHARMACYCVS.RU

NAIVI BAYES FROM: "MARGARETTA NITA" <MARGUERITESEBRINA@WMLE.COM> SUBJECT: SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! X-BOGOSITY: YES, TESTS=BOGOFILTER, SPAMICITY=0.99993752, VERSION=2011-08-29 DATE: MON, 26 SEP 2011 21:52:26 +0300 X-CLASSIFICATION: JUNK - AD HOC SPAM DETECTED (CODE = 73) SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! COMPARE THE BEST ONLINE PHARMACIES TO BUY VIAGRA. ORDER VIAGRA ONLINE WITH HUGE DISCOUNT. MULTIPLE BENEFITS INCLUDE FREE SHIPPING, REORDER DISCOUNTS, BONUS PILLS HTTP://RXPHARMACYCVS.RU

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 ROSKAPOSTISUODATIN: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1, LUOKITTELE VIESTI HAMIKSI

NAIVI BAYES SPAM/HAM SANA 1 P(SANA i =viagra ham) = 0.0001 P(SANA i =viagra spam) = 0.002 TN, ETTÄ YKSITTÄINEN SANA = viagra.

NAIVI BAYES SPAM/HAM SANA 1 P(SANA i = $ ham) = 0.0002 P(SANA i = $ spam) = 0.005

NAIVI BAYES SPAM/HAM EHDOLLINEN RIIPPUMATTOMUUS SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7

NAIVI BAYES MUUTTUJAT: 1. LUOKKA: spam/ham 2. SANA 1 3. SANA 2 4. JAKAUMAT: P(LUOKKA=spam) = 0.5 P(SANA i =viagra spam)=0.002 P(SANA i =viagra ham)=0.0001 P(SANA i =$ spam)=0.005 P(SANA i =$ ham)=0.0002 P(SANA i =is spam)=0.002 P(SANA i =is ham)=0.002 P(SANA i =algorithm spam)=0.0001 P(SANA i =algorithm ham)=0.002 JNE

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) BAYESIN KAAVA!

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) P(SANA 1 =viagra) = P(spam) P(SANA 1 =viagra spam) + P(ham) P(SANA 1 =viagra ham)

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) 3. P(spam SANA 1 =viagra, SANA 2 =is) P(spam) P(SANA 1 =viagra, SANA 2 =is spam) = -------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is) 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm)

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) 3. P(spam SANA 1 =viagra, SANA 2 =is) P(spam) P(SANA 1 =viagra, SANA 2 =is spam) = -------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is) KAKSI NIKSIÄ! 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) = P(spam, SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) + P(ham, SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(evidenssi) = P(spam, evidenssi) // MARGINALISOINTI + P(ham, evidenssi) P(spam)P(evidenssi spam) P(spam evidenssi) =---------------------------------------------------------- P(spam, evidenssi)+p(ham, evidenssi) P(ham)P(evidenssi ham) P(ham evidenssi) =---------------------------------------------------------- P(spam, evidenssi)+p(ham, evidenssi)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(evidenssi) P(S E) P(S)P(E S) = P(spam, evidenssi) // MARGINALISOINTI ------------- = -------------------- + P(ham, evidenssi) P( S E) P( S)P(E S) P(spam evidenssi) P(ham evidenssi) = P(spam)P(evidenssi spam) P(ham)P(evidenssi ham)

NAIVI BAYES #2 PÄÄTTELY: P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) = P(SANA 1 =viagra spam) // KETJUSÄÄNTÖ P(SANA 2 =is SANA 1 =viagra,spam) P(SANA 3 =algorithm SANA 1 =viagra,sana 2 =is,spam)

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) = P(SANA 1 =viagra spam) // KETJUSÄÄNTÖ P(SANA 2 =is SANA 1 =viagra,spam) P(SANA 3 =algorithm SANA 1 =viagra,sana 2 =is,spam) // RIIPPUMATTOMUUS

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) = P(SANA 1 =viagra spam) P(S E) // KETJUSÄÄNTÖ P(S)P(E S) P(SANA 2 =is spam) ------------- = -------------------- P(SANA 3 =algorithm spam) P( S E) P( S)P(E S) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm ham) = P(SANA 1 =viagra ham) // KETJUSÄÄNTÖ P(SANA 2 =is ham) P(SANA 3 =algorithm ham)

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) = P(SANA 1 =viagra spam) P(S E) // KETJUSÄÄNTÖ P(S)P(E S) P(SANA 2 =is spam) ------------- = -------------------- P(SANA 3 =algorithm spam) P( S E) P( S)P(E S) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm ham) = P(SANA 1 =viagra ham) // KETJUSÄÄNTÖ P(SANA 2 =is ham) P(SANA 3 =algorithm ham)

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(spam evidenssi)/p(ham evidenssi) = P(spam) / P(ham) P(SANA 1 =viagra spam) / P(SANA 1 =viagra ham) P(SANA 2 =is spam) / P(SANA 2 =is ham) P(SANA 3 =algorithm spam) / P(SANA 3 =algorithm ham) OSAMÄÄRÄ! > 1 => LUOKITTELE: SPAM < 1 => LUOKITTELE: HAM >1 =1 <1

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 YHTEENVETO TOISTAISEKSI: TARVITAAN: - PRIORIJAKAUMA P(spam) = 0. - LUOKKAEHDOLLISET JAKAUMAT P(SANA i =viagra spam)=0. P(SANA i =viagra ham)=0. P(SANA i =is spam) = 0. P(SANA i =is ham)=0. P(SANA i =algorithm spam) = 0. P(SANA i =algorithm ham)=0. OLETETAAN ETTÄ P(SANA i SANA j, spam) = P(SANA i spam) (EHDOLLINEN RIIPPUMATTOMUUS) OLENNAISTA ON OSAMÄÄRÄ (OTETAAN NÄIDEN TULO) P(SANA i =viagra spam) ------------------------------------------ P(SANA i =viagra ham)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) PÄÄTTELY: P(spam EVIDENSSI)/P(ham EVIDENSSI) = P(spam) / P(ham) P(SANA 1 =viagra spam) / P(SANA 1 =viagra ha P(SANA 2 =is spam) / P(SANA 2 =is ham) P(SANA 3 =algorithm spam) / P(SANA 3 =algorit

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) PÄÄTTELY: P(spam EVIDENSSI)/P(ham EVIDENSSI) = P(spam) / P(ham) P(SANA 1 =viagra spam) / P(SANA 1 =viagra ha P(SANA 2 =is spam) / P(SANA 2 =is ham) P(SANA 3 =algorithm spam) / P(SANA 3 =algorit

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1, LUOKITTELE VIESTI HAMIKSI JOS SPAMICITY(Viesti, P) =1, EN TIEDÄ

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1+α, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1-β, LUOKITTELE VIESTI HAMIKSI MUUTEN, EN TIEDÄ! Epäsymmetrinen kustannusfunktio: Asiallisen viestin luokittelu spamiksi pahempi virhe kuin toisin päin

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): LOG(A*B) = LOG(A) + LOG(B) logodds = log(p.spam / P.noSpam) for each Sana in Viesti logodds = logodds + log(p.sana_spam(sana) / P.Sana_noSpam(Sana)) return(exp(logodds)) KÄYTÄNNÖN ONGELMA: ALI- JA YLIVUODOT Odds ARVOSTA TULEE HELPOSTI LIIAN PIENI (LÄHELLÄ NOLLAA) TAI LIIAN SUURI. RATKAISU: KÄYTÄ log(odds)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PARAMETRIEN OPPIMISESTA: VAIKEA KEKSIÄ PÄÄSTÄ EHDOLLISIA TN:IÄ. HUONOT ARVOT HUONONTAVAT FILTTERIN TOIMINTAA PAREMPI RATKAISU: 1. KERÄÄ ISO KASA SPAM-VIESTEJÄ 2. KERÄÄ ISO KASA HAM-VIESTEJÄ 3. ARVIOI P(SANA i = SPAM) = 0. JA P(SANA i = HAM) = 0. LASKEMALLA DATASTA (VRT. LASKUHARJ.) VAROTTAVA NOLLATODENNÄKÖISYYKSIÄ! (JOS KASA EI TARPEEKSI ISO, JOTKUT SANAT EIVÄT VAIN SATU ESIINTYMÄÄN SIINÄ.)

ESIM.

ESIM. spam ham 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

ESIM. spam ham 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 % AKTIVATOR 4 & 5

ESIM. spam ham 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 P(SANA0.42 % i =MONEY SPAM) 0.0004 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 % -------------------------------------- = ------------ = 1.918 > 1 P(SANA i =MONEY SPAM) 0.0002 P(SANA i =IS SPAM) 0.0042 ------------------------------- = ------------ = 0.3622 < 1 P(SANA i =IS SPAM) 0.0116

ESIM. 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 spam P(SANA i = ALGORITHM SPAM) = 0? VOI JOHTAA TILANTEESEEN, JOSSA OSAMÄÄRÄ 0/0 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % ham 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

YHTEENVETO YHTEENVETO NAIVI BAYES-SPAMFILTTERISTÄ: TARVITAAN: - PRIORIJAKAUMA P(SPAM) = 0. - LUOKKAEHDOLLISET JAKAUMAT P(SANA i =VIAGRA SPAM)=0. P(SANA i =VIAGRA SPAM)=0. P(SANA i =IS SPAM) = 0. P(SANA i =IS SPAM)=0. P(SANA i =ALGORITHM SPAM) = 0. P(SANA i =ALG. SPAM)=0. HUOM! EI OLE KYSEESSÄ P( SANA VIAGRA ESIINTYY SPAM), JNE. (SEKIN OLISI MAHDOLLISTA, MUTTA VIESTIEN PITUUDET VAIKUTTAISIVAT TULOKSEEN.) OLETETAAN ETTÄ P(SANA i SANA j,spam) = P(SANA i SPAM) (EHDOLLINEN RIIPPUMATTOMUUS)

YHTEENVETO (JATKOA): OLENNAISTA ON OSAMÄÄRÄ (OTETAAN NÄIDEN TULO) P(SANA i =VIAGRA SPAM) ------------------------------------------ P(SANA i =VIAGRA SPAM) KUSTANNUSFUNKTIO EPÄSYMMETRINEN: PAREMPI SÄÄSTÄÄ MUUTAMA SPAM KUIN HUKATA OIKEA VIESTI (HAM) JAKAUMAT PARAS ESTIMOIDA DATASTA NOLLATODENNÄKÖISYYKSILLE TEHTÄVÄ JOTAIN