JOHDATUS TEKOÄLYYN TEEMU ROOS

Samankaltaiset tiedostot
JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN LUENTO 4.

a. (2 p) Selitä Turingin koe. (Huom. ei Turingin kone.) Minkälainen tekoäly on saavutettu, kun Turingin koe ratkaistaan?

JOHDATUS TEKOÄLYYN TEEMU ROOS

Kokeessa piti vastata viiteen (5) tehtävään kuudesta (6). Jokaisen tehtävän maksimipistemäärä on 8.

JOHDATUS TEKOÄLYYN TEEMU ROOS

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Johdatus tekoälyyn (T. Roos) Kurssikoe

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

Johdatus tekoälyyn

1 Bayesin teoreeman käyttö luokittelijana

Johdatus tekoälyyn

JOHDATUS TEKOÄLYYN TEEMU ROOS

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

1. TILASTOLLINEN HAHMONTUNNISTUS

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

30A02000 Tilastotieteen perusteet

Otanta ilman takaisinpanoa

Todennäköisyyden ominaisuuksia

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

JOHDATUS TEKOÄLYYN TEEMU ROOS

Mat Sovellettu todennäköisyyslasku A

JOHDATUS TEKOÄLYYN TEEMU ROOS

Muuttujien riippumattomuus

Johdatus tn-laskentaan perjantai

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Tilastollinen päättely, 10 op, 4 ov

031021P Tilastomatematiikka (5 op)

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

JOHDATUS TEKOÄLYYN TEEMU ROOS

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

X X. Johdatus tekoälyyn. v=1 X O. Kevät 2016 T. Roos. v=1 v= 1 8) 9) 10) X X O X O O. v=1 13) 14) X X X O O X O O X O. v=1 v=1 v= 1.

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

JOHDATUS TEKOÄLYYN TEEMU ROOS

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Matkalla todennäköisyyteen

RINNAKKAINEN OHJELMOINTI A,

Luento 6 Yhteisvikojen analyysi PSA:n sovelluksia

MTTTP5, luento Luottamusväli, määritelmä

JOHDATUS TEKOÄLYYN TEEMU ROOS

Mallintamisesta. Mallintamisesta

Tilastotieteen aihehakemisto

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

1. Tilastollinen malli??

Festo Online Shop käyttöohje.

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Mallipohjainen klusterointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

IFAGG WORLD CUP I, CHALLENGE CUP I and GIRLS OPEN INTERNATIONAL COMPETITION 1 st 2 nd April 2011, Vantaa Finland

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

Asuntomarkkinajäykkyydet ja asuntopolitiikan vaikutusten arviointi. Niku Määttänen, ETLA Asumisen tulevaisuus, päätösseminaari Messukeskus

Yhteistyötä sisältämätön peliteoria jatkuu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Järvitesti Ympäristöteknologia T571SA

Taulukkolaskenta 1 (12 pistettä)

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta:

Ilkka Mellin (2008) 1/5

4.0.2 Kuinka hyvä ennuste on?

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Testejä suhdeasteikollisille muuttujille

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

voidaan hylätä, pienempi vai suurempi kuin 1 %?

JOHDATUS TEKOÄLYYN TEEMU ROOS

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Johdatus tekoälyyn

Johdatus lukuteoriaan Harjoitus 11 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

The Metropolis-Hastings Algorithm

T Luonnollisten kielten tilastollinen käsittely

Tutkimustiedonhallinnan peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Luento 9. June 2, Luento 9

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

2 Konekieli, aliohjelmat, keskeytykset

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

812336A C++ -kielen perusteet,

Matematiikan tukikurssi

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Transkriptio:

JOHDATUS TEKOÄLYYN TEEMU ROOS

NAIVI BAYES SPAM/HAM SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7

NAIVI BAYES SPAM/HAM SANA 1 P(SANA i =VIAGRA HAM) = 0.0001 P(SANA i =VIAGRA SPAM) = 0.002 TN, ETTÄ YKSITTÄINEN SANA = VIAGRA.

NAIVI BAYES SPAM/HAM SANA 1 P(SANA i = $ HAM) = 0.0002 P(SANA i = $ SPAM) = 0.005

NAIVI BAYES FROM: "MARGARETTA NITA" <MARGUERITESEBRINA@WMLE.COM> SUBJECT: SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! X-BOGOSITY: YES, TESTS=BOGOFILTER, SPAMICITY=0.99993752, VERSION=2011-08-29 DATE: MON, 26 SEP 2011 21:52:26 +0300 X-CLASSIFICATION: JUNK - AD HOC SPAM DETECTED (CODE = 73) SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! COMPARE THE BEST ONLINE PHARMACIES TO BUY VIAGRA. ORDER VIAGRA ONLINE WITH HUGE DISCOUNT. MULTIPLE BENEFITS INCLUDE FREE SHIPPING, REORDER DISCOUNTS, BONUS PILLS HTTP://RXPHARMACYCVS.RU

JOHDATUS TOD.NÄK.LASKENTAAN 1. P(A,B,C) = P(A) P(B A) P(C A,B) // KETJUSÄÄNTÖ 2. P(A) = P(A,B) + P(A, B) // MARGINALISOINTI 3. P(A B) = P(A,B) / P(B) // EHDOLLINEN TN. P(A) P(B A) = P(B) P(A B)??? (KS. SÄÄNTÖ 1) 4. P(B A) = P(B) P(A B) / P(A) // BAYESIN KAAVA 5. A! B " P(A B) = P(A) // RIIPPUMATTOMUUS

NAIVI BAYES PÄÄTTELY: 1. P(SPAM) = 0.5 P(SPAM) P(SANA 1 =VIAGRA SPAM) 2. P(SPAM SANA 1 =VIAGRA) =-------------------------------------------------- P(SANA 1 =VIAGRA) BAYESIN KAAVA!

NAIVI BAYES PÄÄTTELY: 1. P(SPAM) = 0.5 P(SPAM) P(SANA 1 =VIAGRA SPAM) 2. P(SPAM SANA 1 =VIAGRA) =-------------------------------------------------- P(SANA 1 =VIAGRA) 3. P(SPAM SANA 1 =VIAGRA, SANA 2 =IS) P(SPAM) P(SANA 1 =VIAGRA, SANA 2 =IS SPAM) = -------------------------------------------------------------------- P(SANA 1 =VIAGRA, SANA 2 =IS) 4. P(SPAM SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(SPAM) P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) =-------------------------------------------------------------------------------------------- P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM)

NAIVI BAYES PÄÄTTELY: 1. P(SPAM) = 0.5 P(SPAM) P(SANA 1 =VIAGRA SPAM) 2. P(SPAM SANA 1 =VIAGRA) =-------------------------------------------------- P(SANA 1 =VIAGRA) 3. P(SPAM SANA 1 =VIAGRA, SANA 2 =IS) PARI TÄRKEÄÄ P(SPAM) P(SANA 1 =VIAGRA, SANA 2 =IS SPAM) = -------------------------------------------------------------------- JUTTUA TÄSTÄ P(SANA 1 =VIAGRA, SANA 2 =IS) 4. P(SPAM SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(SPAM) P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) =-------------------------------------------------------------------------------------------- P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM)

NAIVI BAYES #1 PÄÄTTELY: 4. P(SPAM SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(SPAM) P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) =-------------------------------------------------------------------------------------------- P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) = P(SPAM, SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) + P( SPAM, SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM)

NAIVI BAYES #1 PÄÄTTELY: 4. P(SPAM SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(SPAM) P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) =-------------------------------------------------------------------------------------------- P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(EVIDENSSI) = P(SPAM, EVIDENSSI) // MARGINALISOINTI + P( SPAM, EVIDENSSI) P(SPAM)P(EVIDENSSI SPAM) P(SPAM EVIDENSSI) =---------------------------------------------------------- P(SPAM,EVIDENSSI)+P( SPAM, EVIDENSSI)

NAIVI BAYES #1 PÄÄTTELY: 4. P(SPAM SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(SPAM) P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) =-------------------------------------------------------------------------------------------- P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(EVIDENSSI) = P(SPAM, EVIDENSSI) + P( SPAM, EVIDENSSI) P(SPAM)P(EVIDENSSI SPAM) P(SPAM EVIDENSSI) =---------------------------------------------------------- P(SPAM,EVIDENSSI)+P( SPAM, EVIDENSSI) P( SPAM)P(EVIDENSSI SPAM) P( SPAM EVIDENSSI) =---------------------------------------------------------- P(SPAM,EVIDENSSI)+P( SPAM, EVIDENSSI)

NAIVI BAYES #1 PÄÄTTELY: 4. P(SPAM SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(SPAM) P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) =-------------------------------------------------------------------------------------------- P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM) P(EVIDENSSI) = P(SPAM, EVIDENSSI) + P( SPAM, EVIDENSSI) P(SPAM EVIDENSSI) P(S E) P(S)P(E S) ------------- = -------------------- P( S E) P( S)P(E S) P(SPAM)P(EVIDENSSI SPAM) = P( SPAM EVIDENSSI) P( SPAM)P(EVIDENSSI SPAM)

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) = P(SANA 1 =VIAGRA SPAM) // KETJUSÄÄNTÖ P(SANA 2 =IS SANA 1 =VIAGRA,SPAM) P(SANA 3 =ALGORITHM SANA 1 =VIAGRA,SANA 2 =IS,SPAM) // RIIPPUMATTOMUUS

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) = P(SANA 1 =VIAGRA SPAM) P(S E) // KETJUSÄÄNTÖ P(S)P(E S) P(SANA 2 =IS SPAM) ------------- = -------------------- P(SANA 3 =ALGORITHM SPAM) P( S E) P( S)P(E S) P(SANA 1 =VIAGRA, SANA 2 =IS, SANA 3 =ALGORITHM SPAM) = P(SANA 1 =VIAGRA SPAM) // KETJUSÄÄNTÖ P(SANA 2 =IS SPAM) P(SANA 3 =ALGORITHM SPAM)

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SPAM EVIDENSSI)/P( SPAM EVIDENSSI) = P(SPAM) / P( SPAM) P(SANA 1 =VIAGRA SPAM) / P(SANA 1 =VIAGRA SPAM) >1 P(SANA 2 =IS SPAM) / P(SANA 2 =IS SPAM) =1 P(SANA 3 =ALGORITHM SPAM) / P(SANA 3 =ALGORITHM SPAM) <1 OSAMÄÄRÄ MÄÄRÄÄ! > 1 => SPAM < 1 => HAM

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 YHTEENVETO TOISTAISEKSI: TARVITAAN: - PRIORIJAKAUMA P(SPAM) = 0. - LUOKKAEHDOLLISET JAKAUMAT P(SANA i =VIAGRA SPAM)=0. P(SANA i =VIAGRA SPAM)=0. P(SANA i =IS SPAM) = 0. P(SANA i =IS SPAM)=0. P(SANA i =ALGORITHM SPAM) = 0. P(SANA i =ALG. SPAM)=0. OLETETAAN ETTÄ P(SANA i SANA j,spam) = P(SANA i SPAM) (EHDOLLINEN RIIPPUMATTOMUUS) OLENNAISTA ON OSAMÄÄRÄ (OTETAAN NÄIDEN TULO) P(SANA i =VIAGRA SPAM) ------------------------------------------ P(SANA i =VIAGRA SPAM)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam // P.Spam + P.noSpam = 1 for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) PÄÄTTELY: P(SPAM EVIDENSSI)/P( SPAM EVIDENSSI) = P(SPAM) / P( SPAM) P(SANA 1 =VIAGRA SPAM) / P(SANA 1 =VIAGRA P(SANA 2 =IS SPAM) / P(SANA 2 =IS SPAM) P(SANA 3 =ALGORITHM SPAM) / P(SANA 3 =ALGO

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam // P.Spam + P.noSpam = 1 for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) PÄÄTTELY: P(SPAM EVIDENSSI)/P( SPAM EVIDENSSI) = P(SPAM) / P( SPAM) P(SANA 1 =VIAGRA SPAM) / P(SANA 1 =VIAGRA P(SANA 2 =IS SPAM) / P(SANA 2 =IS SPAM) P(SANA 3 =ALGORITHM SPAM) / P(SANA 3 =ALGO

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam // P.Spam + P.noSpam = 1 for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1, LUOKITTELE VIESTI HAMIKSI JOS SPAMICITY(Viesti, P) =1, EN TIEDÄ

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam // P.Spam + P.noSpam = 1 for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1+!, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1-", LUOKITTELE VIESTI HAMIKSI MUUTEN, EN TIEDÄ

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): LOG(A*B) = LOG(A) + LOG(B) Odds = P.Spam / P.noSpam // P.Spam + P.noSpam = 1 for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) KÄYTÄNNÖN ONGELMA: ALI- JA YLIVUODOT Odds ARVOSTA TULEE HELPOSTI LIIAN PIENI (LÄHELLÄ NOLLAA) TAI LIIAN SUURI. RATKAISU: KÄYTÄ log(odds)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): LOG(A*B) = LOG(A) + LOG(B) logodds = log(p.spam / P.noSpam) // P.Spam + P.noSpam = 1 for each Sana in Viesti logodds = logodds + log(p.sana_spam(sana) / P.Sana_noSpam(Sana)) return(exp(logodds)) KÄYTÄNNÖN ONGELMA: ALI- JA YLIVUODOT Odds ARVOSTA TULEE HELPOSTI LIIAN PIENI (LÄHELLÄ NOLLAA) TAI LIIAN SUURI. RATKAISU: KÄYTÄ log(odds)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PARAMETRIEN OPPIMISESTA VAIKEA KEKSIÄ PÄÄSTÄ EHDOLLISIA TN:IÄ. HUONOT ARVOT HUONONTAVAT FILTTERIN TOIMINTAA PAREMPI RATKAISU: 1. KERÄÄ ISO KASA SPAM-VIESTEJÄ 2. KERÄÄ ISO KASA HAM-VIESTEJÄ 3. ARVIOI P(SANA i = ) = 0. LASKEMALLA DATASTA (VRT. LASKUHARJ. 2.3) VAROTTAVA NOLLATODENNÄKÖISYYKSIÄ! (JOS KASA EI TARPEEKSI ISO, JOTKUT SANAT EIVÄT VAIN SATU ESIINTYMÄÄN SIINÄ.)

ESIM.

ESIM.

ESIM. SPAM HAM 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

ESIM. SPAM HAM 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 % P(SANA i =MONEY SPAM) 0.0004 -------------------------------------- = ------------ = 1.918 > 1 P(SANA i =MONEY SPAM) 0.0002

ESIM. SPAM HAM 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 % P(SANA i =MONEY SPAM) 0.0004 -------------------------------------- = ------------ = 1.918 > 1 P(SANA i =MONEY SPAM) 0.0002 P(SANA i =IS SPAM) 0.0042 ------------------------------- = ------------ = 0.3622 < 1 P(SANA i =IS SPAM) 0.0116

YHTEENVETO YHTEENVETO NAIVI BAYES-SPAMFILTTERISTÄ: TARVITAAN: - PRIORIJAKAUMA P(SPAM) = 0. - LUOKKAEHDOLLISET JAKAUMAT P(SANA i =VIAGRA SPAM)=0. P(SANA i =VIAGRA SPAM)=0. P(SANA i =IS SPAM) = 0. P(SANA i =IS SPAM)=0. P(SANA i =ALGORITHM SPAM) = 0. P(SANA i =ALG. SPAM)=0. OLETETAAN ETTÄ P(SANA i SANA j,spam) = P(SANA i SPAM) (EHDOLLINEN RIIPPUMATTOMUUS) OLENNAISTA ON OSAMÄÄRÄ (OTETAAN NÄIDEN TULO) P(SANA i =VIAGRA SPAM) ------------------------------------------ P(SANA i =VIAGRA SPAM)

YHTEENVETO (JATKOA): YLI- JA ALIVUOTOJEN VÄLTTÄMISEKSI KANNATTAA KÄYTTÄÄ LOGARITMIMUUNNOSTA (LOG(A*B)=LOG(A)+LOG(B)) JAKAUMAT PARAS ESTIMOIDA DATASTA NOLLATODENNÄKÖISYYKSILLE TEHTÄVÄ JOTAIN