JOHDATUS TEKOÄLYYN TEEMU ROOS

Samankaltaiset tiedostot
JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN LUENTO 4.

a. (2 p) Selitä Turingin koe. (Huom. ei Turingin kone.) Minkälainen tekoäly on saavutettu, kun Turingin koe ratkaistaan?

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Kokeessa piti vastata viiteen (5) tehtävään kuudesta (6). Jokaisen tehtävän maksimipistemäärä on 8.

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

1. TILASTOLLINEN HAHMONTUNNISTUS

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tilastollinen päättely, 10 op, 4 ov

Todennäköisyyden ominaisuuksia

Johdatus tekoälyyn

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

1 Bayesin teoreeman käyttö luokittelijana

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Johdatus tekoälyyn

JOHDATUS TEKOÄLYYN TEEMU ROOS

1. Tilastollinen malli??

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Mat Tilastollisen analyysin perusteet, kevät 2007

JOHDATUS TEKOÄLYYN TEEMU ROOS

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

JOHDATUS TEKOÄLYYN TEEMU ROOS

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

4.0.2 Kuinka hyvä ennuste on?

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

Mallipohjainen klusterointi

Tilastotieteen aihehakemisto

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

X X. Johdatus tekoälyyn. v=1 X O. Kevät 2016 T. Roos. v=1 v= 1 8) 9) 10) X X O X O O. v=1 13) 14) X X X O O X O O X O. v=1 v=1 v= 1.

Dynaamiset regressiomallit

MATEMATIIKAN KOE PITKÄ OPPIMÄÄRÄ

Festo Online Shop käyttöohje.

Tehtävä 1. Oletetaan että uv on neliö ja (u, v) = 1. Osoita, että kumpikin luvuista u ja v on. p 2j i. p j i

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

Laskennallinen data-analyysi II

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

805306A Johdatus monimuuttujamenetelmiin, 5 op

RINNAKKAINEN OHJELMOINTI A,

Ennustaminen ARMA malleilla ja Kalmanin suodin

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

JOHDATUS TEKOÄLYYN TEEMU ROOS

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

The Metropolis-Hastings Algorithm

Mat Sovellettu todennäköisyyslasku A

Johdatus tn-laskentaan perjantai

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Väliestimointi (jatkoa) Heliövaara 1

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Teknillinen tiedekunta, matematiikan jaos Numeeriset menetelmät

Otanta ilman takaisinpanoa

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

30A02000 Tilastotieteen perusteet

HARJOITUS- PAKETTI A

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Laskuharjoitus 5. Mitkä ovat kuvan 1 kanavien kapasiteetit? Kuva 1: Kaksi kanavaa. p/(1 p) ) bittiä lähetystä kohti. Voidaan

Asuntomarkkinajäykkyydet ja asuntopolitiikan vaikutusten arviointi. Niku Määttänen, ETLA Asumisen tulevaisuus, päätösseminaari Messukeskus

IFAGG WORLD CUP I, CHALLENGE CUP I and GIRLS OPEN INTERNATIONAL COMPETITION 1 st 2 nd April 2011, Vantaa Finland

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Järvitesti Ympäristöteknologia T571SA

Yhteistyötä sisältämätön peliteoria jatkuu

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Otantajakauman käyttö päättelyssä

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Taulukkolaskenta 1 (12 pistettä)

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

ABHELSINKI UNIVERSITY OF TECHNOLOGY

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

TOOLS. Tapani Matala-aho MATEMATIIKKA/LUTK/OULUN YLIOPISTO TOOLS 1 / 28

Estimointi. Vilkkumaa / Kuusinen 1

Pohdiskeleva ajattelu ja tasapainotarkennukset

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi


Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Multinomijakauman ja Dirichlet-jakauman käytöstä bayesilaisessa päättelyssä

JOHDATUS TEKOÄLYYN TEEMU ROOS

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

2 Konekieli, aliohjelmat, keskeytykset

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

Transkriptio:

JOHDATUS TEKOÄLYYN TEEMU ROOS

KUINKA RIKASTUA

NAIVI BAYES FROM: "MARGARETTA NITA" <MARGUERITESEBRINA@WMLE.COM> SUBJECT: SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! X-BOGOSITY: YES, TESTS=BOGOFILTER, SPAMICITY=0.99993752, VERSION=2011-08-29 DATE: MON, 26 SEP 2011 21:52:26 +0300 X-CLASSIFICATION: JUNK - AD HOC SPAM DETECTED (CODE = 73) SPECIAL OFFER : VIAGRA ON SALE AT $1.38!!! COMPARE THE BEST ONLINE PHARMACIES TO BUY VIAGRA. ORDER VIAGRA ONLINE WITH HUGE DISCOUNT. MULTIPLE BENEFITS INCLUDE FREE SHIPPING, REORDER DISCOUNTS, BONUS PILLS HTTP://RXPHARMACYCVS.RU

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 ROSKAPOSTISUODATIN: SPAMICITY(Viesti, P): Odds = ProbSpam / ProbHam for each Sana in Viesti Odds = Odds * Prob_Spam(Sana) /Prob_Ham(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1, LUOKITTELE VIESTI HAMIKSI

NAIVI BAYES SPAM/HAM SANA 1 P(SANA i =viagra ham) = 0.0001 P(SANA i =viagra spam) = 0.002 TN, ETTÄ YKSITTÄINEN SANA = viagra.

NAIVI BAYES SPAM/HAM SANA 1 P(SANA i = $ ham) = 0.0002 P(SANA i = $ spam) = 0.005

NAIVI BAYES SPAM/HAM EHDOLLINEN RIIPPUMATTOMUUS SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7

NAIVI BAYES MUUTTUJAT: 1. LUOKKA: spam/ham 2. SANA 1 3. SANA 2 4. JAKAUMAT: P(LUOKKA=spam) = 0.5 P(SANA i =viagra spam)=0.002 P(SANA i =viagra ham)=0.0001 P(SANA i =$ spam)=0.005 P(SANA i =$ ham)=0.0002 P(SANA i =is spam)=0.002 P(SANA i =is ham)=0.002 P(SANA i =algorithm spam)=0.0001 P(SANA i =algorithm ham)=0.002 JNE

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) BAYESIN KAAVA!

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) P(SANA 1 =viagra) = P(spam) P(SANA 1 =viagra spam) + P(ham) P(SANA 1 =viagra ham)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 YHTEENVETO TOISTAISEKSI: TARVITAAN: - PRIORIJAKAUMA P(spam) = 0. - LUOKKAEHDOLLISET JAKAUMAT P(SANA i =viagra spam)=0. P(SANA i =viagra ham)=0. P(SANA i =is spam) = 0. P(SANA i =is ham)=0. P(SANA i =algorithm spam) = 0. P(SANA i =algorithm ham)=0. OLETETAAN ETTÄ P(SANA i SANA j, spam) = P(SANA i spam) (EHDOLLINEN RIIPPUMATTOMUUS) OLENNAISTA ON OSAMÄÄRÄ (OTETAAN NÄIDEN TULO) P(SANA i =viagra spam) ------------------------------------------ P(SANA i =viagra ham)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = ProbSpam / ProbHam for each Sana in Viesti Odds = Odds * Prob_Spam(Sana) /Prob_Ham(Sana) return(odds) PÄÄTTELY: P(spam EVIDENSSI)/P(ham EVIDENSSI) = P(spam) / P(ham) P(SANA 1 =viagra spam) / P(SANA 1 =viagra ha P(SANA 2 =is spam) / P(SANA 2 =is ham) P(SANA 3 =algorithm spam) / P(SANA 3 =algorit

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = ProbSpam / ProbHam for each Sana in Viesti Odds = Odds * Prob_Spam(Sana) /Prob_Ham(Sana) return(odds) PÄÄTTELY: P(spam EVIDENSSI)/P(ham EVIDENSSI) = P(spam) / P(ham) P(SANA 1 =viagra spam) / P(SANA 1 =viagra ha P(SANA 2 =is spam) / P(SANA 2 =is ham) P(SANA 3 =algorithm spam) / P(SANA 3 =algorit

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = ProbSpam / ProbHam for each Sana in Viesti Odds = Odds * Prob_Spam(Sana) /Prob_Ham(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1, LUOKITTELE VIESTI HAMIKSI JOS SPAMICITY(Viesti, P) =1, EN TIEDÄ

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = ProbSpam / ProbHam for each Sana in Viesti Odds = Odds * Prob_Spam(Sana) /Prob_Ham(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1+α, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1-β, LUOKITTELE VIESTI HAMIKSI MUUTEN, EN TIEDÄ! Epäsymmetrinen kustannusfunktio: Asiallisen viestin luokittelu spamiksi pahempi virhe kuin toisin päin

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): LOG(A*B) = LOG(A) + LOG(B) logodds = log(probspam / ProbHam) for each Sana in Viesti logodds = logodds + log(prob_spam(sana) / Prob_Ham(Sana)) return(exp(logodds)) KÄYTÄNNÖN ONGELMA: ALI- JA YLIVUODOT Odds ARVOSTA TULEE HELPOSTI LIIAN PIENI (LÄHELLÄ NOLLAA) TAI LIIAN SUURI. RATKAISU: KÄYTÄ log(odds)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PARAMETRIEN OPPIMISESTA: VAIKEA KEKSIÄ PÄÄSTÄ EHDOLLISIA TN:IÄ. HUONOT ARVOT HUONONTAVAT FILTTERIN TOIMINTAA PAREMPI RATKAISU: 1. KERÄÄ ISO KASA SPAM-VIESTEJÄ 2. KERÄÄ ISO KASA HAM-VIESTEJÄ 3. ARVIOI P(SANA i = SPAM) = 0. JA P(SANA i = HAM) = 0. LASKEMALLA DATASTA (VRT. LASKUHARJ.) VAROTTAVA NOLLATODENNÄKÖISYYKSIÄ! (JOS KASA EI TARPEEKSI ISO, JOTKUT SANAT EIVÄT VAIN SATU ESIINTYMÄÄN SIINÄ.)

ESIM.

ESIM. spam ham 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

ESIM. spam ham 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

ESIM. spam ham 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 P(SANA0.42 % i =MONEY SPAM) 0.0004 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 % -------------------------------------- = ------------ = 1.918 > 1 P(SANA i =MONEY SPAM) 0.0002

ESIM. spam ham 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 P(SANA0.42 % i =MONEY SPAM) 0.0004 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 % -------------------------------------- = ------------ = 1.918 > 1 P(SANA i =MONEY SPAM) 0.0002 P(SANA i =IS SPAM) 0.0042 ------------------------------- = ------------ = 0.3622 < 1 P(SANA i =IS SPAM) 0.0116

ESIM. 1 MONEY 5 VIAGRA 10 IS 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 spam P(SANA i = ALGORITHM SPAM) = 0? VOI JOHTAA TILANTEESEEN, JOSSA OSAMÄÄRÄ 0/0 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % ham 21 ALGORITHM 62 MONEY 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

YHTEENVETO YHTEENVETO NAIVI BAYES-SPAMFILTTERISTÄ: TARVITAAN: - PRIORIJAKAUMA P(SPAM) = 0. - LUOKKAEHDOLLISET JAKAUMAT P(SANA i =VIAGRA SPAM)=0. P(SANA i =VIAGRA SPAM)=0. P(SANA i =IS SPAM) = 0. P(SANA i =IS SPAM)=0. P(SANA i =ALGORITHM SPAM) = 0. P(SANA i =ALG. SPAM)=0. HUOM! EI OLE KYSEESSÄ P( SANA VIAGRA ESIINTYY SPAM), JNE. (SEKIN OLISI MAHDOLLISTA, MUTTA VIESTIEN PITUUDET VAIKUTTAISIVAT TULOKSEEN.) OLETETAAN ETTÄ P(SANA i SANA j,spam) = P(SANA i SPAM) (EHDOLLINEN RIIPPUMATTOMUUS)

YHTEENVETO (JATKOA): OLENNAISTA ON OSAMÄÄRÄ (OTETAAN NÄIDEN TULO) P(SANA i =VIAGRA SPAM) ------------------------------------------ P(SANA i =VIAGRA SPAM) KUSTANNUSFUNKTIO EPÄSYMMETRINEN: PAREMPI SÄÄSTÄÄ MUUTAMA SPAM KUIN HUKATA OIKEA VIESTI (HAM) JAKAUMAT PARAS ESTIMOIDA DATASTA

YHTEENVETO (JATKOA): OLENNAISTA ON OSAMÄÄRÄ (OTETAAN NÄIDEN TULO) P(SANA i =VIAGRA SPAM) ------------------------------------------ P(SANA i =VIAGRA SPAM) KUSTANNUSFUNKTIO EPÄSYMMETRINEN: PAREMPI SÄÄSTÄÄ MUUTAMA SPAM KUIN HUKATA OIKEA VIESTI (HAM) JAKAUMAT PARAS ESTIMOIDA DATASTA NOLLATODENNÄKÖISYYKSILLE TEHTÄVÄ JOTAIN