Statistical and Adaptive Natural Language Processing. T (5 cr) L, Spring Ninth lecture Statistical Language Modeling

Koko: px
Aloita esitys sivulta:

Download "Statistical and Adaptive Natural Language Processing. T-61.5020 (5 cr) L, Spring 2007. Ninth lecture Statistical Language Modeling"

Transkriptio

1 Statistical and Adaptive Natural Language Processing T (5 cr) L, Spring 2007 Ninth lecture Statistical Language Modeling Lecturer: Mathias Creutz Slides: Krista Lagus, Mathias Creutz, Timo Honkela

2 9. Statistical Language Modeling Tilastollinen mallinnus N-grammimallit Piirteiden jakaminen ekvivalenssiluokkiin N-grammimallin tilastollinen estimointi Mallien estimoinnista ja testauksesta yleisesti More Smoothing Methods Estimaattorien yhdistäminen Kneser-Ney Smoothing N-grammimallin kritiikkiä

3 9. Statistical Language Modeling Lecture based on: Mainly Chapter 6 in Manning & Schütze Also material from Chapter 6 in Jurafsky & Martin: Speech and Language Processing (An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition) Article: Joshua T. Goodman: A bit of progress in language modeling. Computer Speech and Language (2001) 15,

4 Some Historic Quotes (sometimes used for linguist bashing ) But it must be recognized that the notion of probability of a sentence is an entirely useless one, under any known interpretation of this term. Noam Chomsky (1969) Why? Any time a linguist leaves the group the recognition rate goes up. Fred Jelinek (then of the IBM speech group) (1988) No knowledge is better than wrong knowledge. Hynek Hermansky Statistical language modeling was initially developed for the needs of automatic speech recognition: how match a (possibly noisy) acoustic signal to some sequence of words that makes sense? 4

5 Statistical models were a good solution in this type of task that was not clean enough for the existing linguistic models at the time. For instance, speech typically contains disfluencies and utterances may be ungrammatical according to a conventional grammar: I do uh main- mainly business data processing. (Actually, statistical models Markov models of words were common in engineering, psychology, and linguistics until the 1950 s, when Chomsky criticized them as incapable of being a complete cognitive model of human grammatical knowledge. A new coming took place in the 1970 s with speech recognition research at IBM and CMU.) Nevertheless, linguist bashing is not recommended. If you feel a strong urge to do it, don t set up straw men from the past to attack. They might have learned one or two things over the years. 5

6 9.1 Tilastollinen mallinnus 1. Otetaan dataa (generoitu tuntemattomasta tn-jakaumasta) 2. Tehdään estimaatti jakaumasta datan perusteella 3. Tehdään päätelmiä uudesta datasta jakaumaestimaatin perusteella Mallinnuksen osatehtävät voidaan hahmottaa seuraavasti: Datan jakaminen ekvivalenssiluokkiin Hyvän tilastollisen estimaattorin löytäminen kullekin luokalle Useiden estimaattorien yhdistäminen Tyypillinen oletus: stationaarisuus, eli että datan tn-jakauma ei muutu oleellisesti ajan myötä. 6

7 Tilastollisen kielimallin tehtävistä Klassinen tehtävä: seuraavan sanan (tai kirjaimen) ennustaminen jo nähtyjen sanojen (tai kirjainten) perusteella ( Shannon game ). Esim. seuraavissa sovelluksissa: puheentunnistus optinen merkkientunnistus, käsinkirjoitettujen merkkien tunnistus kirjoitusvirheiden korjaus tilastollinen konekääntäminen Estimointimenetelmät yleisiä, soveltuvat myös muihin tehtäviin (esim. WSD, word sense disambiguation, jäsentäminen) 7

8 9.2 N-grammimallit N-grammimalli: ennustetaan sanaa w n edellisten n 1 sanan perusteella: P (w n w 1 w 2 w n 1 ) (1) Kaava esiintyy myös muodossa P (w t w t (n 1) w t (n 2) w t 1 ) jossa t viittaa sanan järjestysnumeroon (ajanhetkeen) koko aineistossa. Esimerkki: aineistona tämän luennon kalvot, n=4: w t 3 w t 2 w t 1 w t... sitä enemmän dataa tarvitaan mallin estimointiin... Malleille käytettäviä nimiä n=1 unigram n=2 bigram n=3 trigram n=4 4-gram, fourgram Yhteys ekvivalenssiluokkiin: n-grammimallissa jokainen n 1:n sanan pituinen historia saa oman ekvivalenssiluokkansa. Tämä tarkoittaa että historiat 8

9 joissa viimeiset 3 sanaa samoja käsitellään keskenään identtisinä tilanteina seuraavan sanan ennustamisen kannalta, eli niillä on yhteinen estimaatti. Sama n-grammien ominaisuus toisesta näkökulmasta: malli olettaa että sana riippuu ainoastaan (n 1) edeltävästä sanasta, mutta ei tätä kauempana olevista sanoista (ns. Markov-oletus). Markov-malli: k:n asteen Markov-malli on malli joka asettaa kaikki k:n pituiset historiat samaan ekvivalenssiluokkaan. Ts. n-grammimalli on n 1:n asteen Markov-malli. Esimerkkejä: Sue swallowed the large green Tämän vuoden Idols-mittelössä on jäljellä vielä neljä 9

10 Parametrien määrän kasvu Malli Parametreja jos sanasto 20,000 n=1 unigram n=2 bigram = 400 milj. n=3 trigram = 8 miljardia n=4 4-gram, fourgram =

11 9.3 Piirteiden jakaminen ekvivalenssiluokkiin Piirteet (sekä jatkuva-arvoiset että diskreetit) voidaan jakaa ekvivalenssiluokkiin bins Esim. jatkuva-arvoisen muuttujan ikä jakaminen luokkiin 0-2; 3-5; 7-10; 11-15; 16-25; jne Mitä useampia ekv.luokkia, sitä enemmän dataa tarvitaan mallin estimointiin, jotta tulokset luotettavia kullekin luokalle Toisaalta, jos luokkia on kovin vähän, ennustettavan kohdemuuttujan (esim. pituus ) arvoa ei voida ennustaa kovin tarkasti. Esimerkki: ennustetaan seuraavaa sanaa 1. kolmen edellisen sanan sanaluokan (subst, verbi, adj, num jne) TAI 2. kolmen edellisen sanan perusteella 1. tapauksessa vähemmälläkin datalla jonkinlaiset estimaatit, kun taas 2. tapauksessa tarkempia estimaatteja mutta dataa tarvitaan paljon enemmän. 11

12 Joitain tapoja muodostaa ekvivalenssiluokkia Isojen ja pienten kirjainten käsittely samalla tavalla (esim. kaiken muuntaminen pieniksi kirjaimiksi) Sanojen muuntaminen perusmuotoon (saman sanan eri taivutusmuodot käsitellään ekvivalentteina) Ryhmittely sanaluokkatiedon mukaan (syntaktiselta rooliltaan samankaltaiset muodostavat ekv. luokan) Sanojen semanttinen ryhmittely (merkitykseltään samankaltaiset muodostavat ekv.luokan) Kussakin vaihtoehdossa tarvitaan kuitenkin menetelmä jolla sanan ekvivalenssiluokka voidaan luotettavasti päätellä. Lisäksi ekvivalenssiluokkien olisi hyvä olla sellaisia että niiden sisällä sanat todella käyttäytyvät samankaltaisesti, ts. tarkkuus säilytetään. 12

13 Historian huomioimisen eri tapoja Edellä kuvattiin yksittäisten piirteiden ekvivalenssiluokkien laskemista. Eri tapoja ekvivalenssiluokkien muodostamiseen historian suhteen: Poimitaan historiasta tiettyjä piirteitä, mutta niiden sijainnilla ei ole väliä esim. malli: P (w t lauseen predikaatti, w t 1 ) Käsitellään sanajonon sijaan sanajoukkoa ( sanasäkkiä, bag-of-words), eli ei välitetä sanojen järjestyksestä: P (w n w 1, w 2,..., w n 1 ) 13

14 9.4 N-grammimallin tilastollinen estimointi Annettuna: joukko näytteitä jotka osuvat kuhunkin ekvivalenssiluokkaan (biniin). Bayesin kaavoista: P (w n w 1 w n 1 ) = P (w 1 w n ) P (w 1 w n 1 ) (2) Mallin optimointi: maksimoidaan datan todennäköisyys (eli sanojen tn:ien tulo). Notaatio: N B w n 1 C(w 1 w n ) r N r h Opetusnäytteiden lukumäärä (token count) Ekv.luokkien (binien) lukumäärä (type count) n-grammi w 1 w n ngrammin w 1 w n lukumäärä opetusdatassa (token cnt) n-grammin lukumäärä (token count) Niiden binien lukumäärä joissa on r näytettä (type count) historia (edeltävä sanajono) 14

15 Maximum likelihood-estimaatti (MLE) P MLE (w 1 w n ) = C(w 1 w n ) N (3) P MLE (w n w 1 w n 1 ) = C(w 1 w n ) C(w 1 w n 1 ) MLE-estimointi johtaa parametrien valintaan siten että opetusdatan todennäköisyys maksimoituu. (Huom: tämä pätee vain tietyin oletuksin, kuten että näytteet, esim. tri-grammien sanakolmikot, oletetaan riippumattomiksi toisistaan. Tämä taas ei pidä paikkaansa mm. overlapin takia.) Koko tn-massa jaetaan opetusdatassa esiintyneiden tapausten kesken, niiden frekvenssien suhteessa. Antaa siis tn=0 tapaukselle jota ei nähty opetusdatassa, eli ei jätä lainkaan tn-massaa aiemmin näkemättömille sanoille. (4) 15

16 Koska yleisesti sanajonon tn lasketaan kertomalla kunkin sanan tn, yksikin nolla saa koko sanajonon tn:n nollaksi. Esimerkki datan harvuudesta: ensimmäisten 1.5 miljoonan sanan jälkeen (IBM laser patent text corpus) 23% myöhemmistä trigrammeista oli ennennäkemättömiä. MLE ei kovin hyödyllinen estimaatti harvalle datalle, kuten n- grammeille. Tarvitaan siis systemaattinen tapa jolla huomioidaan ennennäkemättömien sanojen ja ennennäkemättömien n-grammien tn:t. Tätä kutsutaan mm. nimellä tasoitus eli smoothing Taulukko 6.3: MLE-estimaatteja Austenin kirjoista eräälle lauseelle eri n- grammeilla. 16

17 17

18 Laplacen laki eli yhden lisäys Annetaan hiukan tn-massaa näkemättömille tapauksille lisäämällä jokaiseen lukuun 1: P LAP (w 1 w n ) = C(w 1 w n ) + 1 (5) N + B Vastaa Bayesin estimaattia priorilla, että kaikki tapahtumat ovat yhtä todennäköisiä, ja tähän prioriin uskotaan aivan kuin olisi nähty yksi näyte joka lajia. Esim. 44 milj. sanan AP newswire-korpus, sanaston koko 400,653 sanaa, jolloin bigrammeja , eli N =44 milj., B = Jos data on hyvin harvaa, antaa liiaksi tn-massaa ennen näkemättömille tapauksille (tässä 46.5% tn-massasta). Ts. uskotaan tasajakauma-prioriin liian vahvasti verrattuna datan määrään: Kannattaisiko 1:n sijaan uskoa että on nähty esim jokaista näytettä? 18

19 Odotetun frekvenssin estimaatteja seuraavassa taulukossa (Laplace): 19

20 Lidstonen laki, Jeffreys-Perksin laki P Lid (w 1 w n ) = C(w 1 w n ) + λ (6) N + Bλ Voidaan osoittaa että ylläoleva tarkoittaa lineaarista interpolointia tasajakauma-priorin ja MLE-estimaatin välillä. Asetetaan µ = N/(N + Bλ): P Lid (w 1 w n ) = µ C(w 1 w n ) N + (1 µ) 1 B Jeffreysin priori: λ = 1/2, eli lisätään jokaiseen lukumäärään 1/2 (vastaa sitä että olisi nähty puolikas näyte jokaista lajia). Käytetään myös nimeä Expected Likelihood Estimation (ELE) On valittava λ:n arvo tavalla tai toisella Alhaisilla frekvensseillä tämäkään ei kovin hyvin vastaa todellista jakaumaa (7) 20

21 9.5 Mallien estimoinnista ja testauksesta yleisesti Seuraava koskee mitä tahansa menetelmien vertailua, ei pelkästään n- grammeja tai kielimalleja. Tavallisesti data jaetaan ennen menetelmien kehittämistä kolmeen osaan Opetusjoukko: data jolla malli opetetaan Validointijoukko: opetusjoukosta riippumaton data, jonka avulla valitaan mallin opetuksessa käytettävät parametrit (esim. edellisen kalvon λ) Testijoukko: edellisistä riippumaton, satunnaisesti valittu datajoukko (kooltaan esim. 10% opetusdatasta), jolla lopullisen mallin hyvyys mitataan. Testijoukko on pidettävä kokonaan syrjässä menetelmien kehittämisen aikana! Jos testijoukko pääsee vaikuttamaan menetelmänkehitykseen (vaikka vain alitajuisesti), se ei ole enää soveltuva menetelmän testaamiseen. 21

22 Kuitenkin usein menetelmänkehitys on syklinen prosessi jossa välillä muutetaan menetelmää ja sitten taas testataan. Siksi voi olla erikseen: 1. kehittely-testijoukko, jolla vertaillaan menetelmän eri variantteja 2. lopullinen testijoukko jolla tuotetaan julkaistavat tulokset, ja jota ei ole käytetty mihinkään ennen tätä. Vaihtoehdot testijoukon (ja validointijoukon) valintaan: 1. täysin satunnainen valinta (satunnaisia lyhyitä tekstinpätkiä) 2. pitkiä yhtenäisiä pätkiä (esim. ajallisesti myöhempiä osia datasta) 2-tapa vastaa paremmin mallin käyttötilannetta: se myös antaa realistisemmat, yleensä hiukan huonommat tulokset johtuen siitä, että harvat ilmiöt ovat täysin stationaarisia. 22

23 Held Out Estimation Let C 1 (w 1 w n ) = frequency of w 1 w n in training data Let C 2 (w 1 w n ) = frequency of w 1 w n in held out (validation) data T r = {w 1 w n:c 1 (w C 1 w n)=r} 2(w 1 w n ) That is, T r is the total number of times that all n-grams that appeared r times in the training text appeared in the held out data. Then the average frequency of those n-grams is Tr N r and so an estimate for the probability of one of these n-grams is: P ho (w 1 w n ) = T r N r N, where C(w 1 w n ) = r. (8) 23

24 Ristiinvalidointi (cross-validation) Jaetaan data K:hon osajoukkoon, joista 1 kerrallaan on testidata, muut opetusdataa. Toistetaan siten että kukin osajoukko on vuorollaan testidata. K välillä 2... N, jossa N datan määrä. Hyöty: Kaikki datat vaikuttavat sekä mallin opetukseen että sen testaukseen, data siis hyödynnetään mahdollisimman tarkasti (tärkeää etenkin kun dataa on vähän). useita eri variantteja (deleted estimation, leave-one-out-estimation) Sekä ristiinvalidoinnin että held-out-estimoinnin avulla voidaan valita mallien parametrejä, ja siis esim. tasoittaa tn-estimaatteja. 24

25 Deleted Estimation Deleted estimation is a form of two-way cross validation. It is more efficient than held out estimation, because both halves of the data are used and a weighted average is taken: P del (w 1 w n ) = T r 01 + Tr 10 N(Nr 0 + Nr 1 ), where C(w 1 w n ) = r. (9) Here Nr 0 is the number of n-grams occurring r times in the 0 th part of the training data, and Tr 01 is the total number occurrences of those n-grams from part 0 in part 1 (and vice versa). A standard held out estimate would be written as: P ho (w 1 w n ) = T r 01 or P Nr 0 N ho(w 1 w n ) = T r 10 N 1 r N. 25

26 Deleted interpolation: 26

27 Evaluation of Language Models 27 Language models are components of larger systems (speech recognition, hand-written character recognition, machine translation), so ultimately their usefulness is determined by the functionality of the whole system. However, often one wants to evaluate a language model in its own right. For instance, experiments with a full speech recognition system may be very resource-consuming, or one wants to assess the performance of each component (acoustic modeling, language modeling, etc) in isolation. The idea is that a good model predicts some test text well. Based on the observed history, the model should restrict the possible continuations successfully, that is, give a high probability to likely continuations and a low probability to unlikely continuations. One can compute the probability of the test text given the model, e.g., P (w 1 w 2... w n ) = P (In < s >) P (person < s > In)

28 P (she In person) P (was person she) P (inferior she was). However, test texts have different length, so it is better to normalize by the number of words, n. We obtain the geometric mean P (w 1... w n ) 1/n, that is, the average probability (according to the model) of each word in the test set. The higher the probability, the better. However, the geometric mean of P (w 1... w n ) is never reported in practice, but its inverted value P (w 1... w n ) 1/n, called perplexity. Perplexity can intuitively be thought of as the weighted average number of choices a random variable has to make. A low perplexity means that most probability mass is distributed on a few alternatives, which means that the model has good predictability of the test data. There is another way of deriving the perplexity. Recall the entropy of a language. For a word sequence, we can talk about the entropy rate, or the average number of bits, we need to code each word in the 28

29 sequence: 1 H(L) = lim n n H(w 1w 2... w n ) 1 = lim p(w 1... w n ) log n n 2 p(w 1... w n ). (10) W L (11) The Shannon-McMillan-Breiman theorem states that if the language is regular in certain ways (stationary and ergodic), this equals: H(L) = lim n 1 n log 2 p(w 1... w n ). (12) Now, if we use one model m (estimated from the training set) to predict the entropy of a test set, we do not know the true model p 29

30 that generated the test set. We obtain the cross-entropy of m on p: 1 H(p, m) = lim p(w 1... w n ) log n n 2 m(w 1... w n ) W L = lim n 1 n log 2 m(w 1... w n ). (Shannon-McMillan-Breiman) (13) The cross-entropy H(p, m) is an upper bound on the entropy H(p): H(p) < H(p, m). Between two models m 1 and m 2, the more accurate model will be the one with lower cross-entropy. In practice, no test text is infinitely long, so we have to stop at some finite value of n (number of words in test set): H(p, m) 1 n log 2 m(w 1... w n ). (14) We see that perplexity can be expressed as 2 H(p,m). To summarize, the performance of a language model is assessed on a held-out test set. One can either report perplexity (the number of equiprobable choices the model has to make on average for each next word) 30

31 31 or cross-entropy (the number of bits it takes to code each following word on average using the model).

32 Eri menetelmien vertailusta Pelkkiä keskiarvotuloksia vertaamalla ei voi tietää ovatko havaitut erot menetelmissä merkitseviä. Eräs ratkaisu: Mitataan lisäksi tulosten varianssi eri datajoukoilla, ja testataan erojen tilastollinen merkitsevyys esim. t-testillä. 32

33 33

34 9.6 More Smoothing Methods Termi discounting viittaa siihen, että nähtyjen n-grammien tn:iä alennetaan ja tätä massaa jaetaan ennen näkemättömille. Absoluuttinen alennus (absolute discounting): Kaikista nähdyistä n-grammeista vähennetään vakio-tnmassa δ joka jaetaan tasan näkemättömien n-grammien kesken: If C(w 1 w n ) = r, { (r δ)/n if r > 0 P abs (w 1 w n ) = (B N 0 )δ N 0 N otherwise (15) Lineaarinen alennus (linear discounting): Skaalataan nähtyjen n- grammien tn:ät vakiolla joka on hiukan (α) pienempi kuin 1, ja saatu tnmassa jaetaan tasan ei-nähtyjen kesken. Ei kovin hyvä, koska rankaisee frekventtejä enemmän kuitenkin niiden estimaatit ovat parempia: If C(w 1 w n ) = r, { (1 α)r/n if r > 0 P lin (w 1 w n ) = α N 0 otherwise (16) 34

35 Witten-Bell discounting: Arvioidaan yllättävien asioiden näkemisen tnmassa sen perusteella kuinka tavallista yllättävien asioiden näkeminen on ollut tähän mennessä: If C(w 1 w n ) = r and M = B N 0 (M is thus the number of non-empty bins, or the type count; N is the token count): P WB (w 1 w n ) = { r if r > 0 N+M otherwise M N 0 (N+M) (17) Pohjimmiltaan menetelmien eroissa on kyse on siitä minkälaisia oletuksia tehdään tapauksista, joita ei ole nähty, ja niiden suhteesta tapauksiin, joita on nähty. 35

36 Good-Turing -estimaattori Ks. frekvenssien frekvenssi-histogrammeja taulukossa 6.7. P GT (w 1 w n ) = r N, jossa r = (r + 1)S(r + 1) S(r) (18) ja S(r) on odotusarvo N r :lle, tai vaihtoehtoisesti, arvo joka on saatu sovittamalla jokin tasainen käyrä frekvenssien frekvensseille: N r = S(r) Simple Good-Turing -estimaattori: Valitaan käyräksi potenssifunktio: S(r) = ar b jossa parametrit a ja b sovitetaan frekvenssien frekvenssi-histogrammin mukaan. Melko hyvä estimaattori, yleisesti käytössä. 36

37 37

38 Good Turing: 38

39 9.7 Estimaattorien yhdistäminen Tähän asti tarkasteltu tilannetta jossa pyritään estimoimaan identtinen tn esim. kaikille 3-grammeille joita ei ole nähty. Kuitenkin jos 3-grammin osat (esim. 2-grammit) ovat frekventtejä, eikö niistä kerättyä tietoa kannattaisi käyttää 3-grammin tn:n estimoinnissa? Motivaationa estimaattien tasoitus (smoothing) tai yleisemmin eri informaationlähteiden yhdistäminen. 39

40 Lineaarinen interpolointi (yleisemmin nimellä äärelliset mikstuurimallit tai sum of experts) Lasketaan painotettu keskiarvo eri pituisten kontekstien antamista estimaateista: P li (w n w n 2 w n 1 ) = λ 1 P 1 (w n ) + λ 2 P 2 (w n w n 1 ) + λ 3 P 3 (w n w n 2 w n 1 ) (19) (0 λ 1 1 ja i λ 1 = 1) Parametrit λ voidaan asettaa käsin tai optimoida datan avulla. Yleinen lineaarinen interpolointi Edellä parametrit λ eivät riippuneet sanoista joiden kohdalla niitä sovelletaan, eli parametri on vakio vaikkapa kaikille bi-grammeille. 40

41 Yleisemmin ne voidaan kuitenkin asettaa riippumaan historiasta: P li (w h) = i λ i (h)p i (w h) (20) (0 λ 1 1 ja i λ 1 = 1) ja optimoida esim. EM-algoritmilla. Kuitenkin, jos jokaiselle historialle on oma λ ollaan taas datan harvuusongelmassa, ja joudutaan soveltamaan jotain tasoitusta, historioiden ekvivalenssiluokkia tms. 41

42 Perääntyminen (backing off) Periaate: Katsotaan aina spesifeintä mallia joka antaa riittävän luotettavaa informaatiota tämänhetkisestä kontekstista. Eli peräännytään pitkien kontekstien käytöstä yhä lyhempiin: Päätetään uskoa estimaattia jos se perustuu vähintään k näytteeseen (k esim. 0, 1 tai 2). A widely used method is Katz backoff, often combined with Good Turing discounting: P Katz (on T uesday) = { disc(c(on T uesday)) C(on) α(on) P Katz (T uesday) if C(on T uesday) > k otherwise (21) disc( ) is the discounting function. α( ) is a normalization factor, which equals all probability mass that was reserved for new observations through discounting. 42

43 Kritiikkiä: Uuden opetusdatan lisääminen voi vaikuttaa voimakkaasti tn:iin kun se aiheuttaa muutoksia useiden sanojen kohdalla niille sovellettavissa n-grammipituuksissa Kuitenkin mallit yksinkertaisia ja toimivat melko hyvin, joten yleisesti käytössä. back-off -malli on erikoistapaus yleisestä lineaarisesta interpoloinnista: λ i (h) = 1 kun k:n arvo riittävän suuri, 0 muulloin. Lähestymistapa muistuttaa Kohosen Dynamically Expanding Context (DEC) -algoritmia. 43

44 Back-off-mallien käyttöesimerkki: 44

45 Two Problems With Katz Backoff and Good Turing Discounting The model improves when longer n-grams are used, but only to a certain point. For instance, trigrams may outperform bigrams and unigrams, but the performance actually degrades with higher order n- grams (4-, 5-, 6- etc.). (The perplexity starts to rise again.) The on Francisco problem: P Katz (on F rancisco) = { disc(c(on F rancisco)) C(on) α(on) P Katz (F rancisco) if C(on F rancisco) > k otherwise (22) Since the phrase San Francisco is fairly common, the conventional unigram probability P (F rancisco) is also fairly high. Thus, also the backoff probability for P (on F rancisco) will be fairly high (to compare with P (on T uesday)). However, the word Francisco occurs in exceedingly few contexts, and its probability of occurring in a new one should be very low. 45

46 9.8 Kneser-Ney Smoothing Kneser-Ney smoothing uses a modified backoff distribution based on the number of contexts (type count) each word occurs in, rather than the number of occurrences of the word (token count). A probability such as P KN (on F rancisco) would be low, while for a word like Tuesday that occurs in many contexts, P KN (on T uesday) would be relatively high. Backoff Kneser-Ney (bigram case): P BKN (w i w i 1 ) = { C(wi 1 w i ) D C(w i 1 if C(w ) i 1 w i ) > 0 {v C(vw α(w i 1 ) i )>0} otherwise Pw {v C(vw)>0} (23) Again, α is a normalization constant such that the probabilities sum to 1. {v C(vw i ) > 0} is the number of words v that w i can occur in the context of. w {v C(vw) > 0} is the number of different bigrams (type count). 46

47 Actually, interpolated Kneser-Ney works even better: P IKN (w i w i 1 ) = C(w i 1 w i ) D + λ(w i 1 ) C(w i 1 ) {v C(vw i ) > 0} (24) {v C(vw) > 0}. w This enables very high-order n-grams (10 20). Performance (perplexity) plateaus, but does not start rising again, if a too high n is used. This also makes it possible to use varigrams without a highest n fixed in advance. The so-called Modified (Interpolated) Kneser-Ney smoothing method is the state-of-the-art method in current speech recognition systems. It is supported, e.g., by the SRI Language Modeling toolkit. 47

48 9.9 N-grammimallin kritiikkiä N-grammien ongelmia kielimallina: Eivät huomioi pidemmän tähtäimen riippuvuuksia sanojen välillä Sanajono yhdessä järjestyksessä ei kontribuoi saman sanajoukon tn:ään jossain toisessa järjestyksessä Tasoitusongelmat voi myös nähdä mallin rakenteellisena ongelmana Riippuvuudet estimoidaan sanojen välillä suoraan. Intuitiivisesti järkevämmältä tuntuisi että olisivat osaksi joidenkin latenttien muuttujien, kuten käsitteiden ja/tai sanaluokkien tms välillä. Kuitenkin: n-grammimalli yhdistää syntaktiset ja semanttiset ja kollokationaaliset lyhyen kontekstin riippuvuudet käytännössä yllättävänkin hyvin toimivalla tavalla, etenkin/ainakin englannille. Mallin optimointiin ja tasoitusmenetelmien parantamiseen on käytetty hyvin paljon resursseja. On mahdollista, että on juututtu lokaaliin minimiin malliperheiden suhteen. 48

Kevät 2003 Timo Honkela ja Kris- ta Lagus

Kevät 2003 Timo Honkela ja Kris- ta Lagus Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2003 Timo Honkela ja Kris- Luennot: ta Lagus Laskuharjoitukset: Vesa Siivola Luentokalvot: Krista Lagus (päivityksiä: Timo Honkela) 8.

Lisätiedot

9. N-grammi-kielimallit

9. N-grammi-kielimallit 9. N-grammi-kielimallit 9.1 Tilastollinen mallinnus 1. Otetaan dataa (generoitu tuntemattomasta tn-jakaumasta) 2. Tehdään estimaatti jakaumasta datan perusteella 3. Tehdään päätelmiä uudesta datasta jakaumaestimaatin

Lisätiedot

Capacity Utilization

Capacity Utilization Capacity Utilization Tim Schöneberg 28th November Agenda Introduction Fixed and variable input ressources Technical capacity utilization Price based capacity utilization measure Long run and short run

Lisätiedot

The CCR Model and Production Correspondence

The CCR Model and Production Correspondence The CCR Model and Production Correspondence Tim Schöneberg The 19th of September Agenda Introduction Definitions Production Possiblity Set CCR Model and the Dual Problem Input excesses and output shortfalls

Lisätiedot

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) Juha Kahkonen Click here if your download doesn"t start automatically On instrument costs

Lisätiedot

Information on preparing Presentation

Information on preparing Presentation Information on preparing Presentation Seminar on big data management Lecturer: Spring 2017 20.1.2017 1 Agenda Hints and tips on giving a good presentation Watch two videos and discussion 22.1.2017 2 Goals

Lisätiedot

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) Juha Kahkonen Click here if your download doesn"t start automatically On instrument costs

Lisätiedot

Efficiency change over time

Efficiency change over time Efficiency change over time Heikki Tikanmäki Optimointiopin seminaari 14.11.2007 Contents Introduction (11.1) Window analysis (11.2) Example, application, analysis Malmquist index (11.3) Dealing with panel

Lisätiedot

anna minun kertoa let me tell you

anna minun kertoa let me tell you anna minun kertoa let me tell you anna minun kertoa I OSA 1. Anna minun kertoa sinulle mitä oli. Tiedän että osaan. Kykenen siihen. Teen nyt niin. Minulla on oikeus. Sanani voivat olla puutteellisia mutta

Lisätiedot

Other approaches to restrict multipliers

Other approaches to restrict multipliers Other approaches to restrict multipliers Heikki Tikanmäki Optimointiopin seminaari 10.10.2007 Contents Short revision (6.2) Another Assurance Region Model (6.3) Cone-Ratio Method (6.4) An Application of

Lisätiedot

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) Juha Kahkonen Click here if your download doesn"t start automatically On instrument costs

Lisätiedot

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition) Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition) Esko Jalkanen Click here if your download doesn"t start automatically Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition) Esko Jalkanen

Lisätiedot

16. Allocation Models

16. Allocation Models 16. Allocation Models Juha Saloheimo 17.1.27 S steemianalsin Optimointiopin seminaari - Sks 27 Content Introduction Overall Efficienc with common prices and costs Cost Efficienc S steemianalsin Revenue

Lisätiedot

LYTH-CONS CONSISTENCY TRANSMITTER

LYTH-CONS CONSISTENCY TRANSMITTER LYTH-CONS CONSISTENCY TRANSMITTER LYTH-INSTRUMENT OY has generate new consistency transmitter with blade-system to meet high technical requirements in Pulp&Paper industries. Insurmountable advantages are

Lisätiedot

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0 T-61.5020 Statistical Natural Language Processing Answers 6 Collocations Version 1.0 1. Let s start by calculating the results for pair valkoinen, talo manually: Frequency: Bigrams valkoinen, talo occurred

Lisätiedot

1. Liikkuvat määreet

1. Liikkuvat määreet 1. Liikkuvat määreet Väitelauseen perussanajärjestys: SPOTPA (subj. + pred. + obj. + tapa + paikka + aika) Suora sanajärjestys = subjekti on ennen predikaattia tekijä tekeminen Alasääntö 1: Liikkuvat määreet

Lisätiedot

Results on the new polydrug use questions in the Finnish TDI data

Results on the new polydrug use questions in the Finnish TDI data Results on the new polydrug use questions in the Finnish TDI data Multi-drug use, polydrug use and problematic polydrug use Martta Forsell, Finnish Focal Point 28/09/2015 Martta Forsell 1 28/09/2015 Esityksen

Lisätiedot

Bounds on non-surjective cellular automata

Bounds on non-surjective cellular automata Bounds on non-surjective cellular automata Jarkko Kari Pascal Vanier Thomas Zeume University of Turku LIF Marseille Universität Hannover 27 august 2009 J. Kari, P. Vanier, T. Zeume (UTU) Bounds on non-surjective

Lisätiedot

Network to Get Work. Tehtäviä opiskelijoille Assignments for students. www.laurea.fi

Network to Get Work. Tehtäviä opiskelijoille Assignments for students. www.laurea.fi Network to Get Work Tehtäviä opiskelijoille Assignments for students www.laurea.fi Ohje henkilöstölle Instructions for Staff Seuraavassa on esitetty joukko tehtäviä, joista voit valita opiskelijaryhmällesi

Lisätiedot

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu Returns to Scale II Contents Most Productive Scale Size Further Considerations Relaxation of the Convexity Condition Useful Reminder Theorem 5.5 A DMU found to be efficient with a CCR model will also be

Lisätiedot

Alternative DEA Models

Alternative DEA Models Mat-2.4142 Alternative DEA Models 19.9.2007 Table of Contents Banker-Charnes-Cooper Model Additive Model Example Data Home assignment BCC Model (Banker-Charnes-Cooper) production frontiers spanned by convex

Lisätiedot

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward. START START SIT 1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward. This is a static exercise. SIT STAND 2. SIT STAND. The

Lisätiedot

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL FinFamily PostgreSQL 1 Sisällys / Contents FinFamily PostgreSQL... 1 1. Asenna PostgreSQL tietokanta / Install PostgreSQL database... 3 1.1. PostgreSQL tietokannasta / About the PostgreSQL database...

Lisätiedot

Tietorakenteet ja algoritmit

Tietorakenteet ja algoritmit Tietorakenteet ja algoritmit Taulukon edut Taulukon haitat Taulukon haittojen välttäminen Dynaamisesti linkattu lista Linkatun listan solmun määrittelytavat Lineaarisen listan toteutus dynaamisesti linkattuna

Lisätiedot

Gap-filling methods for CH 4 data

Gap-filling methods for CH 4 data Gap-filling methods for CH 4 data Sigrid Dengel University of Helsinki Outline - Ecosystems known for CH 4 emissions; - Why is gap-filling of CH 4 data not as easy and straight forward as CO 2 ; - Gap-filling

Lisätiedot

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007 National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007 Chapter 2.4 Jukka Räisä 1 WATER PIPES PLACEMENT 2.4.1 Regulation Water pipe and its

Lisätiedot

Choose Finland-Helsinki Valitse Finland-Helsinki

Choose Finland-Helsinki Valitse Finland-Helsinki Write down the Temporary Application ID. If you do not manage to complete the form you can continue where you stopped with this ID no. Muista Temporary Application ID. Jos et onnistu täyttää lomake loppuun

Lisätiedot

Miksi Suomi on Suomi (Finnish Edition)

Miksi Suomi on Suomi (Finnish Edition) Miksi Suomi on Suomi (Finnish Edition) Tommi Uschanov Click here if your download doesn"t start automatically Miksi Suomi on Suomi (Finnish Edition) Tommi Uschanov Miksi Suomi on Suomi (Finnish Edition)

Lisätiedot

Siirtymä maisteriohjelmiin tekniikan korkeakoulujen välillä Transfer to MSc programmes between engineering schools

Siirtymä maisteriohjelmiin tekniikan korkeakoulujen välillä Transfer to MSc programmes between engineering schools Siirtymä maisteriohjelmiin tekniikan korkeakoulujen välillä Transfer to MSc programmes between engineering schools Akateemisten asioiden komitea Academic Affairs Committee 11 October 2016 Eija Zitting

Lisätiedot

Tarua vai totta: sähkön vähittäismarkkina ei toimi? 11.2.2015 Satu Viljainen Professori, sähkömarkkinat

Tarua vai totta: sähkön vähittäismarkkina ei toimi? 11.2.2015 Satu Viljainen Professori, sähkömarkkinat Tarua vai totta: sähkön vähittäismarkkina ei toimi? 11.2.2015 Satu Viljainen Professori, sähkömarkkinat Esityksen sisältö: 1. EU:n energiapolitiikka on se, joka ei toimi 2. Mihin perustuu väite, etteivät

Lisätiedot

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4) Tilasto T1106120-s2012palaute Kyselyn T1106120+T1106120-s2012palaute yhteenveto: vastauksia (4) Kysymys 1 Degree programme: (4) TIK: TIK 1 25% ************** INF: INF 0 0% EST: EST 0 0% TLT: TLT 0 0% BIO:

Lisätiedot

7.4 Variability management

7.4 Variability management 7.4 Variability management time... space software product-line should support variability in space (different products) support variability in time (maintenance, evolution) 1 Product variation Product

Lisätiedot

Valuation of Asian Quanto- Basket Options

Valuation of Asian Quanto- Basket Options Valuation of Asian Quanto- Basket Options (Final Presentation) 21.11.2011 Thesis Instructor and Supervisor: Prof. Ahti Salo Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta

Lisätiedot

HARJOITUS- PAKETTI A

HARJOITUS- PAKETTI A Logistiikka A35A00310 Tuotantotalouden perusteet HARJOITUS- PAKETTI A (6 pistettä) TUTA 19 Luento 3.Ennustaminen County General 1 piste The number of heart surgeries performed at County General Hospital

Lisätiedot

Capacity utilization

Capacity utilization Mat-2.4142 Seminar on optimization Capacity utilization 12.12.2007 Contents Summary of chapter 14 Related DEA-solver models Illustrative examples Measure of technical capacity utilization Price-based measure

Lisätiedot

AYYE 9/ HOUSING POLICY

AYYE 9/ HOUSING POLICY AYYE 9/12 2.10.2012 HOUSING POLICY Mission for AYY Housing? What do we want to achieve by renting apartments? 1) How many apartments do we need? 2) What kind of apartments do we need? 3) To whom do we

Lisätiedot

Oma sininen meresi (Finnish Edition)

Oma sininen meresi (Finnish Edition) Oma sininen meresi (Finnish Edition) Hannu Pirilä Click here if your download doesn"t start automatically Oma sininen meresi (Finnish Edition) Hannu Pirilä Oma sininen meresi (Finnish Edition) Hannu Pirilä

Lisätiedot

SIMULINK S-funktiot. SIMULINK S-funktiot

SIMULINK S-funktiot. SIMULINK S-funktiot S-funktio on ohjelmointikielellä (Matlab, C, Fortran) laadittu oma algoritmi tai dynaamisen järjestelmän kuvaus, jota voidaan käyttää Simulink-malleissa kuin mitä tahansa valmista lohkoa. S-funktion rakenne

Lisätiedot

Operatioanalyysi 2011, Harjoitus 4, viikko 40

Operatioanalyysi 2011, Harjoitus 4, viikko 40 Operatioanalyysi 2011, Harjoitus 4, viikko 40 H4t1, Exercise 4.2. H4t2, Exercise 4.3. H4t3, Exercise 4.4. H4t4, Exercise 4.5. H4t5, Exercise 4.6. (Exercise 4.2.) 1 4.2. Solve the LP max z = x 1 + 2x 2

Lisätiedot

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II Laskennallinen data-analyysi II Ella Bingham, ella.bingham@cs.helsinki.fi Kevät 2008 Muuttujien valinta Kalvot perustuvat Saara Hyvösen kalvoihin 2007 Laskennallinen data-analyysi II, kevät 2008, Helsingin

Lisätiedot

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana Taustaa KAO mukana FINECVET-hankeessa, jossa pilotoimme ECVETiä

Lisätiedot

FinFamily Installation and importing data (11.1.2016) FinFamily Asennus / Installation

FinFamily Installation and importing data (11.1.2016) FinFamily Asennus / Installation FinFamily Asennus / Installation 1 Sisällys / Contents FinFamily Asennus / Installation... 1 1. Asennus ja tietojen tuonti / Installation and importing data... 4 1.1. Asenna Java / Install Java... 4 1.2.

Lisätiedot

Guidebook for Multicultural TUT Users

Guidebook for Multicultural TUT Users 1 Guidebook for Multicultural TUT Users WORKPLACE PIRKANMAA-hankkeen KESKUSTELUTILAISUUS 16.12.2010 Hyvää käytäntöä kehittämässä - vuorovaikutusopas kansainvälisille opiskelijoille TTY Teknis-taloudellinen

Lisätiedot

C++11 seminaari, kevät Johannes Koskinen

C++11 seminaari, kevät Johannes Koskinen C++11 seminaari, kevät 2012 Johannes Koskinen Sisältö Mikä onkaan ongelma? Standardidraftin luku 29: Atomiset tyypit Muistimalli Rinnakkaisuus On multicore systems, when a thread writes a value to memory,

Lisätiedot

Green Growth Sessio - Millaisilla kansainvälistymismalleilla kasvumarkkinoille?

Green Growth Sessio - Millaisilla kansainvälistymismalleilla kasvumarkkinoille? Green Growth Sessio - Millaisilla kansainvälistymismalleilla kasvumarkkinoille? 10.10.01 Tuomo Suortti Ohjelman päällikkö Riina Antikainen Ohjelman koordinaattori 10/11/01 Tilaisuuden teema Kansainvälistymiseen

Lisätiedot

Operatioanalyysi 2011, Harjoitus 2, viikko 38

Operatioanalyysi 2011, Harjoitus 2, viikko 38 Operatioanalyysi 2011, Harjoitus 2, viikko 38 H2t1, Exercise 1.1. H2t2, Exercise 1.2. H2t3, Exercise 2.3. H2t4, Exercise 2.4. H2t5, Exercise 2.5. (Exercise 1.1.) 1 1.1. Model the following problem mathematically:

Lisätiedot

Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) (www.childrens-books-bilingual.com) (Finnish Edition)

Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) (www.childrens-books-bilingual.com) (Finnish Edition) Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) (www.childrens-books-bilingual.com) (Finnish Edition) Click here if your download doesn"t start automatically

Lisätiedot

Statistical design. Tuomas Selander

Statistical design. Tuomas Selander Statistical design Tuomas Selander 28.8.2014 Introduction Biostatistician Work area KYS-erva KYS, Jyväskylä, Joensuu, Mikkeli, Savonlinna Work tasks Statistical methods, selection and quiding Data analysis

Lisätiedot

epäsuora esitys ilmoittaa jälkikäteen, mitä joku sanoo tai sanoi

epäsuora esitys ilmoittaa jälkikäteen, mitä joku sanoo tai sanoi EPÄSUORA ESITYS epäsuora esitys ilmoittaa jälkikäteen, mitä joku sanoo tai sanoi tyypillisesti epäsuoraa esitystä käytetään viestin välittämiseen, kirjan / lehden tms. selostamiseen, kertomaan mitä joku

Lisätiedot

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku 24.8.2017 Centre for Language and Communication Studies Puhutko suomea? -Hei! -Hei hei! -Moi! -Moi moi! -Terve! -Terve terve!

Lisätiedot

Small Number Counts to 100. Story transcript: English and Blackfoot

Small Number Counts to 100. Story transcript: English and Blackfoot Small Number Counts to 100. Story transcript: English and Blackfoot Small Number is a 5 year-old boy who gets into a lot of mischief. He lives with his Grandma and Grandpa, who patiently put up with his

Lisätiedot

Salasanan vaihto uuteen / How to change password

Salasanan vaihto uuteen / How to change password Salasanan vaihto uuteen / How to change password Sisällys Salasanakäytäntö / Password policy... 2 Salasanan vaihto verkkosivulla / Change password on website... 3 Salasanan vaihto matkapuhelimella / Change

Lisätiedot

EUROOPAN PARLAMENTTI

EUROOPAN PARLAMENTTI EUROOPAN PARLAMENTTI 2004 2009 Kansalaisvapauksien sekä oikeus- ja sisäasioiden valiokunta 2008/0101(CNS) 2.9.2008 TARKISTUKSET 9-12 Mietintöluonnos Luca Romagnoli (PE409.790v01-00) ehdotuksesta neuvoston

Lisätiedot

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine 4.1.2018 Centre for Language and Communication Studies Puhutko suomea? -Hei! -Hei hei! -Moi! -Moi moi! -Terve! -Terve

Lisätiedot

BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT

BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT UNCITRAL EMERGENCE CONFERENCE 13.12.2016 Session I: Emerging Legal Issues in the Commercial Exploitation of Deep Seabed, Space and AI BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT

Lisätiedot

TIETEEN PÄIVÄT OULUSSA 1.-2.9.2015

TIETEEN PÄIVÄT OULUSSA 1.-2.9.2015 1 TIETEEN PÄIVÄT OULUSSA 1.-2.9.2015 Oulun Yliopisto / Tieteen päivät 2015 2 TIETEEN PÄIVÄT Järjestetään Oulussa osana yliopiston avajaisviikon ohjelmaa Tieteen päivät järjestetään saman konseptin mukaisesti

Lisätiedot

Exercise 1. (session: )

Exercise 1. (session: ) EEN-E3001, FUNDAMENTALS IN INDUSTRIAL ENERGY ENGINEERING Exercise 1 (session: 24.1.2017) Problem 3 will be graded. The deadline for the return is on 31.1. at 12:00 am (before the exercise session). You

Lisätiedot

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland Anne Mari Juppo, Nina Katajavuori University of Helsinki Faculty of Pharmacy 23.7.2012 1 Background Pedagogic research

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0

T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0 T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti 25.2.2003, 16:15-18:00 N-grammikielimallit, Versio 1.0 1. Alla on erään henkilön ja tilaston estimaatit sille, miten todennäköistä

Lisätiedot

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä OULUN YLIOPISTO Tietojenkäsittelytieteiden laitos Johdatus ohjelmointiin 811122P (5 op.) 12.12.2005 Ohjelmointikieli on Java. Tentissä saa olla materiaali mukana. Tenttitulokset julkaistaan aikaisintaan

Lisätiedot

The Viking Battle - Part Version: Finnish

The Viking Battle - Part Version: Finnish The Viking Battle - Part 1 015 Version: Finnish Tehtävä 1 Olkoon kokonaisluku, ja olkoon A n joukko A n = { n k k Z, 0 k < n}. Selvitä suurin kokonaisluku M n, jota ei voi kirjoittaa yhden tai useamman

Lisätiedot

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine Information on Finnish Language Courses Spring Semester 2017 Jenni Laine 4.1.2017 KIELIKESKUS LANGUAGE CENTRE Puhutko suomea? Do you speak Finnish? -Hei! -Moi! -Mitä kuuluu? -Kiitos, hyvää. -Entä sinulle?

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Miehittämätön meriliikenne

Miehittämätön meriliikenne Rolls-Royce & Unmanned Shipping Ecosystem Miehittämätön meriliikenne Digimurros 2020+ 17.11. 2016 September 2016 2016 Rolls-Royce plc The 2016 information Rolls-Royce in this plc document is the property

Lisätiedot

HOITAJAN ROOLI TEKNOLOGIAVÄLITTEISESSÄ POTILASOHJAUKSESSA VÄITÖSKIRJATUTKIJA JENNI HUHTASALO

HOITAJAN ROOLI TEKNOLOGIAVÄLITTEISESSÄ POTILASOHJAUKSESSA VÄITÖSKIRJATUTKIJA JENNI HUHTASALO HOITAJAN ROOLI TEKNOLOGIAVÄLITTEISESSÄ POTILASOHJAUKSESSA VÄITÖSKIRJATUTKIJA JENNI HUHTASALO Tutkimusintressit Asiantuntijuus ja teknologia: Hoitajan rooli teknologiavälitteisessä potilasohjauksessa Opettajan

Lisätiedot

Metsälamminkankaan tuulivoimapuiston osayleiskaava

Metsälamminkankaan tuulivoimapuiston osayleiskaava VAALAN KUNTA TUULISAIMAA OY Metsälamminkankaan tuulivoimapuiston osayleiskaava Liite 3. Varjostusmallinnus FCG SUUNNITTELU JA TEKNIIKKA OY 12.5.2015 P25370 SHADOW - Main Result Assumptions for shadow calculations

Lisätiedot

make and make and make ThinkMath 2017

make and make and make ThinkMath 2017 Adding quantities Lukumäärienup yhdistäminen. Laske yhteensä?. Countkuinka howmonta manypalloja ballson there are altogether. and ja make and make and ja make on and ja make ThinkMath 7 on ja on on Vaihdannaisuus

Lisätiedot

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä OULUN YLIOPISTO Tietojenkäsittelytieteiden laitos Johdatus ohjelmointiin 81122P (4 ov.) 30.5.2005 Ohjelmointikieli on Java. Tentissä saa olla materiaali mukana. Tenttitulokset julkaistaan aikaisintaan

Lisätiedot

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ https://community.plm.automation.siemens.com/t5/tech-tips- Knowledge-Base-NX/How-to-simulate-any-G-code-file-in-NX- CAM/ta-p/3340 Koneistusympäristön määrittely

Lisätiedot

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed Online Meeting Guest Online Meeting for Guest Participant Lync Attendee Installation Online kokous vierailevalle osallistujalle Lync Attendee Asennus www.ruukki.com Overview Before you can join to Ruukki

Lisätiedot

Alueellinen yhteistoiminta

Alueellinen yhteistoiminta Alueellinen yhteistoiminta Kokemuksia alueellisesta toiminnasta Tavoitteet ja hyödyt Perusterveydenhuollon yksikön näkökulmasta Matti Rekiaro Ylilääkäri Perusterveydenhuollon ja terveyden edistämisen yksikkö

Lisätiedot

812336A C++ -kielen perusteet, 21.8.2010

812336A C++ -kielen perusteet, 21.8.2010 812336A C++ -kielen perusteet, 21.8.2010 1. Vastaa lyhyesti seuraaviin kysymyksiin (1p kaikista): a) Mitä tarkoittaa funktion ylikuormittaminen (overloading)? b) Mitä tarkoittaa jäsenfunktion ylimääritys

Lisätiedot

CASE POSTI: KEHITYKSEN KÄRJESSÄ TALOUDEN SUUNNITTELUSSA KETTERÄSTI PALA KERRALLAAN

CASE POSTI: KEHITYKSEN KÄRJESSÄ TALOUDEN SUUNNITTELUSSA KETTERÄSTI PALA KERRALLAAN POSTI GROUP CASE POSTI: KEHITYKSEN KÄRJESSÄ TALOUDEN SUUNNITTELUSSA KETTERÄSTI PALA KERRALLAAN TIINA KATTILAKOSKI POSTIN TALOUDEN SUUNNITTELU Mistä lähdettiin liikkeelle? Ennustaminen painottui vuosisuunnitteluun

Lisätiedot

Travel Getting Around

Travel Getting Around - Location Olen eksyksissä. Not knowing where you are Voisitko näyttää kartalta missä sen on? Asking for a specific location on a map Mistä täällä on? Asking for a specific...wc?...pankki / rahanvaihtopiste?...hotelli?...huoltoasema?...sairaala?...apteekki?...tavaratalo?...ruokakauppa?...bussipysäkki?

Lisätiedot

Kvanttilaskenta - 1. tehtävät

Kvanttilaskenta - 1. tehtävät Kvanttilaskenta -. tehtävät Johannes Verwijnen January 9, 0 edx-tehtävät Vastauksissa on käytetty edx-kurssin materiaalia.. Problem False, sillä 0 0. Problem False, sillä 0 0 0 0. Problem A quantum state

Lisätiedot

OP1. PreDP StudyPlan

OP1. PreDP StudyPlan OP1 PreDP StudyPlan PreDP The preparatory year classes are in accordance with the Finnish national curriculum, with the distinction that most of the compulsory courses are taught in English to familiarize

Lisätiedot

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ Puhe ja kieli, 27:4, 141 147 (2007) 3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ Soile Loukusa, Oulun yliopisto, suomen kielen, informaatiotutkimuksen ja logopedian laitos & University

Lisätiedot

WindPRO version joulu 2012 Printed/Page :47 / 1. SHADOW - Main Result

WindPRO version joulu 2012 Printed/Page :47 / 1. SHADOW - Main Result SHADOW - Main Result Assumptions for shadow calculations Maximum distance for influence Calculate only when more than 20 % of sun is covered by the blade Please look in WTG table WindPRO version 2.8.579

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1 T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti 24.2.2004, 8:30-0:00 N-grammikielimallit, Versio.. Alla on erään henkilön ja tilaston estimaatit sille, miten todennäköistä on, että

Lisätiedot

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG SHADOW - Main Result Calculation: N117 x 9 x HH141 Assumptions for shadow calculations Maximum distance for influence Calculate only when more than 20 % of sun is covered by the blade Please look in WTG

Lisätiedot

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145 OX2 9 x N131 x HH145 Rakennuskanta Asuinrakennus Lomarakennus Liike- tai julkinen rakennus Teollinen rakennus Kirkko tai kirkollinen rak. Muu rakennus Allas Varjostus 1 h/a 8 h/a 20 h/a 0 0,5 1 1,5 2 km

Lisätiedot

MEETING PEOPLE COMMUNICATIVE QUESTIONS

MEETING PEOPLE COMMUNICATIVE QUESTIONS Tiistilän koulu English Grades 7-9 Heikki Raevaara MEETING PEOPLE COMMUNICATIVE QUESTIONS Meeting People Hello! Hi! Good morning! Good afternoon! How do you do? Nice to meet you. / Pleased to meet you.

Lisätiedot

WindPRO version joulu 2012 Printed/Page :42 / 1. SHADOW - Main Result

WindPRO version joulu 2012 Printed/Page :42 / 1. SHADOW - Main Result SHADOW - Main Result Assumptions for shadow calculations Maximum distance for influence Calculate only when more than 20 % of sun is covered by the blade Please look in WTG table 13.6.2013 19:42 / 1 Minimum

Lisätiedot

Transport climate policy choices in the Helsinki Metropolitan Area 2025

Transport climate policy choices in the Helsinki Metropolitan Area 2025 Transport climate policy choices in the Helsinki Metropolitan Area 2025 views of transport officials and politicians Vilja Varho Introduction Experts have doubts about whether sufficiently effective policies

Lisätiedot

Tynnyrivaara, OX2 Tuulivoimahanke. ( Layout 9 x N131 x HH145. Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a

Tynnyrivaara, OX2 Tuulivoimahanke. ( Layout 9 x N131 x HH145. Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a , Tuulivoimahanke Layout 9 x N131 x HH145 Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a 0 0,5 1 1,5 km 2 SHADOW - Main Result Assumptions for shadow calculations

Lisätiedot

Skene. Games Refueled. Muokkaa perustyyl. napsautt. @Games for Health, Kuopio. 2013 kari.korhonen@tekes.fi. www.tekes.fi/skene

Skene. Games Refueled. Muokkaa perustyyl. napsautt. @Games for Health, Kuopio. 2013 kari.korhonen@tekes.fi. www.tekes.fi/skene Skene Muokkaa perustyyl. Games Refueled napsautt. @Games for Health, Kuopio Muokkaa alaotsikon perustyyliä napsautt. 2013 kari.korhonen@tekes.fi www.tekes.fi/skene 10.9.201 3 Muokkaa Skene boosts perustyyl.

Lisätiedot

S Sähkön jakelu ja markkinat S Electricity Distribution and Markets

S Sähkön jakelu ja markkinat S Electricity Distribution and Markets S-18.3153 Sähkön jakelu ja markkinat S-18.3154 Electricity Distribution and Markets Voltage Sag 1) Kolmivaiheinen vastukseton oikosulku tapahtuu 20 kv lähdöllä etäisyydellä 1 km, 3 km, 5 km, 8 km, 10 km

Lisätiedot

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG SHADOW - Main Result Assumptions for shadow calculations Maximum distance for influence Calculate only when more than 20 % of sun is covered by the blade Please look in WTG table WindPRO version 2.9.269

Lisätiedot

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto If you are searched for a book by Miikka Poikselkä;Harri Holma;Jukka Hongisto Voice over LTE (VoLTE) in pdf form, then you have come

Lisätiedot

Sisällysluettelo Table of contents

Sisällysluettelo Table of contents Sisällysluettelo Table of contents OTC:n Moodlen käyttöohje suomeksi... 1 Kirjautuminen Moodleen... 2 Ensimmäinen kirjautuminen Moodleen... 2 Salasanan vaihto... 2 Oma käyttäjäprofiili... 3 Työskentely

Lisätiedot

Käyttöliittymät II. Käyttöliittymät I Kertaus peruskurssilta. Keskeisin kälikurssilla opittu asia?

Käyttöliittymät II. Käyttöliittymät I Kertaus peruskurssilta. Keskeisin kälikurssilla opittu asia? Käyttöliittymät II Sari A. Laakso Käyttöliittymät I Kertaus peruskurssilta Keskeisin kälikurssilla opittu asia? 1 Käyttöliittymät II Kurssin sisältö Käli I Käyttötilanteita Käli II Käyttötilanteet selvitetään

Lisätiedot

FIS IMATRAN KYLPYLÄHIIHDOT Team captains meeting

FIS IMATRAN KYLPYLÄHIIHDOT Team captains meeting FIS IMATRAN KYLPYLÄHIIHDOT 8.-9.12.2018 Team captains meeting 8.12.2018 Agenda 1 Opening of the meeting 2 Presence 3 Organizer s personell 4 Jury 5 Weather forecast 6 Composition of competitors startlists

Lisätiedot

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site Note! Before starting download and install a fresh version of OfficeProfessionalPlus_x64_en-us. The instructions are in the beginning of the exercise.

Lisätiedot

MUSEOT KULTTUURIPALVELUINA

MUSEOT KULTTUURIPALVELUINA Elina Arola MUSEOT KULTTUURIPALVELUINA Tutkimuskohteena Mikkelin museot Opinnäytetyö Kulttuuripalvelujen koulutusohjelma Marraskuu 2005 KUVAILULEHTI Opinnäytetyön päivämäärä 25.11.2005 Tekijä(t) Elina

Lisätiedot

( ,5 1 1,5 2 km

( ,5 1 1,5 2 km Tuulivoimala Rakennukset Asuinrakennus Liikerak. tai Julkinen rak. Lomarakennus Teollinen rakennus Kirkollinen rakennus Varjostus "real case" h/a 1 h/a 8 h/a 20 h/a 4 5 3 1 2 6 7 8 9 10 0 0,5 1 1,5 2 km

Lisätiedot

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG SHADOW - Main Result Assumptions for shadow calculations Maximum distance for influence Calculate only when more than 20 % of sun is covered by the blade Please look in WTG table 5.11.2013 16:44 / 1 Minimum

Lisätiedot

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG SHADOW - Main Result Assumptions for shadow calculations Maximum distance for influence Calculate only when more than 20 % of sun is covered by the blade Please look in WTG table WindPRO version 2.8.579

Lisätiedot

S-55.1100 SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

S-55.1100 SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA S-55.00 SÄHKÖKNKKA A KONKKA. välikoe 2..2008. Saat vastata vain neljään tehtävään!. aske jännite U. = 4 Ω, 2 = Ω, = Ω, = 2, 2 =, = A, 2 = U 2 2 2 2. ännitelähde tuottaa hetkestä t = t < 0 alkaen kaksiportaisen

Lisätiedot

7. Product-line architectures

7. Product-line architectures 7. Product-line architectures 7.1 Introduction 7.2 Product-line basics 7.3 Layered style for product-lines 7.4 Variability management 7.5 Benefits and problems with product-lines 1 Short history of software

Lisätiedot

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG SHADOW - Main Result Assumptions for shadow calculations Maximum distance for influence Calculate only when more than 20 % of sun is covered by the blade Please look in WTG table WindPRO version 2.8.579

Lisätiedot