14. Haku sisällön perusteella Johdanto

Koko: px
Aloita esitys sivulta:

Download "14. Haku sisällön perusteella 14.1. Johdanto"

Transkriptio

1 4. Haku sisällön perusteella 4.. Johdanto Tietokantojen yhteydessä perinteinen kyselyn käsite on hyvin määritelty. Tiedonlouhinnassa on kyse edellistä yleisimmistä, mutta vähemmän täsmällisistä kyselyistä. Olkoon esimerkkinä lääketieteellinen data, jossa on potilastietoa, kuten demografista (ikä, sukupuoli jne.), verikokeiden tuloksia ja muita fysiologisia testituloksia sekä biolääketieteellisiä aikasarjoja ja röntgenkuvia. Lääkäriä kiinnostaisi tietää, sisältääkö sairaalan tietokanta ketään samankaltaista potilasta ja myönteisessä tapauksessa tämän diagnoosit, hoidot ja tulokset. Ongelman vaikea osa on määritellä samanlaisuus potilaiden joukossa eri datatyyppeihin pohjautuen (tässä monimuuttujaiset, aikasarjat ja kuvadata). Tarkan täsmäyksen käsite on tällöin jokseenkin epätarkoituksenmukainen, koska on sangen epätodennäköistä, että olisi toista täsmälleen samanlaista potilasta käytettyjen mittausten suhteen. 4. luku 580 Tarkastellaan em. kaltaisia ongelmia ja varsinkin niihin liittyen teknisiä ongelmia, joihin on vastattava kyselyiden mahdollistamiseksi yleismuotoisista datajoukoista: Etsi datajoukosta k kohdetta, jotka ovat samanlaisimmat määrätyn kyselyn tai kohteen kanssa. Esimerkkejä voivat olla: Satelliittikuvatietokannasta etsitään maasta kuvia, jotka sisältävät todisteita tulivuorenpurkauksista Keski Amerikassa. Etsitään tietoverkosta dokumentteja, jotka käsittelevät tietoa Tampereen ravintoloista. 4. luku 58 Tällaista hakumuotoa pidetään vuorovaikutteisena tiedonlouhintana, koska käyttäjä vaikuttaa suoraan datan tutkimiseen määrittämällä kyselyjä ja tulkitsemalla tuloksia prosessin kuluessa. Tämä on vastakohtainen tilanne verrattuna moniin ennustavan ja kuvaavan tiedonlouhinnan tehtäviin. Tavallisesti on esimerkkitapaus sille, mitä pyritään etsimään, kyselyhahmo Q. Siitä johdetaan, mitkä tietokannan muut kohteet ovat samanlaisimmat sen kanssa. Lähestymistapa tunnetaan hakuna sisällön perusteella. Tunnetuin sovellus on tekstihaku. Kyselyhahmo Q on yleensä suppea (kyselysanojen lista) ja se täsmätään suuren dokumenttien joukon kanssa. 4. luku 582 Keskitytään lähinnä tekstidokumentteihin, koska tämä on tunnetuin ja kypsin sovellusalue. Yleisen ongelman voidaan ymmärtää käsittävän kolme peruskomponenttia: miten määritellään kohteiden välinen samanlaisuusmitta, miten toteutetaan laskennallisesti tehokas hakualgoritmi (tunnettaessa samanlaisuusmitta) ja miten sisällytetään käyttäjän palaute ja vuorovaikutus hakuprosessiin. Pohditaan pääasiassa ensimmäistä ja kolmatta kysymystä; toista tarkasteltiin luvussa luku 583

2 Haku sisällön perusteella nojautuu voimakkaasti samanlaisuuden tai sen vastakohdan etäisyyden käsitteeseen. Luvussa 2 käsiteltiin erilaisia etäisyyksiä. Näistä on hyvä huomata, esim. euklidisesta, että kysymys on matemaattisista etäisyysfunktioista, jotka eivät välttämättä vastaa intuitiota samanlaisuudesta ihmisen näkökulmasta. Esim. tekstidokumenttien yhteydessä semanttinen sisältö voi olla merkittävä. 4. luku Hakujärjestelmien arviointi Haun tehokkuuden arvioinnin vaikeus Luokittelussa ja regressiossa mallin suorituskykyä voidaan aina arvioida objektiivisesti estimoimalla sen tarkkuutta kokeellisesti. Haussa sisällön perusteella suorituskykyarvioinnin ongelma on vaikeampi. Perimmäinen vaikeus on se, että hakusysteemin hyvyys määrätään haetun informaation hyödyllisyydellä. Sovelluksissa tällainen mitta on luonteeltaan subjektiivinen. Haku on käyttäjäkeskeistä ja vuorovaikutteista, mikä tekee suorituskykyarvioinnista vaikeaa. Joitakin melko objektiivisia menetelmiä voidaan arviointia varten kuitenkin antaa tehtäessä ensin muutama yksinkertaistus. Oletetaan, että jokaiselle kyselylle on olemassa tieto (binääri luokitteluarvo), mikä kohde on relevantti kyseiselle kyselylle. Käytännön kannalta tällainen arvo on luonnollisesti yksinkertaistus, sekä arvon binäärisyys että oletus sen olemassaolosta jokaiselle tapaukselle. 4. luku Täsmällisyys vastaan palautus Arvioidaan jonkin hakualgoritmin suorituskykyä määrätyn kyselyn Q tilanteessa riippumattomalla datajoukolla. Tämän kohteet on luokiteltu etukäteen joko relevanteiksi tai epärelevanteiksi kyselyn Q suhteen. Oletetaan luonnollisesti, että testidataa ei ole käytetty hakualgoritmin suorituskyvyn säätämiseen. Voidaan siis ajatella algoritmin yksinkertaisesti luokittelevan kohteet kyselyn Q suhteen, jolloin todelliset luokka arvot ovat tietysti piilossa algoritmilta, mutta ovat käytettävissä testitulosten arvioimiseksi tavanomainen testaustilanne. Jos algoritmi käyttää etäisyysmittaa (kohteen ja kyselyn välillä) arvioidakseen joukon kohteet, se parametrisoidaan tavallisesti kynnysarvolla T. Algoritmi palauttaa K T lajiteltua kohdetta, jotka ovat lähempänä kuin kynnysarvon T verran kyselyä Q. 4. luku 586 Kynnysarvon muuttaminen mahdollistaa algoritmin suorituskyvyn muuttamisen. Kynnysarvon ollessa matala, luokitellaan kohteita säästeliäästi relevanteiksi, mutta joitakin ehkä relevantteja saatetaan menettää. Sen ollessa korkea palautetaan enemmän kohteita, mutta mahdollisuus kasvaa, että ne eivät ehkä ole relevantteja. Olkoon datajoukossa N kohdetta, ja hakualgoritmi palauttaa K T mahdollisesti relevanttia. Algoritmin suorituskyky on ilmaistavissa taulukon 4.. mukaisesti, jossa N = TP + FP + FN + TN on kohteiden kokonaismäärä, TP + FP = K T on algoritmin hakemien kohteiden määrä ja TP + FN on relevanteiksi leimattujen kohteiden määrä. Täsmällisyys (precision) määritellään niiden kohteiden osuutena haetuista, jotka ovat oikeasti relevantteja, ts. TP / (TP + FP). Palautus (recall) määritellään haettujen oikeasti relevanttien osuutena kaikista datajoukon relevanteista kohteista, ts. TP / (TP + FN). Näille käsitteille on olemassa muitakin nimikkeitä, mutta näitä käytetään tässä yhteydessä. 4. luku 587

3 todellisuus: relevantti todellisuus: epärelevantti algoritmi: relevantti algoritmi: epärelevantti TP FN Taulukko 4.. Kaavakuva neljästä mahdollisesta tuloksesta haulle, jossa dokumentteja nimetään relevanteiksi tai epärelevanteiksi kyselyn Q suhteen. Sarakkeet vastaavat todellista tilannetta ja rivit algoritmin päättelyä. Lyhenteet TP, FP, FN ja TN viittaavat oikeaan positiiviseen, väärään positiiviseen, väärään negatiiviseen ja oikeaan negatiiviseen päättelyyn. Täysin oikein toimiva algoritmi tuottaisi tuloksen halkaisijalta, jolloin olisi FP = FN = 0. FP TN Näiden kahden käsitteen välillä on vastakkainen vaikutus. Kun saatujen kohteiden lukumäärää K T nostetaan nostamalla kynnysarvoa, palautusarvon voidaan odottaa kasvavan (enimmillään tietysti ), kun taas täsmällisyysarvon voidaan odottaa vähenevän. Ajettaessa hakualgoritmia eri kynnysarvoilla T saadaan palautus ja täsmällisyysarvopareja. Nämä kuvataan käytännössä, ei yhden kyselyn suhteen, vaan keskimääräisenä suorituskykynä kyselyjen joukon suhteen (esim. kuva 4..). Tämä vastaa suoraan nk. ROC kuvausta (receiver operating characteristic), tosin akselit on nimetty eri tavoin. 4. luku luku täsmällisyys algoritmi C algoritmi A algoritmi B palautus Kuva 4.. Kuvitteellinen esimerkki täsmällisyys palautuskäyristä kolmen hypoteettisen algoritmin tapauksessa. Algoritmilla A on suurimmat täsmällisyysarvot muihin verrattuna pienillä palautusarvoilla, kun taas algoritmilla B on suurimmat täsmällisyysarvot suurilla palautusarvoilla. Algoritmi C on yleisesti huonompi kuin muut. Käyrät ovat tyypillisiä tekstidokumenttialgoritmien tapauksessa, missä 50 % täsmällisyys ja palautusarvo sattuvat algoritmille B. 4. luku Tekstihaku Tekstipohjainen informaation etsiminen on perinteisesti nimetty informaationhauksi (IR, information retrieval), ja se on käynyt entistäkin tärkeämmäksi tietoverkkojen ja näissä hakukoneiden tulon jälkeen. Tekstin katsotaan koostuvan kahdesta perusyksiköstä, nimittäin dokumentista ja termistä. Edellinen mielletään sekä perinteiseksi kirjaksi tai lehtiartikkeliksi että yleisemmin miksi tahansa rakenteiseksi tekstisegmentiksi, jossa on lukuja, osia, kappaleita, tai jopa sähköpostiviestiksi, wwwsivuksi, ohjelman lähdekoodiksi jne. Termi voi olla sana, sanapari tai fraasi dokumentissa, esim. tieto tai tiedonlouhinta. Tekstikyselyt ymmärretään informaationhaussa termien joukkona. Vaikka dokumentit ovat kyselyjä paljon pitempiä, voidaan molemmat mieltää ja esittää yksikköinä, joiden välinen etäisyys lasketaan. 4. luku 59

4 4.3.. Tekstin esitysmuotoja Merkittävissä määrin on tutkittu dokumenttien yleisiä esitysmuotoja, jotka tukevat kykyä säilyttää mahdollisimman paljon semanttista sisältöä datasta ja etäisyysmittojen laskentaa kyselyjen ja dokumenttien välillä tehokkaalla tavalla. Informaationhaussa ei lähdetä liikkeelle semantiikan käsittelystä tekoälyn tässä keskeisen alueen, luonnollisen kielen ymmärtämisen valossa, koska siinä törmättäisiin vaikeisiin kysymyksiin esim. homonyymeistä (samalla sanalla eri merkityksiä) ja synonyymeistä (eri sanoja saman käsitteen ilmaisemiseksi). Sitä vastoin tarkastellaan yksinkertaisia termien täsmäyksiä ja esiintymiä. 4. luku 592 Dokumentin sisältö kuvataan tavallaan termien esiintymismääriä esittävällä vektorilla. Oletetaan, että on etukäteen määrätty termien t j joukko, j =,,T, hakua varten. Joukon koko voi olla melko suuri (esim. T = termiä). Jokainen yksittäinen dokumentti D i, i =,, N, esitetään termivektorina D i = (d i, d i2,, d it ), missä d ij edustaa jotakin informaatiota j:nnen termin esiintymästä i:nnessä dokumentissa. Yksittäiset arvot d ij ovat termien painoarvoja (termivektorin komponentteja). Boolen esityksenä painoarvot ilmaisevat, esiintykö vai ei määrätyt termit dokumentissa (d ij =, jos esiintyy, ja d ij = 0, jos ei). Reaaliarvoisina ne voivat merkitä termien esiintymismääriä tai suhteellisia frekvenssejä dokumenteissa. 4. luku Kyselyjen ja dokumenttien täsmääminen Useimpia luvussa 2 esitettyjä etäisyysmittoja voidaan käyttää dokumenttienkin yhteydessä. Yksi laajasti sovellettu mitta tässä yhteydessä on kosinietäisyys, jossa kosinimitta d c vähennetään :stä. T dikd jk d (, ) = k= c Di D j. T T 2 2 d ik d jk k= k= Tämä on kahden vektorin välisen kulman kosini (ekvivalentisti niiden välinen pistetulo, kun vektorit on normoitu yksikkövektorin pituisiksi). Se kuvastaa samanlaisuutta termikomponenttien suhteellisen jakauman mielessä. Kysely on esitettävissä loogisena Boolen funktiona soveltuvalle termien osajoukolle. Tyypillinen kysely voisi olla data AND mining AND NOT(coal). Perushaku käsittää tällöin käänteistiedoston selaamisen dokumenttien löytämiseksi, jotka tarkasti täsmäävät kyselyn kanssa. Perustilanteeseen voidaan lisätä mm. painokertoimia osoittamaan joidenkin termien suhteellista tärkeyttä. Boolen esityksen puutteena on, ettei se mahdollista semantiikkaa käsitteelle etäisyys kyselyjen ja dokumenttien välille ja täten dokumenttien asettamista arvojärjestykseen niiden relevanttiuden suhteen. Toisinaan on myös vaikeaa esittää Boolen kyselyinä käyttäjän (ihmisen) esittämiä kysymyksiä. 4. luku luku 595

5 Vektoriavaruusesityksessä kysely ilmaistaan painoarvojen vektorina. Ne termit, jotka eivät esiinny kyselyssä, määrätään implisiittisesti nolliksi. Yksinkertaisin kyselymuoto asettaa yksikköpainon jokaiselle kyselyn termille. Käyttäjä voi antaa yleisemmän, termin suhteellisen tärkeyden osoittavan arvon (tyypillisesti väliltä [0,]). Käytännössä näiden asettaminen voi olla hankalaa, joten on muodostettu laskennallisia keinoja sellaisten arvojen asettamiseksi (esim. relevanssipalaute). Olkoon d ik painoarvo (komponentti), k =,,T, dokumentissa D i. Informaationhaussa on käytetty useita erilaisia (ad hoc) menettelyjä määrätä painoarvot niin, että relevantit dokumentit saisivat korkeamman sijan arvojärjestyksessä kuin epärelevantit. Boolen arvon käyttäminen dokumentissa esiintyvälle termille on taipuvainen suosimaan laajoja dokumentteja (relevanttien asemesta) yksinkertaisesti, koska laajat dokumentit todennäköisemmin sisältävät kyseisen termin. 4. luku 596 Eräs painoarvojen laskentatapa on osoittautunut erityisen hyväksi. Kyse on TF IDF painoarvoista, joissa TF tarkoittaa termin frekvenssiä, so. jokainen termivektorin komponentti kerrotaan termin esiintymisfrekvenssillä dokumentissa. Tämä lisää usein esiintyvien termien painoarvoa. Toisaalta, jos jokin termi esiintyy usein monessa dokumentissa, TF painoarvoilla saattaa olla vähän erottelukykyä haussa, ts. se kasvattaa palautusta, mutta saattaa aiheuttaa huonon täsmällisyyden. Käänteinen dokumenttifrekvenssi (IDF) painoarvo parantaa erottelukykyä. Se määritellään arvona log(n/n j ) eli termin j sisältävien dokumenttien (n j ) osuuden käänteisluvun logaritmina koko dokumenttijoukkoon N nähden. IDF painoarvot suosivat termejä, jotka esiintyvät melko harvoissa dokumenteissa, ts. sillä on erottelukykyä. Logaritmista IDF painoarvoa käytettäessä pelkän IDF:n asemesta tekee siitä epäherkän dokumenttien lukumäärälle N. 4. luku Automaattiset suosittelijajärjestelmät 4.5. Dokumenttien ja tekstin luokittelu Yhden käyttäjän mieltymysten mallintamisen sijasta voidaan yleistää tilanteeseen, missä tietokannassa on informaatiota useiden käyttäjien kiinnostuksesta suureen määrään kohteita. Yhteissuodatuksen menetelmä on yksinkertainen lähestymistapa. Olkoon esimerkkinä sovellus, jossa käyttäjä haluaa ostaa määrätyn musiikkityypin CD levyn tietoverkon kautta. Mahdollisesti lukuisat muut käyttäjät ovat ostaneet saman CD levyn ja on todennäköistä, että ainakin osalla heistä on samanlainen musiikkimaku. Tätä voidaan yleistää eri suuntiin. Pidetään käyttäjien kiinnostuksen kohteista ja ostoista vektoriesitystä yllä. Tällaisten välillä lasketaan sitten etäisyyksiä samanlaisuusmetriikoilla. Vertailemalla näiden tuloksia suosittelija algoritmi voi esittää suosituksia mahdollisesti käyttäjää kiinnostavista kohteista. Koska termivektorit ovat tavallisesti hyvin suuridimensioisia (esim termiä tai enemmän), luokittelumenetelminä tulevat kyseeseen pääasiassa valintamenetelmät. Luokittelupuut eivät ole tällöin tarpeeksi informatiivisia, puhumattakaan monikerroksisista perseptron neuroverkoista, jotka eivät ole käytännössä mahdollisiakaan suoritettaviksi niin suurille dimensioille. Bayesin luokittelijat tai erinäiset painoarvojen lineaarikombinaatiot toimivat melko hyvin dokumenttiesityksille, koska ne voivat yhdistää tietoa monesta piirteestä suhteellisen yksinkertaisella (lineaarilla) tavalla. 4. luku luku 599

6 4.6. Kuvanhaku Kuvien ymmärtäminen Kuva ja videodatan merkitys on kasvanut viime aikoina merkittävästi. Haku sellaisen datan yhteydessä on monesti erityisen hyödyllistä. Esim. voidaan tutkia lääketieteessä radiologisten kuvien samanlaisuutta. Ihminen oppii hämmästyttävän hyvin erottamaan ja muistamaankin kuvia. Algoritmisesti tämä on erittäin vaikea ongelma, mikä on todettu usean vuosikymmenen tutkimuksissa hahmontunnistuksessa ja konenäössä. Niinpä useimmat menetelmät perustuvat melko matalantason visuaalisiin vihjeisiin Kuvanesitysmuodot Alkuperäinen pikselidata voidaan abstrahoida piirre esityksiksi hakutarkoituksia varten. Piirteet esitetään primitiivien suhteen. Näitä ovat väri ja tekstuuripiirteet. Kuten dokumenteilla, alkuperäiset kuvat muunnetaan standardimaisempaan muotoon datamatriiseiksi, joissa rivit (kohteet) esittävät kuvia ja sarakkeet (muuttujat) kuvien piirteitä. Tällainen esitysmuoto on yleensä paljon epäherkempi skaalaukselle ja siirroille kuin välittömät pikseliesitykset. Toisaalta ne saattavat olla vain vähäisissä määrin invariantteja valon, varjon, katsomissuunnan jne. suhteen. Yleensä kuvien piirteet lasketaan ja talletetaan etukäteen kuvatietokantaan hakuja varten. Etäisyyslaskenta voidaan sitten suorittaa näiden piirreavaruuksien suhteen. Kuvien piirredata talletetaan näin N d datamatriisiin, jossa kukin kuva on esitetty d dimensioisena piirrevektorina. 4. luku luku Kuvakyselyt Tekstidatan tapaan kuvien abstraktin esityksen luonne (lasketut piirteet) määräävät olennaisesti, mitä kysely ja hakutyyppejä voidaan suorittaa. Kyselyt voivat olla kahdentyyppisiä. Kyselyssä esimerkin mukaan annetaan esimerkkikuva tai luonnos kiinnostavan kohteen muodoista. Piirteet lasketaan sitten näistä ja etsitään piirteiden avulla täsmääviä kuvia tietokannasta. Vaihtoehtoisesti kysely voidaan esittää suoraan piirreesityksenä. Esim. etsitään kuvia, joilla on 50 % alastaan punaista väriä ja jotka sisältävät määrätyntyyppistä tekstuuria. Tällöin vain piirteiden osajoukkoa on käytetty kyselyssä, joten vastaavia muuttujia on käytettävä etäisyyslaskennassakin. Piirrevektoreiden käyttö kuvilla on melko samantapaista kuin tekstihaussa. Nyt hyödynnetään kuitenkin usein reaaliarvoisia muuttujia. 4. luku Aikasarjat ja sekvenssien haku Hahmojen tehokas löytäminen aikasarjoista ja sekvenssidatasta on lukuisissa yhteyksissä tarpeellista, mutta vaikea ongelma. Esimerkkejä ovat asiakkaiden etsiminen, joiden kulutustottumukset ovat samanlaisia annetun ajan mittaan, samanlaisten epätyypillisten sensorisignaalien tapahtumien reaaliaikainen seuranta ja vikadiagnostiikka esim. lentokoneessa ja kohinainen (häiriöitä sisältävä) täsmäys proteiinisekvenssien osajonoista. Sekvenssidata voi olla yksidimensioista tai kaksidimensioista (kuvadataa). Aikasarjoissa dataa on mitattu ajan suhteen, jolloin jokainen havainto on indeksoitu aikamuuttujan t suhteen. Yleensä näytteiden välillä on vakiomittainen aikaintervalli, jolloin voidaan aika määrittää kokonaisluvuilla väliltä [,T]. Kukin mittaus voi olla myös monimuuttujainen. Sovellusaloja on lukemattomia, kuten talous, lääke, luonnon ja teknisistä tieteistä. Sekvenssidatan käsite on yleisempi kuin aikasarjojen riippuessaan muusta kuin ajasta. Esim. molekyylibiologiassa proteiineja indeksoidaan paikan mukaan sekvensseihin. 4. luku 603

7 Perinteinen aikasarjamallintaminen perustuu globaaleihin lineaareihin malleihin. Esimerkkinä on Box Jenkinsin autoregressiiviset mallit, joissa nykyinen arvo y(t) mallinnetaan aiempien arvojen y(t k) painotetulla lineaarikombinaatiolla sekä lisätyllä kohinalla seuraavasti y( t) = k αi y( t i) + e( t), i= missä α:t i ovat painokertoimia ja e(t) kohina (tavallisesti oletettu nollakeskiarvoisena normaalijakautuneeksi) ajanhetkellä t. Käsite autoregressio tulee regressiomenetelmän käytöstä saman muuttujan aiemmille arvoille. Luvun tekniikat soveltuvat parametrien α i estimointiin. Mallirakenteen (arvon k) määrääminen perustuu mm. ristiinvalidointiin. Tätä voidaan yleistää käyttäen epälineaarisuutta (g(.)) hyväksi muodolla k y( t) = g i y( t i) α + e( t). i= 4. luku 604

1.Kuvauksen lähtöaineisto

1.Kuvauksen lähtöaineisto 1.Kuvauksen lähtöaineisto 1 Tieteen tehtävänä on uuden tiedon hankkiminen. Käyttäytymistieteet tutkivat elollisten olioiden käyttäytymistä voidakseen ymmärtää sitä tai ainakin löytääkseen siitä säännönmukaisuuksia;

Lisätiedot

Opas toimintakyvyn mittarin arviointiin TOIMIA-verkostossa (1.0) 1.6.2014

Opas toimintakyvyn mittarin arviointiin TOIMIA-verkostossa (1.0) 1.6.2014 Opas toimintakyvyn mittarin arviointiin TOIMIA-verkostossa (1.0) 1.6.2014 Kirjoittajat: Heli Valkeinen, Erikoistutkija, TtT, Terveyden ja hyvinvoinninlaitos Heidi Anttila, Erikoistutkija, TtT, Terveyden

Lisätiedot

Tieto, totuus, tiede (2004)

Tieto, totuus, tiede (2004) 1 Tieto, totuus, tiede (2004) Keskustelijat: Eero Byckling Viljo Martikainen Heikki Mäntylä Jyrki Rossi Jyrki Tyrkkö 2.1.2004 Heikki Mäntylä Hyvät Luonnonfilosofit, Joululoman jälkeen on syytä palata taas

Lisätiedot

Y100 kurssimateriaali

Y100 kurssimateriaali Y kurssimateriaali Syksy Jokke Häsä ja Jaakko Kortesharju Sisältö Johdanto 4 Reaaliarvoiset funktiot 5. Funktio.................................... 5. Yhdistetty funktio.............................. 7.3

Lisätiedot

Aki Taanila MÄÄRÄLLISEN AINEISTON KERÄÄMINEN

Aki Taanila MÄÄRÄLLISEN AINEISTON KERÄÄMINEN Aki Taanila MÄÄRÄLLISEN AINEISTON KERÄÄMINEN 19.5.2014 SISÄLLYS 0 JOHDANTO... 1 1 LAADULLINEN VAI MÄÄRÄLLINEN?... 2 2 TUTKIMUSPROSESSI... 3 2.1 Suunnittelu... 3 2.2 Toteutus... 5 3 EI-KOKEELLINEN TUTKIMUSASETELMA...

Lisätiedot

DISKREETTI MATEMATIIKKA

DISKREETTI MATEMATIIKKA DISKREETTI MATEMATIIKKA 1 2 DISKREETTI MATEMATIIKKA Sisällysluettelo 1. Relaatio ja funktio 3 1.1. Karteesinen tulo 3 1.2. Relaatio ja funktio 3 2. Kombinatoriikkaa 8 2.1. Tulo- ja summaperiaate 9 2.2.

Lisätiedot

Lukiotason matematiikan tietosanakirja

Lukiotason matematiikan tietosanakirja niinkuin matematiikka Simo K. Kivelä Lukiotason matematiikan tietosanakirja Versio 1.12 / 10.08.2000 Simo K. Kivelä Riikka Nurmiainen TKK 1998 2005 Taustat 1/1 Lukiotason matematiikan tietosanakirja M

Lisätiedot

Tieto tietojenkäsittelytieteessä

Tieto tietojenkäsittelytieteessä Tieto tietojenkäsittelytieteessä Jesse Hauninen 14.4.2008 Joensuun yliopisto Tietojenkäsittelytieteen ja tilastotieteen laitos Pro gradu -tutkielma Tiivistelmä Tiedosta kuulee puhuttavan jatkuvasti. Yhteiskunnan

Lisätiedot

Kustannus-hyötyanalyysi julkisessa päätöksenteossa: esimerkkinä alueellistamisen arviointi. Heikki Pursiainen

Kustannus-hyötyanalyysi julkisessa päätöksenteossa: esimerkkinä alueellistamisen arviointi. Heikki Pursiainen Kansantaloudellinen aikakauskirja 110. vsk. 2/2014 Kustannus-hyötyanalyysi julkisessa päätöksenteossa: esimerkkinä alueellistamisen arviointi Heikki Pursiainen Poliittisen päätöksenteon taustalla olevat

Lisätiedot

Hanna Vilkka Tutki ja mittaa Määrällisen tutkimuksen perusteet

Hanna Vilkka Tutki ja mittaa Määrällisen tutkimuksen perusteet Hanna Vilkka Tutki ja mittaa Määrällisen tutkimuksen perusteet Kustannusosakeyhtiö Tammi Helsinki Copyright sivu Sisällys 3 Sisällys JOHDANTO...7 OSA I Määrällisen tutkimuksen suunnittelu ja aineiston

Lisätiedot

Kaikki mitä olet aina halunnut tietää pumppauslemmoista, mutta mitä et ole kehdannut kysyä

Kaikki mitä olet aina halunnut tietää pumppauslemmoista, mutta mitä et ole kehdannut kysyä Kaikki mitä olet aina halunnut tietää pumppauslemmoista, mutta mitä et ole kehdannut kysyä Tommi Syrjänen 1 Yleistä pumppauslemmoista Pumppauslemmalla voidaan todistaa, että kieli ei kuulu johonkin kieliluokkaan.

Lisätiedot

Eero Ojanen. Hyvä päätös? polemia KAKS KUNNALLISALAN KEHITTÄMISSÄÄTIÖ

Eero Ojanen. Hyvä päätös? polemia KAKS KUNNALLISALAN KEHITTÄMISSÄÄTIÖ polemia Eero Ojanen Hyvä päätös? KAKS KUNNALLISALAN KEHITTÄMISSÄÄTIÖ Hyvä päätös? Eero Ojanen Hyvä päätös? Filosofisia näkökulmia päätöksentekoon kaks kunnallisalan kehittämissäätiö HYVÄ PÄÄTÖS? Kieliasun

Lisätiedot

pohdittaessa. Tietointensiiviset liikeelämän palvelut: kohti merkityksellisempää vertailuinformaatiota

pohdittaessa. Tietointensiiviset liikeelämän palvelut: kohti merkityksellisempää vertailuinformaatiota discussion Harri Laihonen, Antti Lönnqvist ja Jonna Käpylä Tietointensiiviset liike-elämän palvelut: kohti merkityksellisempää vertailuinformaatiota Johdanto Tarve KIBS-yrityksen kehittämistä tukevalle

Lisätiedot

Vapaaehtoinen ruotsi on hyvinvointietu

Vapaaehtoinen ruotsi on hyvinvointietu Vapaaehtoinen ruotsi on hyvinvointietu Suomenkielisten näkökulma kielipolitiikkaan Ilmari Rostila Suomen Perusta Raportin kirjoittaja Sisältö Professori, YTT Ilmari Rostila on toiminut hyvinvointipalvelujen

Lisätiedot

007 2 Espoo Otamedia, / Oy Multiprint Juhani Ukko Jussi Karhu Paino Sanna Pekkola Hannu Rantanen Voutilainen Jarkko Tenhunen Lauri rokset Piir Oy

007 2 Espoo Otamedia, / Oy Multiprint Juhani Ukko Jussi Karhu Paino Sanna Pekkola Hannu Rantanen Voutilainen Jarkko Tenhunen Lauri rokset Piir Oy HELSINKI 2007 raportteja 57 Suorituskyky nousuun! Hyödynnä henkilöstösi osaaminen Juhani Ukko Jussi Karhu Sanna Pekkola Hannu Rantanen Jarkko Tenhunen Juhani Ukko, Jussi Karhu, Sanna Pekkola, Hannu Rantanen,

Lisätiedot

TOIMINTAINFORMAATIO AMMATTIKORKEA- KOULUJEN OHJAUKSEN JA ARVONTUOTANNON SEKÄ NIIDEN VAIKUTTAVUUDEN ARVIOINNIN TUKENA (TINFO)

TOIMINTAINFORMAATIO AMMATTIKORKEA- KOULUJEN OHJAUKSEN JA ARVONTUOTANNON SEKÄ NIIDEN VAIKUTTAVUUDEN ARVIOINNIN TUKENA (TINFO) LAUREA-AMMATTIKORKEAKOULUN JULKAISUSARJA B 27 Aki Valkonen TOIMINTAINFORMAATIO AMMATTIKORKEA- KOULUJEN OHJAUKSEN JA ARVONTUOTANNON SEKÄ NIIDEN VAIKUTTAVUUDEN ARVIOINNIN TUKENA (TINFO) Yhteenvetoraportti

Lisätiedot

Kirjallisuuden vaihto hankintatapana

Kirjallisuuden vaihto hankintatapana Tieteellisen kirjallisuuden vaihtokeskus - Georg Strien Kirjallisuuden vaihto hankintatapana Tieteellisen kirjallisuuden vaihdolla on pitkä perinne, vanhimmat viitteet löytyvät vuodesta 1694 Ranskasta.

Lisätiedot

Teknologian käyttö matematiikan oppitunnilla yläkoulussa ja lukiossa. Senja Roivas

Teknologian käyttö matematiikan oppitunnilla yläkoulussa ja lukiossa. Senja Roivas Teknologian käyttö matematiikan oppitunnilla yläkoulussa ja lukiossa Senja Roivas Pro gradu -tutkielma Itä-Suomen yliopisto Luonnontieteiden ja metsätieteiden tiedekunta Fysiikan ja matematiikan laitos

Lisätiedot

D I G I T A A L I N E N K U VA N K Ä S I T T E L Y, O S A I I. origo x

D I G I T A A L I N E N K U VA N K Ä S I T T E L Y, O S A I I. origo x D I G I T A A L I N E N K U VA N K Ä S I T T E L Y, O S A I I origo f ( x, y ) x y 4 1 Segmentointi...43 1.1 Epäjatkuvuuskohtiin perustuva segmentointi... 43 1.1.1 Pisteentunnistus (point etection)...

Lisätiedot

Palvelut ja tuottavuus

Palvelut ja tuottavuus Palvelut ja tuottavuus Saara A. Brax Teknologiakatsaus 204/2007 Palvelut ja tuottavuus Saara A. Brax Teknologiakatsaus 204/2007 Helsinki 2007 Tekes rahoitusta ja asiantuntemusta Tekes on tutkimus- ja kehitystyön

Lisätiedot

SOSIAALISEN MEDIAN KÄYTTÖ SUOMEN TEATTERIT RY:N JÄSENTEATTEREISSA

SOSIAALISEN MEDIAN KÄYTTÖ SUOMEN TEATTERIT RY:N JÄSENTEATTEREISSA Sara Häkkinen SOSIAALISEN MEDIAN KÄYTTÖ SUOMEN TEATTERIT RY:N JÄSENTEATTEREISSA Opinnäytetyö Kulttuurituotannon koulutusohjelma Huhtikuu 2015 KUVAILULEHTI Opinnäytetyön päivämäärä 31.3.2015 Tekijä(t) Sara

Lisätiedot

Markkinoiden toimivuudesta 1

Markkinoiden toimivuudesta 1 Kansantaloudellinen aikakauskirja 97. vsk. 1/2001 Markkinoiden toimivuudesta 1 KATSAUKSIA JA KESKUSTELUA Klaus Kultti Professori Helsingin kauppakorkeakoulu 1 Virkaanastujaisesitelmä Helsingin yliopistossa

Lisätiedot

www-sivut jokaiselle sopiviksi

www-sivut jokaiselle sopiviksi TIEKE_esteettömyys220503 22.05.2003 08:46 Sivu 11 Jukka K. Korpela Jukka K. Korpela www-sivut jokaiselle sopiviksi Esteettömien verkkosivujen tekemisen opas kaikille tekijöille ja teettäjille TIEKE Tietoyhteiskunnan

Lisätiedot

Karttojen värittäminen

Karttojen värittäminen Karttojen värittäminen Neliväriongelman värityskombinaatioiden lukumäärän etsiminen graafien avulla Eero Räty & Samuli Thomasson Valkeakosken Tietotien lukio / Päivölän Kansanopisto Tieteenala: Matematiikka

Lisätiedot

Anita Saaranen-Kauppinen & Anna Puusniekka. Menetelmäopetuksen tietovaranto KvaliMOTV. kvalitatiivisten menetelmien verkko-oppikirja

Anita Saaranen-Kauppinen & Anna Puusniekka. Menetelmäopetuksen tietovaranto KvaliMOTV. kvalitatiivisten menetelmien verkko-oppikirja Anita Saaranen-Kauppinen & Anna Puusniekka Menetelmäopetuksen tietovaranto KvaliMOTV kvalitatiivisten menetelmien verkko-oppikirja Yhteiskuntatieteellisen tietoarkiston julkaisuja 2009 KvaliMOTV Kirjoittajat:

Lisätiedot

Helppokytkentäiset ontologiapalvelut semanttisessa webissä

Helppokytkentäiset ontologiapalvelut semanttisessa webissä hyväksymispäivä arvosana arvostelija Helppokytkentäiset ontologiapalvelut semanttisessa webissä Jouni Tuominen Helsinki 19.5.2010 Pro gradu -tutkielma HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Lisätiedot

laadullisen tutkimuksen metodologia metodologia tutkii menetelmien perusteita ja oletuksia

laadullisen tutkimuksen metodologia metodologia tutkii menetelmien perusteita ja oletuksia laadullisen tutkimuksen metodologia metodologia tutkii menetelmien perusteita ja oletuksia Juha Varto Laadullisen tutkimuksen metodologia ELAN VITAL copyright Juha Varto 2005 sisältö Johdanto: tutkimus

Lisätiedot

Musiikkipalveluita julkisesta kirjastosta myös tulevaisuudessa 1

Musiikkipalveluita julkisesta kirjastosta myös tulevaisuudessa 1 Musiikkipalveluita julkisesta kirjastosta myös tulevaisuudessa 1 Heikki Poroila Mitä tapahtuu perinteisen kirjastopalvelun jälkeen? Erilaiset vaihtoehdot nähdään yleensä hyvin äärimmäisinä. Osa ihmisistä

Lisätiedot

OPINNÄYTETYÖ JAAKKO KURTTI 2012 FACEBOOK YRITYKSEN VERKOSTOITUMISEN VÄLINEENÄ TIETOJENKÄSITTELYN KOULUTUSOHJELMA

OPINNÄYTETYÖ JAAKKO KURTTI 2012 FACEBOOK YRITYKSEN VERKOSTOITUMISEN VÄLINEENÄ TIETOJENKÄSITTELYN KOULUTUSOHJELMA OPINNÄYTETYÖ JAAKKO KURTTI 2012 FACEBOOK YRITYKSEN VERKOSTOITUMISEN VÄLINEENÄ TIETOJENKÄSITTELYN KOULUTUSOHJELMA ROVANIEMEN AMMATTIKORKEAKOULU LUONNONTIETEIDEN ALA Tietojenkäsittely Opinnäytetyö FACEBOOK

Lisätiedot

Itseindeksit Kun tiivistetty teksti ja sen indeksi ovatkin sama asia

Itseindeksit Kun tiivistetty teksti ja sen indeksi ovatkin sama asia Tietojenkäsittelytiede 25 Joulukuu 2006 sivut 28 37 Toimittaja: Jorma Tarhio c kirjoittaja(t) Itseindeksit Kun tiivistetty teksti ja sen indeksi ovatkin sama asia Veli Mäkinen Helsingin yliopisto Tietojenkäsittelytieteen

Lisätiedot