Suffiksipuut. Satu Kokko. Tietokannat nyt! -seminaari Helsinki HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Transkriptio

1 Suffiksipuut Satu Kokko Tietokannat nyt! -seminaari Helsinki HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

2 ii Sisältö 1 Johdanto Merkkijonot ja suffiksipuut Sovelluksia Roskapostin suodattaminen Hahmojen tunnistus biosekvensseistä Algoritmeja Aikavaativuudeltaan lineaariset algoritmit Muita algoritmeja Algoritmien vertailua ja tutkimustuloksia Yhteenveto Lähteet...13

3 1 1 Johdanto Suffiksipuu (Suffix tree) on monipuolinen tietorakenne merkkijonojen tutkimiseen. Suffiksipuu koostuu merkkijonon jokaisesta päätteestä eli loppuosasta. Jokainen polku puun juuresta lehteen on yksi merkkijonon loppuosa tietystä merkistä loppuun. Suffiksipuuna merkkijonosta paljastuu ominaisuuksia jotka eivät näy päällepäin, kuten pisin alisana tai millaisia osia siinä toistuu usein. Puun avulla voidaan esimerkiksi hakea nopeasti täsmällistä tai tietynlaista osajonoa [TTH05]. Laskennallisessa biologiassa eli bioinformatiikassa tutkitaan erityisen pitkiä merkkijonoja, kuten ihmisen DNA-sekvenssejä. Miljoonien merkkien joukossa tärkeät kohdat eli geenit sisältävät usein toisteista tietoa tai tiettyjä tunnistettavia hahmoja. Molempien etsimisessä voidaan hyödyntää suffiksipuita [Vil02]. Toinen tietorakenteen tuore hyödyntämiskohde on roskaposti eli spam. Pampapathi ja kumppanit esittelevät artikkelissaan suffiksipuun käyttöä sähköpostin luokittelussa ja ovat testein havainneet sen naiivia bayesilaista suodatusta paremmaksi [PML06]. Suffiksipuun tutkimista edeltävä vaihe, puun muodostaminen, vaatii kuitenkin paljon aikaa, muistia ja prosessoritehoa suurilla aineistoilla kuten pitkillä DNAsekvensseillä. Useat muodostamisalgoritmit ovat aikavaativuudeltaan merkkijonon pituuden suhteen lineaarisia O(n), kuten Esko Ukkosen 1992 esittelemä algoritmi [GiK97]. Pitkää sekvenssiä käsiteltäessä puun koko ylittää nopeasti käytettävissä olevan muistin määrän, jolloin tärkein nopeutta ja tehokkuutta rajoittava tekijä ei olekaan algoritmin aikavaativuus vaan levyn käyttö. Tian ja kumppanit esittelevät artikkelissaan PWOTD-algoritmin ja TDD-tekniikan, joka aikavaativuudestaan O(n 2 ) huolimatta suoriutuu jokseenkin kaikissa esimerkkitapauksissa niin muistissa kuin levyltäkin lineaarisia nopeammin [TTH05]. Luku kaksi esittelee merkkijonoihin ja suffiksipuihin liittyvät käsitteet. Esimerkkeinä käytännön ongelmista esitellään roskaposti ja biosekvenssit luvussa kolme. Luvussa neljä tutustutaan tarkemmin muutamiin algoritmityyppeihin ja algoritmeihin, joilla suffiksipuita voidaan muodostaa. Yhteenvetoa edeltävässä luvussa viisi vertaillaan algoritmeja ja esitellään lyhyesti tutkimustuloksia.

4 2 2 Merkkijonot ja suffiksipuut Merkkijono eli sekvenssi koostuu merkeistä, jotka kuuluvat tiettyyn rajalliseen aakkostoon. Esimerkiksi DNA-sekvenssit koostuvat merkeistä A, T, C ja G, jotka kuvaavat nukleotidimolekyylejä. Merkkijonon osaa kutsutaan sanaksi. Yksittäisen sanan voi etsiä tekstiaineistosta läpikäymällä koko sekvenssin, ainakin jos aineisto ei ole valtava ja hakuun käytetyllä ajalla ei ole merkitystä. Jos aineisto on pitkä ja hakuja on tarkoitus tehdä enemmänkin, on järkevää muodostaa tietorakenne hakujen nopeuttamiseksi. Suffiksipuu on sekvensseihin kohdistuvissa algoritmeissa yleinen tietorakenne. Nämä algoritmit ja siten tietorakenne ei kuitenkaan ole yleisessä käytössä, koska puun rakentaminen varsinkin suurista aineistoista on tähän saakka ollut työlästä. Kuva 1. Merkkijonosta BANANA muodostettu suffiksipuu. Sekvenssin BANANA suffiksit eli loppuosat ovat: BANANA, ANANA, NANA, ANA, NA ja A. Niitä on yhtä monta kuin alkuperäisessä sekvenssissä on merkkejä. Kun nämä loppuosat järjestetään aakkosjärjestykseen, tulevat yhteiset alkuosat näkyville ja voidaan helposti muodostaa kuvan 1 suffiksipuu: - A - ANA - ANANA - BANANA - NA - NANA Suffiksipuussa kukin loppuosista on polku särmiä pitkin juuresta eri solmuun, joten puun solmujen lukumäärä on sama kuin sekvenssin pituus. Puun korkeus on yleensä

5 3 pienempi kuin sekvenssin pituus, koska puun jokainen särmä voi sisältää useita merkkejä. Puu on haarainen koska moni suffikseista alkaa samoilla merkeillä, esimerkiksi ANANA ja ANA. Mitä haaraisempi jokin alipuu on, sitä useammin sen yläpuolella olevan osan merkit merkkijonossa toistuvat. Merkkijonon loppuun voidaan lisätä jokin aakkostoon kuulumaton merkki, jotta kukin polku päättyisi lehteen. Kuvassa 2 on kuvan 1 merkkijonon suffiksipuu täydennettynä lopetusmerkillä $. Kuva 2. Merkkijonosta BANANA$ muodostettu suffiksipuu. Merkkijonoista muodostettaviin puihin liittyy yksinkertaisempi tietorakenne trie (sanasta retrieval, joten lausutaan englanniksi kuten puu). Suffiksitrie-rakenteeseen talletetaan kaikki loppuosat kuten suffiksipuuhunkin, mutta jokaisella särmällä saa olla vain yksi aakkoston merkki. Niinpä suffiksitrien koko voi olla jopa neliöllinen suffiksipuuhun verrattuna [Vil02]. Patricia-puu (myös radix tree) on eräs trien tiivistetty muoto. Siinä jokainen solmu jolla on vain yksi lapsi, yhdistetään lapseensa. Niinpä suffiksipuu on itseasiassa vastaavasta suffiksitriestä muodostettu Patricia-puu. Lyhenne Patricia tulee sanoista: Practical Algorithm to Retrieve Information Coded in Alphanumeric. Tietyn sanan hakemisessa (exact string matching) tekstiä sisältävästä tietokannasta voidaan hyödyntää suffiksipuita, puun muodostamisen jälkeen haun viemä aika riippuu vain etsittävän sanan pituudesta. Suffiksipuita voidaan käyttää tehokkaasti myös miltei samanlaisten sanojen etsintään (approximate string matching), jossa tyypillisesti käytetään säännöllisiä lausekkeita. Suffiksipuun avulla voidaan paitsi tehdä hakuja ja tunnistaa hahmoja, myös selvittää myös pisin toistuva sana ja toisteisuutta ylipäätään, sekä saada tilastollista tietoa merkkijonosta.

6 4 Kuva 3. Suffiksipuu, -trie ja -taulukko merkkijonolle ATACATA$ [Vil02]. Kuvassa 3 esitetään merkkijonolle merkkijonolle ATACATA$ sekä suffiksipuu, - trie että -taulukko. Loppumerkki $ on mukana lehtien aikaansaamiseksi. Ylimpänä olevassa taulukossa merkeille on annettu järjestysnumerot, ensimmäisen merkin ollessa numeroltaan yksi. Lehdet on numeroitu suffiksitaulukkoa varten sen mukaan monennestako merkistä loppuosa alkaa. Tällöin esimerkiksi polun ATA$ päättävä lehti saa numerokseen 5. Lehtien numerot kerätään puusta kuvassa alimpana näkyvään suffiksitaulukkoon etujärjestyksessä (preorder). Kuvan 3 suffiksitaulukko (suffix array) on eräs tiivis suffiksipuiden talletusrakenne, se vie vain kolmasosan puun talletustilasta. Joissain toteutuksissa on mahdollista käyttää suffiksitaulukkoa fyysisenä rakenteena vaikka konseptitasolla tarkasteltaisiinkin suffiksipuuta. Suffikseihin liittyvän termistön täydentämiseksi mainittakoon vielä,

7 5 että suffiksipuiden rakennusalgoritmeissa hyödynnetään usein samansisältöisten solmujen välillä [Vil02]. suffiksilinkkejä 3 Sovelluksia Rakentamalla suffiksipuu voidaan helpottaa monimutkaistenkin merkkijonoongelmien ratkomista. Seuraavassa esitellään hieman tarkemmin kaksi erilaista käytännön sovellusta: roskapostin suodattaminen ja hahmojen tunnistaminen DNAsekvensseistä. Suffiksipuihin voidaan myös tallentaa hakua tai tunnistusta varten vaikkapa ip-osoitteita tai tietokonematojen tunnisteita. 3.1 Roskapostin suodattaminen Oikeiden sähköpostiviestien suodattaminen roskapostin joukosta on kasvava ja yrityksille yhä kalliimpi ongelma. Algoritmeja viestien luokitteluun on useita, useimmat päättelevät malliksi annetuihin tai ajan mittaan tunnistetuihin viesteihin vertaamalla onko uusi viesti roskapostia. Karkeasti roskapostin voi luokitella selkokieliseen roskapostiin, viesteihin joissa sanojen sisälle on lisättyjä merkkejä, viesteihin joihin on lisätty asiaan liittymätöntä tekstiä (word salad) sekä sellaisiin jotka sisältävät ylimääräisen tekstin lisäksi täysin satunnaisia merkkijonoja. Pampapathi ja kumppanit esittelevät tavan luokitella saapunut sähköposti sen mukaan, mihin aiemmin muodostetuista suffiksipuista viestissä käytetty kieli sopii parhaiten. He tallentavat samaan suffiksipuuhun merkkijonon välilyönnillä erotetut sanat eli sanaston, joista siis vain viimeinen loppuu koko merkkijonon lopussa. Tälläistä rakennetta kutsutaan yleistetyksi suffiksipuuksi (generalised suffix tree). Puuhun tallennetaan merkkien lisäksi esiintymien määrä. Mitä erottelevampia, pidempiä ja useampia viestin sanoja löytyy tietystä suffiksipuusta, sitä todennäköisemmin viesti kuuluu kyseisen puun edustamaan luokkaan [PML06]. Artikkelissaan Pampapathi ja kumppanit vertailivat luokitteluaan kymmenkertaisella ristiinvalidoinnilla naiiviin Bayesilaiseen luokitteluun [PML06]. He havaitsivat suffiksipuun testeissään paitsi tarkemmaksi luokittelijaksi, mutta myös selviytyvän paremmin epätarkoista kynnysarvoista ja tehokkuudeltaan kilpailukykyiseksi. Parantamisen varaa löytyi lähinnä suorituskyvystä ja tutkimusta ollaan aikeissa jatkaa.

8 6 Artikkelin kirjoittajat näkevät paljon mahdollisuuksia hyödyntää suffiksipuita muissakin luokitteluongelmissa kuin sähköpostin suodatuksessa. 3.2 Hahmojen tunnistus biosekvensseistä DNA-molekyylin neljän merkin muodostama aakkosto on roskaposteihin verrattuna yksinkertainen, mutta sekvenssien pituudet jopa miljardeja merkkejä. Ihmisen genomi on runsaan 3 miljardin merkin merkkijono. Peräkkäisten kolmen merkin koodaamat 20 erilaista aminohappoa, joista proteiinit muodostuvat, muodostavat oman aakkostonsa. Ongelma vaikeutuu kun proteiinin koodaus voi alkaa mistä tahansa kohdasta, puhumattakaan tunnettujen valmiiden proteiinien kolmiulotteisten toiminnallisten kohtien löytämisestä. Niinpä tunnistettava hahmo, biosekvenssiin piiloutunut kiinnostava tieto jota etsitään, on usein hankala ennalta määritellä. Niinpä ensin on etsittävä toisteisuutta ja säännöllisyyttä, jotka luonnossa usein liittyvät toiminnallisuuteen [Vil02]. Hahmojen tunnistamisessa biosekvensseistä ongelmanratkaisu etenee hahmoluokkien määrittelyn ja hahmojen kiinnostavuutta mittaavan kelpoisuusfunktion valinnan kautta aineiston algoritmiseen käsittelyyn. Hahmoluokat määritellään monimutkaisuuden mukaan, miten paljon säännöllinen lauseke saa sisältää vaihtelua tai vaikkapa jokerimerkkejä. Kelpoisuusfunktio riippuu täysin tutkimuksen kohteesta, se luokittelee löydetyt hahmot mielenkiintoisuuden mukaan. Kuva 2. Esimerkki proteiinin toiminnallisesta kohdasta [Vil02]. Etsittävä hahmo voidaan kuvata säännöllisellä lausekkeella. Kuvassa 2 on havainnollistettu C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H -lausekkeen

9 7 kuvaamaa proteiinin toiminnallista kohtaa, jollainen tyypillisesti tarttuu sinkkiatomiin (kuvassa Zn). Lausekkeessa x on jokerimerkki eli mikä tahansa aminohappo. Tämä hahmo kuuluu monimutkaiseen hahmoluokkaan, jossa jokerimerkkejä saa olla joko tietty tai joltakin väliltä oleva määrä peräkkäin, sekä lisäksi vaihtoehtoisia merkkejä. Rakentamalla aminohapposekvenssistä erimittaiset jokerimerkit huomioiva suffiksipuu, voidaan haun avulla valita pitkästä merkkijonosta potentiaalisia osia tarkempaan tarkasteluun [Vil02]. 4 Algoritmeja Vuosien saatossa suffiksipuun muodostamiseen on kehitetty lukuisia algoritmeja. Aikavaativuudeltaan ne jakaantuvat kahtia, merkkijonon pituuden suhteen lineaarisiin ja muihin. Lisäksi on omat algoritminsa suffiksitaulukoiden rakentamiseen. 4.1 Aikavaativuudeltaan lineaariset algoritmit Suffiksipuun muodostamisesta merkkijonon pituuden suhteen lineaarisessa ajassa selviytyviä algoritmeja on esitelty kolme, tekijöinään Ukkonen (1995), McCreight (1976) ja Weiner (1973). Algoritmit ovat läheistä sukua toisilleen, mutta Esko Ukkosen artikkelissaan [Ukk95] esittelemä on suosituin. Algoritmi on näistä kolmesta helpoin ymmärtää ja siten myös toteuttaa [TTH05]. Ukkosen algoritmi perustuu puun haarojen kasvattamiseen merkki kerrallaan. Merkkijono käydään kerran läpi alusta loppuun. Alipuiden välillä liikutaan suffiksilinkkien avulla. Kuva 3. Puun muodostaminen sekvenssistä cacao [Ukk95].

10 8 Kuvassa 3 esitellään suffiksipuun muodostaminen vaihe vaiheelta Ukkosen algoritmilla merkkijonosta cacao. Suffiksipuu on jokaisen merkin lisäyksen jälkeen valmis siihen asti käydyn sekvenssin osalta. Jokaisen solmun päivityksen yhteydessä tarvittaessa jaetaan solmu, jolloin luodaan uusi haara ja uusi suffiksilinkki. Uusien merkkien lisääminen puuhun ei sellaisenaan ole lineaarista. Yksinkertaistetusti ilmaistuna päivityksen oheen ja jälkeen tarvitaan lisäksi vaihe, jota kutsutaan puun kanonisaatioksi. Lineaarisilla algoritmeilla suffiksipuu luodaan aina kokonaan ja tietyssä täsmällisessä järjestyksessä. Niinpä tietorakenne vie paljon tilaa ja sen muokkaaminen tai muuntaminen erilaisten hakujen tarpeisiin on hankalaa ellei mahdotonta. Ukkosen algoritmi, kuten muutkin lineaariset algoritmit, toimii nopeasti niin kauan kuin muodostettava puu mahtuu keskusmuistiin. Jos muisti ei riitä ja tallennukseen on käytettävä levyä, algoritmi toimii huonosti koska viittausten paikallisuus (locality of refence) on huono. Solmut ja linkit ovat siis hajallaan joten levynoutoja tulee paljon. Lineaarisista algoritmeista on kehitetty useita erilaisia paranneltuja versioita, jotta ne toimisivat paremmin levylle tallennettaessa, mainittakoon nimeltä TOP-Q ja DynaCluster. Näillä parannelluilla algoritmeillä on hyvin erilaisia lähtökohtia, eivätkä ne ole lineaarisia. Esimerkiksi Huntin algoritmissa (2001) on luovuttu suffiksilinkkien käytöstä viittausten paikallisuuden parantamiseksi. 4.2 Muita algoritmeja Yksi algoritmi suffiksipuun rakentamiseen on Giegerichin ja kumppanien 1995 esittelemä write-only-top-down (wotd). Tehokkuudeltaan algoritmi on keskimäärin O(n log n) ja pahimmillaan O(n 2 ). Algoritmi on yksinkertainen ja viittausten paikallisuuden takia kilpailukykyinen. Puu muodostetaan nimensä mukaisesti ylhäältä alas, eikä muodostettuja solmuja tarvitse puun kasvaessa muuttaa [GKS99]. Wotd-algoritmilla ei yleensä rakenneta heti kokonaista suffiksipuuta, vaan oksa kerrallaan sitä mukaa kuin niitä tarvitaan hauissa ensimmäisen kerran. Tavasta on käytetty kuvaavaa termiä laiska suffiksipuu. Wotd-algoritmin lähestymistapa säästää levytilaa ja on käyttökelpoinen, jos aineistoon tehdään vain vähän tai vain lyhyitä

11 9 hakuja. Wotd-algoritmia ja sen muunnoksia käytetään pohjana useissa muissa, kuten seuraavista lyhenteistä voidaan päätellä [GKS99]. Tian ja kumppanit muodostavat suffiksipuun algoritmilla Partition and Write Only Top Down (PWOTD) [TTH05], joka pohjautuu Giegerich ja kumppanien 2003 esittelemään wotdeager-algoritmiin. PWOTD on kaksivaiheinen, ensin muodostetaan yhdellä läpikäynnillä ositus (partition) aakkoston jokaisen merkin mukaan. Esimerkiksi kuvan 4 merkkijonossa merkki T sijaitsee paikoissa {1,2,5}, kun numerointi on aloitettu nollasta. Vaihe ei ole vaativa, osituksia syntyy yhtä monta kuin merkkijonossa esiintyy merkkejä. Seuraavaksi sovelletaan wotdeager-algoritmia jokaiseen ositukseen. Kuva 4. Suffiksipuu ja taulukko johon se on talletettu PWOTD-algoritmilla [TTH05]. Puun fyysisenä tallennusrakenteena käytetään taulukkoa. Rakennusvaiheessa tarvitaan lisäksi kolme aputaulukkoa, joista yksi toimii pinona. Wotdeageralgoritmissa tarkastellaan ensin kunkin merkin seuraajia, merkin T tapauksessa merkkejä sijainneissa {2,3,6} eli {T,A,A}. Seuraajat järjestetään aakkosjärjestykseen ja lasketaan eri merkkien esiintymien määrät. Koska A seuraa merkkiä T kahdesti, nähdään että puu haarautuu kahtia T :n lapsisolmussa A. Lisäksi voidaan päätellä, että T :n lapsisolmu T on lehti. Läpikäymällä ositukset ja haarautumiset ylhäältä alas, saadaan suffiksipuu tallennettua taulukkoon.

12 10 PWOTD-taulukossa haarautuville solmuille on varattu kaksi paikkaa ja lehdille yksi, kuten kuvassa neljä. Edellä esimerkissä tarkasteltu haarautuva T löytyy kohdista 2 ja 3, joista jälkimmäisestä voidaan lukea että luettelo sen lapsista alkaa kohdasta 7. Luettelosta löytyy ensin haarautuva A ja sitten merkkijonon paikasta 2 merkillä T alkava lehti. Tämä viimeinen lapsi on merkittu R-kirjaimella luettelon päättymisen merkiksi. PWOTD on viittausten paikallisuudessa hyvä, koska puuta kasvatetaan useimmiten vain lisäämällä taulukon perään lapsia ja lehtiä. Myös kolme apurakennetta on suunniteltu siten, että niiden puskurointi voidaan tehdä järkevästi ja hallitusti. Jos syötteenä annetut merkkijonot ovat lyhyitä ja kaikki rakenteet mahtuvat muistiin, voidaan ositusvaihe jättää kokonaan pois. 5 Algoritmien vertailua ja tutkimustuloksia Lineaarisia algoritmeja on toki aikanaan vertailtu toisiinsa [GiK97], mutta vasta aineistojen kasvaessa tehokkuus ja tilan käyttö ovat nousseet tarkemman tarkastelun kohteeksi. Algoritmeista suffiksipuun muodostamiseksi ei ole pulaa, mutta puolueettomia vertailutuloksia ei ole saatavilla. Kukin tutkija luonnollisesti esittää oman algoritminsa tai jonkin parannusehdotuksen aikaisempiin. Artikkeli jossa jokin algoritmi esitellään, keskittyy yleensä pelkkään teoriaan tai johonkin tiettyyn ongelmakenttään kuten biosekvensseihin. Edellä esitelty PWOTD-algoritmi on osa Top-Down Disk-based -tekniikkaa (TDD), jonka toinen yhtä tärkeä osa liittyy puskurin hallinnointiin [TTH05]. Puskurin hallinta on tärkeää, koska suffiksipuun rakennusalgoritmi voi vaatia kertaluokkaa enemmän tilaa kuin alkuperäinen merkkijono. Suffiksipuun talletusrakenne vie PWOTD-algoritmillä tyypillisesti 8-12 kertaa enemmän tilaa kuin merkkijono. Seuraavaksia esitellään Tianin ja kumppanien tekemää TDD-tekniikan ja samalla PWOTD-algoritmin vertailua lukuisiin muihin algoritmeihin erilaisilla aineistoilla. Johtopäätöksenä voidaan todeta, että TDD on ensimmäinen todella laajojen merkkijonojen käsittelyyn pystyvä tekniikka.

13 11 Kuva 5. Neljän algoritmin suoritusaika muistissa eri testiaineistoilla [TTH05]. Kuvassa 5 on vertailu neljän eri algoritmin suorituskyvystä, kun suffiksipuun rakennus tapahtuu muistissa. Yksikirjaimiset lyhenteet tulevat nimistä TDD, Ukkonen, ja McCreigt, lisäksi mukana on suffiksitaulukon muodostava Deep- Shallow. Itse asiassa TDD-tekniikka ei ole muistissa tarpeen, joten se yksinkertaistuu PWOTD:ksi. Merkkijonoaineiston nimen lopussa oleva numero kertoo aakkoston koon. Aineistoista keinotekoisia ovat unif-alkuiset, muut edustavat DNA:ta, englanninkielistä tekstiä ja proteiinia. Eniten aikaa kuluu muistihuteihin (L2 miss). Kuvasta nähdään lineaarisisten algoritmien suoritusajan dramaattinen kasvu aakkoston koon kasvaessa, ja ettei aika muilla juuri muutu. Taulukko 1. Neljän algoritmin suoritusaika levyllä eri testiaineistoilla [TTH05]. Merkkejä Hunt Kerroin TDD Kerroin DC3 Aineisto (10 6 ) (min) Hunt/TDD (min) DC3/TDD (min) UniProt/SwissProt-proteiini 53 13,95 5 2,78 4,5 12,6 Osa ihmisen kromosomia ,47 5,7 2,02 6,3 12,67 Gutenberg hakemisto ,5 3,7 6,03 2,3 13,78 TrEMBL-proteiini ,7 7,4 32 3,2 102,78 Ihmisen kromosomi ,5 5,5 17,83 4,2 74,57 Gutenbergin kokoelma ,3 9,9 46,67 2,6 120,53 Ihmisen genomi h Taulukossa 1 on vertailu kolmen algoritmin suoritusajoista, kun suffiksipuu muodostetaan levyllä: Hunt, TDD ja DC3. Huntin algoritmia on tähän asti pidetty

14 12 parhaana levyllä suffiksipuun muodostavana algoritmina. On siis merkittävä tulos, että koko Gutenbergin kokoelman käsittävällä tekstiaineistolla TDD on miltei kymmenen kertaa nopeampi kuin Hunt. Eikä ole vähäpätöinen tieto sekään, että TDD on samaisella aineistolla 2,6 kertaa nopeampi kuin pelkän suffiksitaulukon muodostava DC3. Ihmisen genomista eli ihmisen kaikesta DNA:sta muut kuin TDD eivät selvinneet järkevässä ajassa [TTH05]. 6 Yhteenveto Suffiksipuu on tietorakenne, johon on talletettu merkkijonon kaikki loppuosat. Ollakseen hyvin yksinkertainen tietorakenne, on suffiksipuu käyttökelpoinen monen käytännön ongelman ratkaisussa. Vaikka kyseessä on vanha keksintö, se on sovellettavissa moniin nykyajan sekvensseihin, merkkijonoihin ja teksteihin liittyviin ongelmiin. Tiedon määrän kasvaessa ovat erilaiset hahmojentunnistus- ja suodatusongelmat arkipäivää monella alalla. Suffiksipuun rakentamiseksi on esitelty kymmeniä algoritmeja usean vuosikymmenen aikana. Jo varhain esiteltyjen merkkijonon pituuden suhteen aikavaativuudeltaan lineaariten algoritmien asema on ollut vahva niiden yksinkertaisuuden ja näennäisen tehokkuuden takia. Kokonaisen suffiksipuun rakentaminen pitkästä merkkijonosta on näiden algoritmien avulla kuitenkin työlästä, joten suffiksipuita on hyödynnetty melko vähän suhteessa niiden potentiaaliin. Tehokkuuden tutkimus vaikuttaisi aiemmin rajoittuneen lähinnä matemaattisiin todistuksiin. Algoritmien käyttökelpoisuutta ongelmanratkaisuun suurilla aineistoilla on ryhdytty tutkimaan vasta viimeaikoina. Taustalla lienee yleismaailmallinen tiedon määrän kasvu ja erilaisten käytännön merkkijono-ongelmien kirjon laajentuminen. Artikkelissaan Tian ja kumppanit selvittävät perinpohjaisesti suffiksipuiden rakennusta eri algoritmeilla ja erittäin suurilla aineistoilla. Heidän tutkimuksissaan todetaan puskurinhallinnan olevan algoritmin aikavaativuutta tärkeämpää, kun puu muodostetaan levyllä eikä muistissa. Nyt isokin suffiksipuu voidaan vihdoin rakentaa järkevässä ajassa. Tian ja kumppanit pystyivät ensimmäisinä rakentamaan suffiksipuun ihmisen genomista, aikaa kului vaatimattomat 30 tuntia.

15 13 7 Lähteet GiK97 R. Giegerich, S. Kurtz, From Ukkonen to McCreight and Weiner: A Unifying View of Linear-Time Suffix Tree Construction. Algorithmica, 19 (3), , GKS99 R. Giegerich, S. Kurtz, S. Stoye: Efficient Implementation of Lazy Suffix Trees. WAE '99: Proceedings of the 3rd International Workshop on Algorithm Engineering, 1999, Ukk95 Ukkonen E., On line construction of suffix trees. Algorithmica, 14(3), , PML06 Pampapathi R., Mirkin B. and Levene M., A suffix tree approach to anti-spam filtering. Machine Learning, Springer, Published online: 27 July TTH05 Tian, Y., Tata, S., Hankins, R.A., Patel, J.M., Practical methods for constructing suffix trees. The VLDB Journal 14, 3 (Sep. 2005), Vil02 Vilo J., Pattern Discovery from Biosequences. PhD Thesis, Series of Publications A, Report A Helsinki, November 2002