Tietokantajärjestelmien tulevaisuuden haasteet Jan Lindström 1
Lähteet: "One Size Fits All": An Idea Whose Time Has Come and Gone,Michael Stonebraker (EECS Dept., M.I.T. and StreamBase Systems, Inc.), ICDE 2005. Top Five Data Challenges for the Next Decade, Pat Selinger (IBM Research / Vice President), ICDE 2005. 2
Tämänhetkiset standardit Attribuutit talletetaan yhteen tietueeseen peräkkäistalletuksella levylle. Käytetään B-puita hakemistorakenteena Käytetään pientä (4K) sivukokoa levyllä Perinteinen (rivi orientoituva) kyselynoptimointi ja and -suoritus 3
Rivien talletus: Record 1 Record 2 Record 3 Record 4 Esim: DB2, Oracle, Sybase, SQLServer, MySQL 4
Optimoitu kirjoitusta varten Voidaan lisätä ja poistaa rivi yhdellä levykirjoituksella Toimii hyvin OLTP:ssä Mutta ei toimi hyvin tietovarastoinnissa ja muissa lukupainoitteisissa ohjelmistoissa 5
Tietovarastoinnin vaatimukset Bittikarttaindeksit Tähtikaaviot Materialisoidut näkymät Attribuuttien koodaus tai compressointi 6
7 Saraketalletusmuoto (Sybase IQ)
Laitteisto ja ohjelmisto ovat muuttuneet 1975 1 MIPS prosessori Keskustietokone 14 inch levy 24 bit osoiteavaruus 256K keskusmuistia Merkkijonoja ja numeroita 8
Laitteisto ja ohjelmisto ovat muuttuneet Tänään 3+ GigaHertz prosessori 32-64 SMPs RAID levyköt ja loogiset levyohjaimet 64 bit osoiteavaruus 100+ GB keskusmuistia Gigabitin ethernet, clusterit Rikas data (audio, dokumentteja, XML, ) 9
10
Muutoksia raudassa CPU nopeus kasvaa 100%/vuodessa Levyn nopeus kasvaa 5%/vuosi Keskusmuistin nopeus kasvaa 10%/vuosi Moniprosessijärjestelmät yleistyneet Levyjen fyysinen koko kasvanut Levymuistin määrä kasvanut Keskusmuistin määrä ei juurikaan kasvanut! 11
Tutkimushaaste 1: Tietokantajärjestelmä tulisi suunnitella siten että se pysyy laitteisto- ja ohjelmistokehityksessä mukana. Järjestelmän tulee olla skaalautuva ilman että käyttäjälle näkyvää saatavuuden tai nopeuden huononnetaan. Prosessorin ja levyn nopeuden eron muutos vaatii uusia menetelmiä. 12
Sisällönhallinta vs tiedonhallinta Sisällönhallitsin tarjoaa enemmän tiedonhallinta palveluita Transaktionaalinen eheys ja viite-eheys Optimoidut kyselyt Skaalautuva talletus Käyttäjät haluavat enemmän sisällönhallintaa tiedon sisäänkirjoittaminen, uloskirjoittaminen, versiointi Sisäänrakennettu hierarkinen tietomalli Hierarkinen metamalli XML 13
Tutkimushaaste 2 Mitä sisällönhallinta on ja mitä uusia malleja tarvitaan Kyselyt ja käyttäjäinteraktio Versiointi Kääriminen Alidokumentin kirjoittaminen Alidokumentin sisääkirjoittaminen/uloslukeminen Tekstihaut ja -analyysit 14
Tutkimushaaste #3 Tiedon yhteyskäyttö Mitä seuraavaksi? Tiedon Ease käytön of Access helppous Taulukkolaskin Relaatiotietokannat Ohjelmat Hakukoneet WWW Ääni ja siihen liitetty semantiikka Merkkijonot ja numerot Teksti Audio, video, sensorit Tiedon rikkaus 15
Customers Contact Points Business Processes Face to face Voice IM Web Kiosks Email, SMS Mail, Fax, etc Scheduling and Coordination Branch office IVR Web Call Center Workforce Web logs Speech transcriptions Call logs. Analytics Business Intelligence 16
Metadata tänään ja huomenna Nykyhetki Tunnistaminen Talleta Etsi Haasteet Mahdollisuudet Yhdistäminen Löydä Linkit alueen sisällä Linkit alueiden välillä Ymmärtäminen Määritelmät Taksonomiat Mutkikkaat suhteet Sovitetut semantiikat 17
Metadatan kehitys Semantiikka: mitä tieto merkitsee Metadan kehitys Ontologiat alasta Muuttuva metadata Alojen välinen integraatio XML Muuttuva metadata Alan integraatio Syntaksi : mitä tieto kuvaa Hierarkinen tietomalli Kiinteä metadata Yksi ohjelmisto Relaatiomalli Kiinteä metadata Yrityksen sisäinen integraatio 1970 1980 1990 2000 2010 18
Tutkimushaaste 4 Metadata tutkimusalueeksi Saanti Haku Jakaminen Hajautus Vakauttaminen Ryhmittely Uuden metadatan kehittäminen ja löytäminen Kyselyt 19