Kyselyiden käsittely. R & G Chapter Tietokannan hallinta, kevät 2006, Jan 1

Samankaltaiset tiedostot
Helsingin yliopisto/tktl Tietokannan hallinta, s Harri Laine 1 D B. Kyselyjen käsittely ja optimointi

D B. Kyselyjen käsittely ja optimointi. Kyselyn käsittelyn vaiheet:

Helsingin yliopisto/tktl Kyselykielet, s 2006 Tietokantaoperaatioiden toteutuksesta Harri Laine 1. Kyselyjen käsittely

D B. Kyselyjen käsittely ja optimointi. Kyselyjen käsittely ja optimointi

Helsingin yliopisto/tktl Kyselykielet, s 2006 Optimointi Harri Laine 1. Kyselyn optimointi. Kyselyn optimointi

Liitosesimerkki Tietokannan hallinta, kevät 2006, J.Li 1

Liitosesimerkki. Esim R1 R2 yhteinen attribuutti C. Vaihtoehdot

D B. Tietokannan hallinta kertaus

1. a) Laadi suoraviivaisesti kyselyä vastaava optimoimaton kyselypuu.

oheishakemistoja voi tiedostoon liittyä useita eri perustein muodostettuja

Tiedostorakenteet. R&G Chapter Tietokannan hallinta, kevät 2006, Jan 1

FROM-lausekkeessa voidaan määritellä useampi kuin yksi taulu, josta tietoja haetaan: Tuloksena on taululistassa lueteltujen taulujen rivien

TIEDONHALLINTA - SYKSY Luento 10. Hannu Markkanen /10/12 Helsinki Metropolia University of Applied Sciences

TKHJ:ssä on yleensä komento create index, jolla taululle voidaan luoda hakemisto

Relaatioalgebra. Kyselyt:

Kyselyt: Lähtökohtana joukko lukuja Laskukaava kertoo miten luvuista lasketaan tulos soveltamalla laskentaoperaatioita

Relaatioalgebra. Relaatioalgebra. Relaatioalgebra. Relaatioalgebra - erotus (set difference) Kyselyt:

3. Tietokannan hakemistorakenteet

3. Tietokannan hakemistorakenteet

SELECT-lauseen perusmuoto

Relaatiotietokantojen perusteista. Harri Laine Helsingin yliopisto

4. Kyselyjen käsittely ja optimointi

HELIA 1 (15) Outi Virkki Tiedonhallinta

Helsingin yliopisto/tktl Kyselykielet, s 2006 Tietokantaoperaatioiden toteutuksesta Harri Laine 1. Tiedostorakenteet.

Kyselyn yleisrakenne:

Helsingin yliopisto/ tktl DO Tietokantojen perusteet, s 2000 Relaatioalgebra Harri Laine 1. Relaatioalgebra

Algoritmit 1. Luento 5 Ti Timo Männikkö

D B. Kyselypuut ja ekvivalenssi

Yksitasoisia talletusrakenteita käytetään lähinnä datatietueiden talletukseen

joukko operaatioita, joilla relaatioista voidaan muodostaa uusia relaatioita joukko opin perusoperaatiot yhdiste, erotus, ristitulo, leikkaus

TIEDONHALLINTA - SYKSY Luento 8. Saapumisryhmä: Pasi Ranne /9/13 Helsinki Metropolia University of Applied Sciences

Jokaisella tiedostolla on otsake (header), joka sisältää tiedostoon liittyvää hallintatietoa

4. Kyselyjen käsittely ja optimointi

Helsingin yliopisto/tktl Tietokannan hallinta kevät Harri Laine 1 D B. Yksitasoiset talletusrakenteet

12. Javan toistorakenteet 12.1

HAAGA-HELIA Heti-09 1 (12) ICT05 Tiedonhallinta ja Tietokannat O.Virkki Näkymät

12. Javan toistorakenteet 12.1

TIEDONHALLINTA - SYKSY Luento 11. Hannu Markkanen /10/12 Helsinki Metropolia University of Applied Sciences

CSE-A1200 Tietokannat

11. Javan toistorakenteet 11.1

Hakemistorakenteet. R & G Chapter Tietokannan hallinta, kevät 2006, Jan 1

Ohjelmoinnin perusteet Y Python

Hajautusrakenteet. R&G Chapter Tietokannan hallinta, kevät 2006, Jan 1

Sisällys. 12. Javan toistorakenteet. Yleistä. Laskurimuuttujat

Helsingin yliopisto/ tktl D Tietokantojen perusteet, s 2000 Relaatioalgebra. Harri Laine 1. Relaatioalgebra.

HELIA 1 (14) Outi Virkki Tiedonhallinta

Hakemistotyypeistä. Hakemistorakenteet. Hakemiston toteutuksesta. Hakemiston toteutuksesta

Algoritmit 1. Luento 11 Ti Timo Männikkö

Helsingin yliopisto, Tietojenkäsittelytieteen laitos Tietokantojen perusteet, , H.Laine

SQL-perusteet, SELECT-, INSERT-, CREATE-lauseet

HELIA TIKO-05 1 (17) ICT03D Tieto ja tiedon varastointi Räty, Virkki

B-puu. 3.3 Dynaamiset hakemistorakenteet

D B. Harvat hakemistot. Harvat hakemistot

Lisätään avainarvo 1, joka mahtuu lehtitasolle:

Kyselyiden optimointi

Sisällys. 11. Javan toistorakenteet. Laskurimuuttujat. Yleistä

Hajautusrakenteet. Hajautukseen perustuvat tiedostorakenteet. Hajautukseen perustuvat tiedostorakenteet. Hajautukseen perustuvat tiedostorakenteet

Relaation tyhjyyden testaaminen

Esimerkkiprojekti. Mallivastauksen löydät Wroxin www-sivuilta. Kenttä Tyyppi Max.pituus Rajoitukset/Kommentit

Käsitellyt hakemistot (hajautus, ISAM): hakemisto-osa on staattinen eli ei muutu muuten kuin uudelleenorganisoinnissa.

Luento 2: Tiedostot ja tiedon varastointi

Algoritmit 1. Demot Timo Männikkö

HELIA 1 (21) Outi Virkki Tietokantasuunnittelu

HAAGA-HELIA Heti-09 1 (17) ICT05 Tiedonhallinta ja Tietokannat O.Virkki Suorituskyky

D B. B+ -puun tasapainotus poistossa. B+ -puun tasapainotus poistossa. Poistot. B+ -puun tasapainotus poistossa. B+ -puun tasapainotus poistossa

Insert lauseella on kaksi muotoa: insert into taulu [(sarakenimet)] values (arvot)

Harjoitustehtävä 1. Harjoitustehtävä 2. Harjoitustehtävä 2. Harjoitustehtävä 2. Harjoitustehtävä 2. SQL kysely

Tietokanta (database)

CS-A1150 Tietokannat CS-A1150 Tietokannat / 39

Algoritmit 1. Demot Timo Männikkö

Tietokantojen perusteet, syksy 1999 SQL- osa Harri Laine 1. SQL-valintaehto. SQL-valintaehto. Opettajien nimet: Opiskelijoiden pääaineet

Ohjelmoinnin perusteet Y Python

Tietorakenteet ja algoritmit - syksy

Algoritmit 1. Luento 10 Ke Timo Männikkö

Ohjelmoinnin perusteet Y Python

HELIA TIKO-05 1 (15) ICT03D Tieto ja tiedon varastointi Räty, Virkki

jotakin käyttötarkoitusta varten laadittu kokoelma toisiinsa liittyviä säilytettäviä tietoja

58131 Tietorakenteet ja algoritmit (kevät 2016) Ensimmäinen välikoe, malliratkaisut

Helsingin yliopisto/tktl Tietokantojen perusteet, s 2006 Tietokantaoperaatioiden toteutuksesta 3. Harri Laine 1

Algoritmit 2. Luento 5 Ti Timo Männikkö

Algoritmit 1. Luento 3 Ti Timo Männikkö

D B. Levykön rakenne. pyöriviä levyjä ura. lohko. Hakuvarsi. sektori. luku-/kirjoituspää

Yhdiste, leikkaus, erotus ym.

811120P Diskreetit rakenteet

Helsingin yliopisto, TKTL Tietokantojen perusteet, k 2000 SQL- osa Harri Laine 1. SQL-valintaehto. SQL-valintaehto.

Helsingin yliopisto /TKTL Tietokannan hallinta Harri Laine 1 D B. Harvat hakemistot. Harvat hakemistot

Algoritmit 1. Luento 1 Ti Timo Männikkö

Kirjoita jokaiseen erilliseen vastauspaperiin kurssin nimi, tenttipäivä, oma nimesi (selkeästi), opiskelijanumerosi ja nimikirjoituksesi

Kyselypuut ja ekvivalenssi. Kyselyiden optimointi. Kyselypuut ja ekvivalenssi. Kyselypuut ja ekvivalenssi. R & G Chapter 12-15

Rinnakkaistietokoneet luento S

Helsingin yliopisto/tktl DO Tietokantojen perusteet, s 2000 Johdanto & yleistä Harri Laine 1. Tietokanta. Tiedosto

2. Haet työntekijöiden tiedot etunimen mukaan nousevasti järjestettyinä. (ORDER BY) SELECT * FROM employees ORDER BY firstname ASC;

Esimerkki. pankkien talletus- ja lainatietokanta: Yhdiste, leikkaus, erotus ym. Leikkaus (intersect) Yhdiste (Union) Erotus (except/minus) Leikkaus

Lisätään avainarvo 6, joka mahtuu lehtitasolle:

Kirjoita kuhunkin erilliseen vastauspaperiin kurssin nimi, tentin päiväys, oma nimesi, syntymäaikasi ja nimikirjoituksesi.

Algoritmit 2. Luento 6 Ke Timo Männikkö

Helsingin yliopisto Tietojenkäsittelytieteen laitos (H.Laine) Tietokantojen perusteet. Liitteenä: Tiivistelmä SQL-syntaksista

select tulostietomäärittely from taulukkeet [where valintaehdot] [group by ryhmitystekijät] [having ryhmärajoitteet] [order by järjestysperusta]

D B. Harvat hakemistot

1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:

Transkriptio:

Kyselyiden käsittely R & G Chapter 12 15 16.02.06 Tietokannan hallinta, kevät 2006, Jan 1

Kyselyjen käsittely ja optimointi Kyselyn käsittelyn vaiheet: TKHJ ottaa vastaan kyselyn asiakasohjelmalta Kysely selataan ja jäsennetään tarkistetaan kyselyn rakenteellinen oikeellisuus Jäsennetty kysely muunnetaan relaatiolausekkeiksi ja tallennetaan sisäisessä esitysmuodossa kyselypuuna Laaditaan kyselyn toteutussuunnitelma suunnitelman laadintaan liittyy valintaa eri toteutusvaihtoehtojen välillä optimointia Suoritetaan kysely suunnitelman mukaisesti Toimitetaan tulokset asiakasohjelmalle 16.02.06 Tietokannan hallinta, kevät 2006, Jan 2

Kyselyjen käsittely ja optimointi Miksi optimoidaan SQL kysely määrittää halutun tuloksen, ei sitä miten tulos muodostetaan (deklaratiivinen kyselykieli) useimmissa oliokannoissa kysely etenee navigoimalla proseduraalisesti eli ohjelmoija kontrolloi kyselyn toteutustapaa, silloin ohjelmoijan pitää osata valita oikea tapa Valitut tiedostorakenteet vaikuttavat siihen, miten operaatio kannattaa suorittaa Taulujen koko ja arvojen jakautumat muuttuvat jatkuvasti, tämä saattaa vaikuttaa siihen, miten kysely kannattaa toteuttaa 16.02.06 Tietokannan hallinta, kevät 2006, Jan 3

Kyselyjen käsittely ja optimointi Kyselyn optimointi ei ole todellista matemaattista optimointia tarkoitus ei ole löytää parasta vaan riittävän hyvä parhaan etsiminen on laskennallisesti raskasta taustatietoja ei yleensä ole riittävästi parhaan valintaan Myös SQL:ssä käyttäjä voi jonkin verran vaikuttaa kyselyn suoritustapaan monissa SQL murteissa käyttäjä voi liittää kyselyyn vihjeitä siitä, miten kysely pitäisi käsitellä kyselyn esittämistapa voi myös vaikuttaa, esim. jos taululla on indeksi sarakkeen Nimi perusteella Nimi like Vir% käyttää indeksiä, mutta upper(nimi) like VIR% ei käytä 16.02.06 Tietokannan hallinta, kevät 2006, Jan 4

Kyselyjen käsittely ja optimointi Kyselyn optimoinnin periaatteet Heuristinen optimointi (sääntöpohjainen optimointi) käytössä on joukko sääntöjä, joiden mukaisesti operaatiot järjestetään tai suoritustavat valitaan valinnat ennen liitoksia käytä indeksiä aina kun mahdollista jne säännöt ovat yleiskäyttöisiä suoritustapa ei välttämättä ole optimaalinen 16.02.06 Tietokannan hallinta, kevät 2006, Jan 5

Kyselyjen käsittely ja optimointi Kyselyn optimoinnin periaatteet Kustannuslaskentaoptimointi (tilastollinen optimointi) laaditaan vaihtoehtoisia suunnitelmia, esim. sääntöpohjalta lasketaan vaihtoehdoille kustannukset valitaan edullisin edellyttää tilastoaineistoa ja sen uudistamista ajoittain 16.02.06 Tietokannan hallinta, kevät 2006, Jan 6

Kyselyjen käsittely ja optimointi SQL kyselyn voi ajatella muodostuvat joukosta kyselylohkoja (query block) (select from where lohko) yksi kyselylohko muodostaa kokonaisuuden, jonka suoritus voidaan suunnitella erikseen select lname, fname from employee where salary >= kaksi kyselylohkoa (select max(salary) from employee where dno=5); 16.02.06 Tietokannan hallinta, kevät 2006, Jan 7

Kyselyjen käsittely ja optimointi Kyselylohkot muunnetaan relaatioalgebran lausekkeiksi Lohko 1: π lname,fname (σ salary>c (employee)), Lohko 2: F max salary (σ dno=5 (employee)) F on laajennetun relaatioalgebran funktiooperaatio, tarvitaan esim. yhteenvetofunktioissa, ryhmittelyssä jne. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 8

Kyselyjen käsittely ja optimointi Relaatioalgebran operaatioiden suoritukseen on useita vaihtoehtoja Vaihtoehtojen tehokkuus vaihtelee Tehokkuuden ensisijaisena kriteerinä tarvittavien levyoperaatioiden lukumäärä luettaessa relaatioiden osia levyltä kirjoitettaessa operaation tulosta levylle tulos on joko välitulos tai lopputulos 16.02.06 Tietokannan hallinta, kevät 2006, Jan 9

Kyselyjen käsittely ja optimointi Välitulosten kirjoittamisen (ja edelleen lukemisen) kustannus voidaan usein jättää huomioimatta, jos tkhj käyttää putkitekniikkaa: (pipelining) operaation tulosjono ohjataan toisen syöttöjonoksi, jolloin levylle kirjoitusta ei tapahdu in valinta out in projektio out 16.02.06 Tietokannan hallinta, kevät 2006, Jan 10

Kyselyjen käsittely ja optimointi Operaation tulosjono ohjataan toisen syöttöjonoksi, jolloin levylle kirjoitusta ei tapahdu dataa siirtyy rivi kerrallaan ja vastaanottaja voi heti käsitellä syötettään in valinta out in projektio out 16.02.06 Tietokannan hallinta, kevät 2006, Jan 11

Tiedoston järjestäminen Monet tietokantaoperaatiot (muutkin kuin order by) edellyttävät tietueiden järjestämistä group by, relaatiomallin mukainen projektio (select distinct) yhdiste erotus järjestäminen voi luovuttaa ensimmäisen tulosrivin eteenpäin vastaa vastaanotettuaan viimeisen Jos käsiteltävät rivijoukot ovat isoja tarvitaan ulkoista järjestämistä (external sorting) 16.02.06 Tietokannan hallinta, kevät 2006, Jan 12

Tiedoston järjestäminen Ulkoisessa järjestämisessä käytetään yleisesti ns. lomitusjärjestämistä (merge sort): Tiedosto luetaan osina keskusmuistiin (osien koon määrää järjestämiseen käytettävissä olevan keskusmuistin määrä) Järjestetään kukin osatiedosto keskusmuistissa (esim. quicksort) Kirjoitetaan järjestetty osatiedosto (run, jono) levylle. Tehdään lomituskierroksia tarpeellinen määrä, jotta jäljellä on vain yksi järjestetty osatiedosto 16.02.06 Tietokannan hallinta, kevät 2006, Jan 13

Tiedoston järjestäminen Lomituskierros: Luetaan tietueita m (m 2) järjestetystä jonosta (osatiedostosta) lukua m kutsutaan lomitusasteeksi Lomitetaan tiedostot eli kirjoitetaan yhtä järjestettyä tulostiedostoa kirjoitetaan avaimeltaan pienin jonojen vuorossa olevista tietueista tulosjonoon ja edetään tämän jonossa Järjestettyjen osatiedostojen pituudet kasvavat kierroksella m kertaiseksi. Jos jonoja (osatiedostoja) oli alunperin n, tarvitaan lomituskierroksia roof(log m n) 16.02.06 Tietokannan hallinta, kevät 2006, Jan 14

Jokaisella kierroksella luetaan ja kirjoitetaan jokainen sivu N sivua tiedostossa => kierroksia = log 2 N 1 Kokonaiskustannus 2N log 2 N 1 Esimerkki 3,4 6,2 9,4 8,7 5,6 3,1 2 3,4 2,6 4,9 7,8 5,6 1,3 2 2,3 4,6 2,3 4,4 6,7 8,9 4,7 8,9 1,3 5,6 2 1,2 3,5 6 Syöte Vaihe 0 1 suoritus Vaihe 1 2 suoritus vaihe 2 4 sivuiset Vaihe 3 8 sivuiset 7,8 16.02.06 Tietokannan hallinta, kevät 2006, Jan 9 15 1,2 2,3 3,4 4,5 6,6

Tiedoston järjestäminen Oletetaan, että järjestämiseen on käytettävissä puskuritilaa 129*4KB (vähän yli 0.5MB). Tiedoston koko olkoon 2048 sivua= 8MB. Alkuperäiseen järjestämiseen voidaan käyttää 128 syöttöpuskuria ja 1 tulospuskuri, joten saadaan 128 sivun pituisia järjestettyjä jonoja 16 kappaletta. Näiden järjestäminen hoituu 1 lomituskierroksella 16 asteinen lomitus. Yhdellä lomituskierroksella selvittäisiin tällä puskurimäärällä 128*128*4KB (64MB) kokoisesta tiedostosta. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 16

Tiedoston järjestäminen Kullakin kierroksella kaikki sivut luetaan ja kirjoitetaan. Olkoon tiedoston koko N sivua ja muistitilaa käytettävissä B sivua. Levyoperaatioita tarvitaan tällöin 2N+2N*roof(log B 1 roof(n/(b 1))) levyoperaatiot peräkkäiskäsittelyä lomituksesta on olemassa erilaisia muunnelmia esim. muistitilan käytön suhteen, esim. kaksoispuskuroinnilla voidaan vähentää jonotusaikoja (toisiin puskureihin luetaan kun toisia käsitellään), mutta B puolittuu ja levyoperaatioiden määrä kasvaa vaikka kokonaisaika väheneekin 16.02.06 Tietokannan hallinta, kevät 2006, Jan 17

Valintaoperaation toteutus Valinta: select * from R where A op value σ A op value (R) Valinnan vaihtoehdot riippuvat valintaehdosta ja käytössä olevista tiedostorakenteista 16.02.06 Tietokannan hallinta, kevät 2006, Jan 18

Valintaoperaation toteutus Tiedoston läpikäynti (scan) soveltuu aina käytettävä jos sarake A ei ole mukana missään indeksissä eikä tiedosto ole sarakkeen A:n perusteella järjestetty sarake A on jonkin funktion argumenttina, esim. upper(a), myös substring(a,1,x)? voi hyödyntää peräkkäiskäsittelyä 16.02.06 Tietokannan hallinta, kevät 2006, Jan 19

Valintaoperaation toteutus Binäärihaku (binary search) soveltuu, jos tiedosto on järjestetty sarakkeen A perusteella etsitään ensimmäinen ehdon täyttävä, josta voidaan jatkaa eteenpäin voi hyödyntää peräkkäishakua vasta ensimmäisen ehdon täyttävän löytymisen jälkeen 16.02.06 Tietokannan hallinta, kevät 2006, Jan 20

Valintaoperaation toteutus Indeksihaku (index scan) soveltuu, jos käytössä on hakusarakkeeseen perustuva indeksi pelkästään hakusarake hakusarakealkuinen indeksointiperusta hakusarake mukana indeksissä tämäkin saattaa olla käyttökelpoinen edellyttää koko hakemiston läpikäyntiä, mutta toimii jos hakemisto on pieni suhteessa tiedostoon ja hakuehto on hyvin rajaava (selective) = jäljittää pienen tietuejoukon, 16.02.06 Tietokannan hallinta, kevät 2006, Jan 21

Valintaoperaation toteutus Valintaehto muodostuu ja ( ) ja tai ( ) operaatioilla yhdistetyistä alkeisehdoista. Valintaehdot muutetaan ensin konjuktiiviseen normaalimuotoon (conjunctive normal form, CNF): Esim: (day<8/9/94 AND rname= Paul ) OR bid=5 OR sid=3 (day<8/9/94 OR bid=5 OR sid=3 ) AND (rname= Paul OR bid=5 OR sid=3) 16.02.06 Tietokannan hallinta, kevät 2006, Jan 22

Valintaoperaation toteutus Konjunktiota (e 1 e 2... e n ) evaluoitaessa ei riitä, että jokin ehdoista täyttyy vaan kaikkien pitää täyttyä. Jos joillakin ehdoissa olevista sarakkeista on indeksit näitä pyritään käyttämään: valitsemalla eniten rajaava indeksi, ja tutkimalla sen jälkeen tietueista muut ehdot, tai muodostamalla hakemistojen leikkaus ja tutkimalla leikkausjoukon tietueista ne ehdot, joita ei voida ratkaista indeksien perusteella tämä ratkaisu edellyttää tietueosoitteita leikkausjoukon muodostamiseksi jäljitetyt osoitelistat järjestetään osoitteen perusteella ja lomitetaan Huom: tietueosoitteessa alussa sivuosoite. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 23

Valintaoperaation toteutus Olkoon taululle työntekijä määritelty indeksi sekä sukunimen että kotiosoitteen perusteella. Tällöin select * from työntekijä where sukunimi= Löpönen and kotiosoite= Teollisuuskatu 23 B446, Helsinki voitaisiin toteuttaa valitsemalla rajaavampi indeksi (kotiosoite), ja tutkimalla tietueet keskimäärin vähän yli 1 (olisi tässä parempi vaihtoehto koska osoite on hyvin rajaava), tai hakemalla kummankin indeksin perusteella (keskimäärin 30 ja 1+) ja muodostamalla näiden leikkaus. On tässä tapauksessa huonompi, mutta jos kumpikaan indeksi ei ole kovin tiukasti rajaava (vaikkapa kurssikoodi ja opiskelijanumero ilmoittautumistiedoissa), niin niiden leikkaus voi olla silti hyvin pieni) 16.02.06 Tietokannan hallinta, kevät 2006, Jan 24

Valintaoperaation toteutus Disjunktiivisen ehdon e 1...v e n tulos vastaa erillisillä ehdoilla e 1 e n saatujen rivijoukkojen yhdistettä. Koko tiedosto on käytävä läpi, jos yksikin ehdoista perustuu sarakkeeseen, jolle ei ole indeksiä 16.02.06 Tietokannan hallinta, kevät 2006, Jan 25

Projektion toteutus Projektiolla on kaksi tehtävää sarakkeiden poiminta ja toistuvien vastausrivien karsinta SQL kyselyissä toistuvia rivejä ei välttämättä haluta karsia (kyselyssä ei DISTINCT määrettä) Sarakkeiden poiminta on suoraviivaista otetaan tietueesta vain ne sarakkeet, jotka on lueteltu projisoitaviksi jos kaikki luetellut sarakkeet löytyvät hakemistosta ei varsinaisia datarivejä tarvitse lukea lainkaan. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 26

Projektion toteutus Toistuvien vastausrivien (duplikaattien) karsinta on hieman hankalampaa. Tietueet voidaan järjestää käyttäen järjestysavaimena koko tietuetta (jos tulokselle on määritelty järjestys käytetään järjestysperustaa avaimen alussa). Näin duplikaatit saadaan peräkkäin ja ne voidaan helposti karsia yhdellä läpikäynnillä (tai lomituksen viimeisellä kierroksella). jos vastaus on pieni, riittää keskusmuisti järjestäminen, mutta ensimmäinen tulosrivi voidaan toimittaa eteenpäin vasta kun viimeinen syöttörivi on saatu. isot vastaukset edellyttävät ulkoista järjestämistä. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 27

Projektion toteutus Toistuvien rivien karsinta Tietueet voidaan myös hajauttaa koko tietueesta lasketun hajautusavaimen perusteella. Tällöin duplikaatit sijoittuvat samaan soluun ja ne voidaan lisäysvaiheessa karsia. Jos osoiteavaruus on riittävän iso, tulee samaan soluun vähän tietueita ja vähän tutkittavaa. Tyypillisesti käytetään kahta peräkkäistä hajautusta jako h1... kukin vuorollaan tuplat pois lisäysvaiheessa kokoaminen 16.02.06 Tietokannan hallinta, kevät 2006, Jan 28 h2

Projektion toteutus Toistuvien rivien karsinta Jos projektio sisältää taulun avaimen ei tulosrivejä tarvitse lajitella tai hajauttaa, tiedetään että toistuvia rivejä ei ole. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 29

Liitoksen toteutus Liitos on tärkeimpiä ja yleisimpiä relaatioalgebran operaatioita Yleisin liitos on taulun pääavaimen ja siihen viittaavan viiteavaimen yhtäsuuruuteen perustuva liitos. Seuraavassa käytetään esimerkkinä taulujen opiskelija (500 sivua, kussakin 20 tietuetta) ja suoritus (2000 sivua, kussakin 50 tietuetta) liitosta opiskelijanumeron perusteella. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 30

Liitoksen toteutus Liitos voidaan määritellä ristitulon ja valinnan yhdistelmäksi. Yksinkertaista olisi muodostaa ristitulo ja tehdä sen jälkeen valinta. Ratkaisu on kuitenkin tehoton. Liitoksen toteutukseen on tarjolla useita tekniikoita. Päätyypit: sisäkkäiset silmukat (nested loop join) hakemistoliitos (index nested loop join) lomitusliitos (sort merge join) hajautusliitos( hash join) 16.02.06 Tietokannan hallinta, kevät 2006, Jan 31

Liitoksen toteutus Tarkastellaan taulujen R ja S liitosta ehdolla R.x=S.y Sisäkkäisten silmukoiden tekniikassa perusidea on seuraava: foreach tuple r in R do foreach tuple s in S do if r.x==sy then add {r,s} to result eli käydään läpi ulompi taulu ja jokaisen rivin kohdalla käydään läpi sisempi taulu 16.02.06 Tietokannan hallinta, kevät 2006, Jan 32

Liitoksen toteutus Olkoon R:n sivumäärä pages(r) ja S:n sivumäärä pages(s) ja vastaavasti sivukoot tietueina psize(r) ja psize(s). Tällöin edellä kuvatun yksinkertaisen algoritmin kustannus levyhakuina olisi op = pages(r)+psize(r)*pages(r)*pages(s)+ tuloksen kirjoitus Esim: jos R= opiskelija ja S= suoritus, niin operaatioita = 500+500*20*2000 =20 000 500 + tulos. jos R= suoritus ja S= opiskelija, niin operaatioita= 2000+2000*50*500 = 50 002 000 + tulos Hidasta 16.02.06 Tietokannan hallinta, kevät 2006, Jan 33

Liitoksen toteutus Parannetaan algoritmia hieman ja käsitellään koko sivu kerralla. Siis jokaista R:n sivua kohti käydään S kertaalleen läpi ja verrataan kaikkia R:n sivulla olevia tietueita vuorossa olevan S:n sivun tietueisiin. operaatioita pages(r)+pages(r)*pages(s)+tuloksen kirjoitus R= opiskelija, S= suoritus: 500+500*2000=1 000 500 R= suoritus, S= opiskelija: 2000+2000*500 = 1 002 000 satunnaishakuajalla 10ms laskettuna tämä veisi 10 005 s Mitä enemmän R:stä käsitellään kerralla sitä vähemmän kierroksia tarvitaan, niinpä parannetaan vielä. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 34

Liitoksen toteutus Jaksottaiset sisäkkäiset silmukat (Block nested loops) versio joka yleensä tarjolla tkhj:ssä Oletetaan, että liitoksen suorittamiseen on käytettävissä B syöttöpuskuria. Varataan näistä B 1 ulommalle taululle R ja 1 sisemmälle taululle S. Käydään yhdellä vertailukierroksella läpi kaikki ulomman taulun puskurit ja verrataan tietueita sisemmän taulun vuorossa olevan sivun tietueisiin. Sisempi taulu S joudutaan käymään läpi roof(pages(r)/(b 1)) kertaa Vaikka levyoperaatioiden määrä on tässä mallissa pienin, paras käsittelyteho saavutetaan, jos puskurikapasiteetti jaetaan tasan kummankin liitostiedoston kesken levyhakuja tulee enemmän, mutta voidaan hyödyntää peräkkäisyyttä 16.02.06 Tietokannan hallinta, kevät 2006, Jan 35

Liitoksen toteutus Esimerkki: Varataan liitoksen toteutukseen puskuritilaa 101 syöttöpuskurille (404KB) R= opiskelija, S= suoritus operaatioita= 500 + (500/100) *2000 + tulos =10500+tulos satunnaishakuajalla 10 ms laskettuna tämä olisi 105 s R voidaan kuitenkin lukea 100 sivun pätkinä, jolloin aikaa oikeastaan kuluisi 5*(satunnaishakuaika + 100 sivun siirto)+5*2000*(satunnaishakuaika+1 sivun siirto)= 5*(10ms +100*0.2 ms)+10000*(10 ms+0.2 ms)= 150 ms+102000ms= noin 102 s R=suoritus, S=opiskelija operaatioita=2000 + (2000/100)*500= 12000 16.02.06 Tietokannan hallinta, kevät 2006, Jan 36

Liitoksen toteutus Jos jaettaisiin puskuritila puoliksi R:lle ja S:lle ja R = opiskelija ja S= suoritus niin hakuaika: 10*(10ms+ 50 *0.2 ms)+ 10*2000/50*(10 ms+50 *0.2 ms)= 10*11ms+10*40*(11ms)= 110 ms + 4400ms =4.51 s odotusajat lisäävät kokonaisaikaa 16.02.06 Tietokannan hallinta, kevät 2006, Jan 37

Liitoksen toteutus Hakemistoliitos (index nested loop) Jos toisella taululla on hakemisto liitossarakkeeseen perustuen tehdään tästä sisempi taulu foreach tuple r in R do foreach tuple s in index_search(s,r.x) do add {r,s} to result Jos hakemistona on rakenteeltaan B+ puu rakenteinen oheishakemisto, tarvitaan indeksin kautta hakuun tyypillisesti 1 4 levyhakua isollakin tiedostolla. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 38

Liitoksen toteutus Hakujen kokonaismäärä: pages(r)+pages(r)*psize(r)*(height(s)+matches(s)) height(s): levyhakujen määrä hakemiston kautta haettaessa, mukaan mahdolliset ylivuotoketjut ja oletukset siitä, mitä säilyy keskusmuistissa. matches(s): montako keskimäärin löytyy yhtä ulompaa kohti. Jos kyseessä on B+ puuna toteutettu oheishakemisto, on jokaista tietuetta kohti oma hakemistotietue (jos tietueosoite on mukana avaimessa nämä ovat osoitejärjestyksessä), yksi haku / osuma riittänee. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 39

Liitoksen toteutus Esimerkki: R= opiskelija S=suoritus levyhakuja 500+500*20*(2+ 10) = 120 500 oletetaan tehollinen hakukorkeus 2, opiskelijalla 10 suoritusta kaikki S:n haut satunnaishakuja > noin 1200 s R=suoritus, S=opiskelija levyhakuja 2000+2000*50*(2+1)= 302 000 Huomaamme, että kokonaan läpikäytäväksi (ulommaksi) kannattaa valita pienempi tauluista. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 40

Liitoksen toteutus Lomitusliitos (sort merge join) soveltuu yhtäsuuruusliitokseen Lomitusliitoksessa taulut järjestetään liitossarakkeen perusteella Kun rivit ovat järjestyksessä on liitos muodostettavissa yhdellä läpikäynnillä Rivit ovat järjestyksessä esim., jos tiedoston toteutusrakenteena on ISAM tai B+ puu Jos tiedostolla on B+ puurakenteinen oheishakemisto, tietueet saadaan myös järjestyksessä (tosin hitaammin) 16.02.06 Tietokannan hallinta, kevät 2006, Jan 41

Liitoksen toteutus Elleivät rivit ole järjestyksessä, ne pitää ensin järjestää. Järjestämisen levyoperaatioiden määrähän oli 2N+2N*roof(log B 1 roof(n/(b 1))) tuloksen muodostus hoituu yhdellä läpikäynnillä. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 42

Liitoksen toteutus Esim. Olkoon B=101, Kumpikin esimerkkitaulu vaatii jonojen muodostuksen ja yhden lomituskierroksen sekä yhdistämisen liitoksen aikaansaamiseksi. Oletetaan että lomituksen tulos putkitetaan liitokseen, tällöin operaatioita on 3* sivulukumäärä kummallakin. luku+kirjoitus+luku sort opiskelija sort suoritus putkeen merge join tuloksen kirjoitus 16.02.06 Tietokannan hallinta, kevät 2006, Jan 43

Liitoksen toteutus eli esimerkkitapauksessa levyoperaatioita 3*500+3*2000+tulos = 7500 + tulos jonojen muodostus sujuu peräkkäiskäsittelynä lomituksessa voidaan joutua odottamaan, Oletetaan, että jonoja luetaan lomituksessa10 ja 5 sivun jaksoissa (käytetään kaikki puskurit) opiskelija jonojen teko: 2*5*(10ms+100*0.2ms)+ suoritus jonojen teko: 2*20*(10ms+100*0.2ms) + opiskelija jonojen luku: 500/10*(10ms+10*0.2 ms) + suoritus jonojen luku: 2000/5*(10ms+5*02.ms)= 300ms+1200ms + 1500 ms + 8000 ms = 11s 16.02.06 Tietokannan hallinta, kevät 2006, Jan 44

Liitoksen toteutus Edellä esitelty lomitus soveltuu hyvin tilanteisiin, joissa tiedetään että riville löytyy enintään yksi pari esimerkiksi avaimen ja viiteavaimen vertailu on tällainen tilanne Tällöin taululla on yleensä avaimeen perustuva järjestetty indeksi tai taulu on organisoitu ISAM tai B+ puuksi on tietueet luettavissa järjestyksessä pääavaimen mukaisesti, Tarvitaan järjestäminen vain liitoksen toiselle osapuolelle Esimerkissämme vain taulu suoritus järjestettäisiin jos taulu opiskelija olisi toteutettu B+ puuna tarvittaisiin 3*2000 + 500 =6500 hakua jos taulu opiskelija olisi kasarakenne jolla olisi B+ puu indeksi tarvittaisiin 3*2000 + n. 60 (hakemistosivut) + 20*500 hakua = 16060 16.02.06 Tietokannan hallinta, kevät 2006, Jan 45

Liitoksen toteutus Jos tietueparien muodostuksessa vallitsee monen suhde moneen yhteys (yhdellä R:n tietueella voi olla useita liitosehdon toteuttavia pareja ja myös toisinpäin) tulee lomitusoperaatiosta hankalampi. Kun jonon tietueilla on enintään yksi pari voidaan parin teon jälkeen edetä jonossa. Kun jonon tietueilla voi olla useita pareja ja liitossarakkeen arvo säilyy siirryttäessä seuraavaan tietueeseen, pitää jo paritettu tietue ottaa talteen ja käsitellä talteen otetut tietueet siinä vaiheessa kun kumppanijonossa siirrytään eteenpäin. Talteen otettujen määrä voi kasvaa suureksi, jos sama arvo toistuu usealla rivillä. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 46

Liitoksen toteutus tallessa R 20 40 40 40 40 50 50 S 30 40 40 40 50 ohjaa lomitusta ongelmallinen paritus lomituksessa 16.02.06 Tietokannan hallinta, kevät 2006, Jan 47

Liitoksen toteutus Hajautusliitos (hash join) soveltuu yhtäsuuruusliitokseen Hajautusliitos jakautuu kahteen vaiheeseen jakovaiheeseen ja tutkintavaiheeseen Jakovaiheessa luetaan kumpikin tiedosto ja hajautetaan se hajauttimella h B soluun tiedostoihin HR ja HS, Sivuja kirjoitetaan levylle sitä mukaa kun ne täyttyvät ja kytketään tarvittaessa ylivuotoketjuun. Solussa HR[i] olevien tietueiden parit löytyvät siis solusta HS[i]. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 48

Liitoksen toteutus Tutkintavaiheessa käydään tiedostot HR ja HS kertaalleen läpi solupari kerrallaan Soluparin käsittely voi tapahtua esim. hajauttamalla pienemmän tiedoston sivun tietueet keskusmuistissa olevaan hajautustaulukkoon hajauttimella h2 ja käymällä sitten suuremman tiedon solun tietueet läpi siten, että kullekin vuorollaan lasketaan hajautusosoite hajauttimella h2 ja tutkimalla ko. solun tietueet ja tehdään tulostietue tarvittaessa. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 49

Liitoksen toteutus Levyoperaatioiden (luku + kirjoitus) määrä jakovaiheessa on 2*(pages(R)+pages(S))+F, missä F on vajaista sivuista johtuva korjaus, F<2B Yhdistämisvaiheessa luetaan pages(r) + pages(s) + F sivua, Eli yhteensä tarvitaan 3*(pages(R)+pages(S))+2F sivua. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 50

Liitoksen toteutus Esim. Opiskelija & suoritus liitos vaatisi 3*(500 + 2000) + 50 (jos B=50) =7550 hakua. satunnaishakuajalla saadaan noin 75s. jakovaiheessa voidaan hyödyntää peräkkäishakua jolloin aika hieman vähenee. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 51

Liitoksen toteutus Jos pienempi tiedostoista on niin pieni, että se mahtuu hajautettavaksi keskusmuistin hajautustaulukkoon voidaan jakovaihe jättää pois. Tällöin levyoperaatioiden määrä on vain pages(r)+ pages(s), eli sama kuin jaksotettujen sisäkkäisten silmukoiden tapauksessa kun pienempi voidaan lukua yhtenä jaksona hajautustaulun käyttö on todennäköisesti nopeampi tapa muodostaa parit kuin etsiä niitä silmukassa. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 52

Joukko operaatioiden toteutus Relaatioalgebran joukko operaatiossa tyypillinen ratkaisu on käyttää lomitusliitoksen tai hajautusliitoksen muunnelmaa yhdisteen lomitusvaiheessa otetaan kaikki mukaan ja karsitaan toistuvat rivit leikkauksen lomitusvaihe valitsee yhteiset erotukset lomitusvaiheessa valitaan ne, joita ei löydy toisesta tiedostosta. levyoperaatioiden määrät vastaavat lomitus ja hajautusliitoksen määriä. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 53

Koostefunktioiden toteutus SQL:n koostefunktioita voidaan soveltaa koko aineistoon tai ryhmiin. Jos koostefunktion argumentti esiintyy hakemistosarakkeena, voidaan koostefunktion arvo laskea pelkästään tiheän hakemiston läpikäynnillä tutkimatta tietueita. Min ja max saadaan selville harvastakin hakemistosta hakemalla ensimmäinen / viimeinen lehtisivu. Lukumäärä voidaan selvittää pääavainhakemiston avulla. 16.02.06 Tietokannan hallinta, kevät 2006, Jan 54

Ryhmittely SQL:n ryhmittely on toteutettavissa järjestämällä tiedosto ryhmittelysarakkeiden perusteella samaan ryhmään kuuluvat tulevat peräkkäin, jolloin tunnusluvut on laskettavissa yhdellä läpikäynnillä 16.02.06 Tietokannan hallinta, kevät 2006, Jan 55