TIEDOSTOFORMAATIT Lyhyt selostus erilaisista tiedostoformaateista Herlokki Solmunen 0000000 31.1.2008
SISÄLLYSLUETTELO 1 Johdanto...1 2 Erilaiset toimistosovellusten formaatit...1 2.1 MS Office versioon 2003 asti...1 2.2 MS Office versiosta 2007 alkaen...1 2.3 MS Works...2 2.4 OpenOffice...2 2.5 PDF - Portable Data Format...2 3 Kuvaformaatit...4 3.1 Vektorigrafiikka...4 3.2 Bittikarttakuvat...4 3.2.1 Hävittämätön formaatti...4 3.2.2 Hävittävä formaatti...4 3.2.3 Webbikäyttöön sopivat formaatit...5 4 Lisää tietoa formaateista...5
1 JOHDANTO Tiedostoja on erilaisia. On kuvatiedostoja, tekstitiedostoja, taulukkolaskentaohjelman tuottamia tiedostoja jne. Siksi tarvitaan erilaisia tapoja tallettaa tiedosto. Näitä kutsutaan tallennusformaateiksi. Tämä dokumentti kertoo erilaisista tallennusformaateista. 2 ERILAISET TOIMISTOSOVELLUSTEN FORMAATIT Tässä osiossa esitellään MS Officen sekä OpenOfficen käyttämät tiedostoformaatit sekä kuvaillaan myös PDF-formaatin käyttö. 2.1 MS Office versioon 2003 asti MS Office käytti tähän versioon asti omaa suljettua tallennusformaattiaan. Wordin tallennusmuoto oli tarkentimeltaan.doc, Excelin.xls, PowerPointin.ppt ja Accessin.mdb. Nämä ovat Accessia lukuunottamatta kohtuullisen hyvin yhteensopivia eri MS Officen versioiden välillä. Muista ohjelmista näiden lukeminen onnistuu vaihtelevasti. Esimerkiksi OpenOffice lukee kohtuullisesti näitä, kuitenkaan kaikki ominaisuudet eivät välttämättä siirry kunnolla. Sähköpostin tiedostoliitteinä taikka www-sivujen kautta näiden jakaminen ei ole järkevää kuin siinä tapauksessa, että voidaan olla varmoja vastaanottajan kykenevän lukemaan näitä. Ei kaikilla tietokoneen käyttäjillä välttämättä ole ohjelmaa, jolla nämä tiedostot saisi auki. Lisäksi kyseisten formaattien makrokieli mahdollistaa hyvinkin tehokkaan virusten levittämisen. Parempi liiteformaatti on Portable Data Format, PDF. MS Office ei osaa kuitenkaan tehdä itse tätä konversiota, vaan se tarvitsee erillisen apuohjelman tätä varten. PDF:stä ja näistä konversio-ohjelmista lisää myöhemmin tässä dokumentissa. 2.2 MS Office versiosta 2007 alkaen Tässä versiossa Microsoft siirtyi käyttämään XML-pohjaista tiedostoformaattia 1. Tässä tavassa dokumentin sisältö ja rakenne ovat erillään toisistaan ja rakenteen määrittelyä muuttamalla voidaan helpohkosti vaihtaa dokumentin esitysasua, esimerkiksi asiakirjasta www-sivuksi. Nämä x-lisäyksellä varustetulla tiedostopäätteellä (.docx jne) eivät kuitenkaan ole yhteensopivia aikaisempien MS Office -ohjelmien kanssa eikä niitä voi suoraan lukea vanhemmilla MS Office -versioilla. 2003-versioon saa ns. yhteensopivuuspaketin, jolla pystyy lukemaan näitä dokumentteja. OpenOffice käytttää myös XML-pohjaista rakennetta, joka ei myöskään ole yhteensopiva tämän kanssa. Näin ollen OO:lla ei voi ilman erillistä lisäpalikkaa lukea Office 2007:n dokumentteja eikä päinvastoin. (näin siis tilanne tätä kirjoitettaessa lokakuussa 2007, Linux-konversio oli jo Suseen [Novell] olemassa 2 ). Office 2007:n tiedostomuoto on vieläkin huonompi versio sähköpostin tiedostoliitteeksi, koska sitä ei tosiaan saa välttämättä edes vanhemmilla Office-paketeilla auki. 1 Ks. lisätietoja esim. http://fi.wikipedia.org/wiki/xml 2 Osoitteessa http://sourceforge.net/projects/odf-converter on tekeillä avoin konvertteri OpenOfficen ja MS Office 2007:n tiedostomuotojen välillä. 1(5)
2.3 MS Works 2.4 OpenOffice Tämä on Microsoftin kevyt monitoimiohjelma, jossa on mm. yksinkertainen taulukkolaskin ja tekstinkäsittelyohjelma. Tätä on usein annettu ilmaiseksi tietokonepakettien mukana, koska tämän kanssa voi ostaa MS Officen päivitysversion ja saada sen sitten edullisemmin. Tämä on tiedostomuodoiltaan ongelmallinen, koska sitä ei osaa edes MS:n omat muut ohjelmat. Jos esimerkiksi tekee tämän tekstinkäsittelyohjelmalla dokumentin, se pitää tallettaa RTF-tiedostomuotoon, jos halutaan, että sen saa joku jollakin muulla ohjelmalla auki. RTF on nimensäkin mukaisesti Rich Text Format, joten se soveltuu vain tekstitiedostojen tallettamiseen, ei esimerkiksi taulukkolaskentaohjelman tiedostoihin. OpenOfficen 2-versiot käyttävät tiedostomuotonaan ns. Open Document Format -muotoa. Se on XML-pohjainen kuten MS Office 2007:nkin tiedostomuoto. Se ei kuitenkaan ole yhteensopiva sen kanssa. (Ks. MS Office-kohta) OpenOfficen tiedostotarkentimet alkavat yleensä.od, eli.odt on tekstidokumentti (text),.odc taas taulukko (calc) jne. 1-versiot käyttivät tästä hieman poikkeavaa tiedostomuotoa. Sen tarkentimet alkavat.sx, esimerkiksi.sxw on tekstitiedosto (writer). Pääte tulee ilmeisesti StarOfficen mukaan. StarOffice oli alkuperäinen toimisto-ohjelma, josta OpenOffice kehittyi. (Itse asiassa Sun:n kehittämä kaupallinen versio on edelleenkin nimeltään StarOffice.) OpenOffice lukee kohtuullisen hyvin MS Office 2003:n ja sitä vanhempien MS Office -versioiden tiedostoja. Se osaa myös tallettaa tiedostoja nähin muotoihin. Sähköpostin tiedostoliitteenä OO:n tiedostomuotoa kannattaa käyttää vain jos on varma siitä, että vastapuoli käyttää myös OpenOfficea. Dokumentit voi konvertoida PDF:ksi, joka on paremmin tuettu tiedostomuoto, ainakin sen lukeminen onnistuu varmemmin. OpenOffice osaa toteuttaa tällaisen muunnoksen. 2.5 PDF - Portable Data Format PDF on Adoben kehittämä tiedostomuoto. Se perustuu kirjoittimien sivunkuvauskielenä käytettyyn PostScriptiin 3. Adoben ilmaisella lukijalla voi lukea PDF-dokumentteja, ei kuitenkaan muokata. PDF ei kuitenkaan ole täysin avoin formaatti, vaikka se onkin hyvin yleisesti tuettu. Siitä syystä se soveltuu kohtuullisen hyvin tiedostojen jakamiseen sähköpostilla niissä tapauksissa, kun vastaanottajan ei tarvitse muokata tiedostoa. Valitettavasti tähänkin formaattiin on tungettu mukaan erilaisia toiminnallisia elementtejä, joten tämäkin mahdollistaa haittaohjelmien levittämisen liitteiden mukana. MS Office ei osaa tuottaa PDF-dokumentteja ilman erillistä apuohjelmaa. Näitä on kuitenkin saatavilla ihan ilmaiseksikin. Yksi tällainen on PDFForge (http://www.pdfforge.org/). Ohjelma luo koneeseen virtuaalikirjoittimen ja näin ollen voit tehdä minkä tahansa ohjelman tulosteesta PDF-dokumentin vain tulostamalla tiedoston tälle tulostimelle. 3 Lisätietoja esimerkiksi http://www.cs.tut.fi/~jkorpela/postscript.html 2(5)
Kuva 1: PDFCreator tulostinvalikoimassa 3 KUVAFORMAATIT Kuvaformaatit ovat kuvien tallennusmuotoja. On olemassa erilaisia kuvia, kuten valokuvat erilaiset rakennuspiirrustukset piirrokset ruutukaappaukset Nämä tarvitsevat erilaisia tallennusmuotoja. Esimerkiksi rakennuspiirrustusten tarkkuus ei saa kärsiä, vaikka kuvan kokoa jouduttaisiin muuttamaan. Webissä näytettävän valokuvan tarkkuudella ei taas ole niinkään väliä. Näin ollen se ei siis edellytä niin suurta tarkkuutta tallennusmuodoltaan. 3.1 Vektorigrafiikka 3.2 Bittikarttakuvat Tallennusmuodot voidaan jakaa kahteen osaan: vektorigrafiikkaan sekä bittikarttakuviin. Tässä grafiikan muodossa tallennetaan kuvat piirto-ohjeina. Eli jos täytyy piirtää suora viiva, talletetaan kuvan alku- ja loppupiste, viivan väri sekä paksuus. Erilaiset kaarevat muodot voidaan toteuttaa matemaattisina funktioina. Tällaisen kuvan hyvä puoli on siinä, että sen kokoa voi muuttaa täysin mielensä mukaan eikä sen tarkkuus kärsi siitä koskaan. Tietysti kuvan leveys-korkeus-suhde saattaa pahimmassa tapauksessa muuttua ja se taas sekoittaa mittasuhteet. Vektorigrafiikkaa käytetään erilaisissa cad-suunnitteluohjelmissa, jossa vaaditaan tarkkuutta sekä täsmällisiä piirto-ohjeita. Lisäksi näitä kuvia voi toteuttaa erilaisilla tarkoitukseen laadituilla grafiikkaohjelmilla, esimerkiksi Corel Draw:lla. Myöskin MS Officen mukana tuleva Clipart- eli leikekuvakirjasto on toteutettu vektorigrafiikalla. Bittikarttakuvia voidaan käyttää valokuvien sekä erilaisten piirrosten sekä ruutukaappausten tallettamiseen. Bittikartassa tallennus tapahtuu pikseli kerrallaan. Miten asia pohjimmiltaan tapahtuu, riippuu formaatista. Esimerkiksi Windowsin oma bitmapformaatti (BMP) tallettaa jokaisen pikselin sellaisenaan erikseen, joten tiedostoista tulee hyvin isoja hyvin helposti. Joku toinen formaatti taas pakkaa tietoa jollakin tiivistysalgoritmilla, jolloin tiedoston koko pienenee. Bittikarttoja tallettavia formaatteja on kahdenlaisia: hävittämättömiä ja hävittäviä formaatteja. 3(5)
3.2.1 Hävittämätön formaatti Tällainen formaatti tallettaa kaiken kuvainformaation jokaiselta pikseliltä. Tällaista formaattia käytetään tilanteissa, joissa tarvitaan tarkkaa kuvaa. Esimerkiksi kirjapainossa, jossa tarvitaan tarkkoja kuvia, käytetään hävittämätöntä formaattia. Esimerkkejä formaateista on esimerkiksi TIFF (Tagged Image Format, näitä on useita erilaisia, eivätkä kaikki ole aivan yhteensopivia) sekä BMP (Windows Bitmap). Haittapuolena näissä formaateissa on, että niiden tuottamat tiedostotkoot ovat pahimmillaan hyvinkin suuria. Tällaista tiedostoa ei siis ole järkevää liittää esimerkiksi internet-sivuille. 3.2.2 Hävittävä formaatti Näissä formaateissa tiivistetään kuvainformaatiota hävittämällä dataa tiedostosta. Otetaan esimerkki: digikameralla otetussa kuvassa on useita miljoonia pikseleitä. Katsoja ei pysty paljaalla silmällä erottamaan kahden vierekkäisen pikselin värieroa, jos se on kovin pieni (esim. sininen taivas, joka helposti näyttää kokonaan samanväriseltä). Tällaisessa tapauksessa talletettaessa lähdetään siitä, että tietty määrä vierekkäisiä pikseleitä määritellään talletettaessa samanvärisiksi. Näin saadaan pakkausalgoritmi tekemään pienempi tiedosto. Eräissä formaateissa voidaan jopa säätää, kuinka suuri hävitys tehdään. Kun kuvan tiedostokoko pienenee, se soveltuu paremmin moneen sellaiseen tarkoitukseen, jossa ei ole niin väliä, onko kuva parasta mahdollista laatua, kuten esimerkiksi www-sivuille. Varsinkin jos kuvaa pienennetään paljon, erilaisten pienten sävyerojen erottaminen tulee täysin mahdottomaksi. Näin sivusta tulee myös nopeammin latautuva, vaikka internet-yhteys olisikin hitaampi. Internet-käytössä yleisin valokuvaformaatti on JPEG (JPG). Se on pakkausteholtaan säädettävä formaatti. Eli jos tarvitaan parempaa laatua, ei tiivistetä niin kovasti. Kuva 2: JPEG:n laadun säätö 4(5)
3.2.3 Webbikäyttöön sopivat formaatit Kuten edellä jo todettiin, jpeg-formaatti on hyvä nettikäyttöön sen tiivistyksen vuoksi. Jos taas tehdään piirroskuvia taikka ruutukaappauksia, jpeg ei ole kovin hyvä formaatti niille. Näihin sopivat paremmin PNG (Portable Network Graphics) taikka GIF (Graphics Image Format). PNG on hävittämätön formaatti, joka lisäksi osaa läpinäkyvyyden. Tällaisessa kuvassa voidaan määritellä esimerkiksi tausta läpinäkyväksi, jolloin se ikäänkuin katoaa kuvasta. Jos näet www-sivuilla pallon, kuvassa on käytetty läpinäkyvyyttä. Oikeasti kuva on edelleekin ihan suorakaiteen muotoinen. GIF on formaattina vanhempi, se ei osaa tallettaa kuin 8-bittisen värikartan (256 väriä), mutta pikseli-informaatiota se ei hävitä. GIF osaa myös läpinäkyvyyden ja sen lisäksi sillä voi myös toteuttaa pientä animaatiota. Animaatio toteutetaan laittamalla kuvia päällekkäin ja vaihtelemalla niitä järjestyksessä. 4 LISÄÄ TIETOA FORMAATEISTA Kuvaformaateista hyvä ilmainen ohje netistä löytyy seuraavasta osoitteesta: http://www.joutsi.com/gimp/formaatit.html. Se on hyvä kuvaus esimerkkien kera, miten eri formaatit toimivat. Suosittelen sitä lisälukemistoksi. OpenOfficen tiedostoformaatti Open Document Formatista kuvaus löytyy Wikipediasta. http://fi.wikipedia.org/wiki/opendocument-osoitteesta. 5(5)