CLT131: Tekstityökalut 2011, toinen luento
|
|
- Esa-Pekka Petri Lehtinen
- 6 vuotta sitten
- Katselukertoja:
Transkriptio
1 CLT131: Tekstityökalut 2011, toinen luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 9. marraskuuta 2011 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 2. luento 9. marraskuuta / 19
2 Asialista 1 Käytännön asioita vielä 2 Tehtävät 3 Teoriaa ja aineistoja 4 Menetelmät ja työkalut tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 2. luento 9. marraskuuta / 19
3 hippu module, bash, chsh Aloitetaan siitä että kaikki kirjautuvat hipulle ja tarkistetaan vielä että kaikki on kunnossa: vieläkö löytyy module: command not found -ongelmia? echo $0 onko jollakulla jotain muuta kuin bash shellinä (ja haluaa käyttää bashia) locale -ck charmap UTF-8 kaikilla? (HY) CLT131: 2. luento 9. marraskuuta / 19
4 Asialista 1 Käytännön asioita vielä 2 Tehtävät 3 Teoriaa ja aineistoja 4 Menetelmät ja työkalut tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 2. luento 9. marraskuuta / 19
5 yleistä scriptin käyttö näytti onnistuneen ja oli varsin hyödyllistä tiedostoja saa pakata yms., kannattaa kuitenkin noudattaa nimeämiskäytäntöjä ja aina mainita asiasta viestissä (HY) CLT131: 2. luento 9. marraskuuta / 19
6 1. bashrc GREP_OPTIONS=--colour=auto kahdella peräkkäisellä viivamerkillä ilman sanaväliä, ei siis voi kopioida kalvoista, joissa viivojen välissä on usein ohuke tai sitten viivat ovat langenneet yhteen jos module ei toiminut, pitää ehkä vieläkin kopioida rimpsu verkkosivujen aineistoista kit/2011s/clt131/materiaalit/index.shtml (HY) CLT131: 2. luento 9. marraskuuta / 19
7 2. esitiedot Esitietojen perusteella seuraavanlainen alustava aikataulu kurssille 1 tr, wc, bash saneistus, frekvenssit, skriptaus 2 grep säännölliset lausekkeet ja haut 3 head, tail lisää skriptauksesta ja vähän siistinnästä 4 omorfi, grep lisää säännöllisiä lausekkeita 5 sed lisää säännöllisiä lausekkeita ja muunnoksia 6 cut, paste datan taulukointia ja poimintaa 7 awk lisää säännöllisiä lausekkeita ja datan käsittelyä tämä aikataulu on vielä karkea luonnos tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 2. luento 9. marraskuuta / 19
8 7. man, apropos, whatis Tehtävä oli aika suurpiirteisesti muotoiltu olennaista on, että nyt tiedämme, että kaikki osaavat lukea man-sivut apropos on tosiaan man -k yhteys fgrepiin on havaittavissa jos GREP_OPTIONS on asetettu: hakusanat värjätään eli apropos on myös fgrep... fgreppailun kohde on ns. whatis-tietokanta, käytännössä man-sivujen ensimmäisistä riveistä poimittu tiedosto (alkeellinen tekstin yhteenvetomenetelmä, vrt. wikipedia) (HY) CLT131: 2. luento 9. marraskuuta / 19
9 3. 4. sanoista Olennaisia havaintoja: wc:n määritelmä sanoista on sanavälien väliin jäävät merkkisarjat esim. kiinassa ei välttämättä sanavälejä käytetä esim. suomessa ajatusviiva laskettaisiin sanaksi esim. englannissa I m tai ranskassa l heure laskettaisiin yhdeksi sanaksi tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 2. luento 9. marraskuuta / 19
10 Asialista 1 Käytännön asioita vielä 2 Tehtävät 3 Teoriaa ja aineistoja 4 Menetelmät ja työkalut tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 2. luento 9. marraskuuta / 19
11 Tekstin jakaminen sanoiksi eli saneistus (tokenisointi) saneistus viittaa termiin sane, so. sanan konkreettinen esiintymä t. sanamuoto, tällä kurssilla sanalla sana usein viitataan samaan suurin osa korpustutkimuksesta koskee sanoja, sanojen välisiä suhteita, niiden esiintymisiä jne. tyypillinen korpustutkimuksen kieliteknologinen toteutus siis alkaa aineiston jakamisesta sanoiksi viimeksi huomasimme, että yksi tapa määritellä sana on sanavälien ympäröimäksi jaksoksi tällä kertaa toteutamme siis tällaisen saneistusmenetelmän (HY) CLT131: 2. luento 9. marraskuuta / 19
12 Esiintymien laskeminen eli frekvenssilistaukset useimmiten, kun käsittelemme sanoja tai mitä ikinä kielenainesta, haluamme tietää tarkasteltavien asioiden välisiä yleisyyksiä yksinkertaisin tapa tarkastella tätä on laskea ne, ja vertailla lukumääriä tällaisia lukumäärälaskelmia kutsutaan usein frekvensseiksi frekvenssejä sinänsä eri aineistojen välillä on hankalaa vertailla; sata esiintymää tuhannen sanan tekstissä on paljon mutta biljardin sanan tekstissä ehkei niinkään yksinkertaisin vertailukelpoisehko tapa arvioida näitä ovat prosenttiosuudet, eli todennäköisyydet: = 10% < % = tällä kertaa toteutamme todennäköisyyslaskentaa hieman käsin (1) tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 2. luento 9. marraskuuta / 19
13 Gutenberg-aineistot tekstitiedostoja vanhoista, tekijänoikeudettomista kaunokirjallisuusteoksista sisältävät mm. lisenssitekstejä välimerkit saattavat olla poikkeuksellisiakin, esim. vanhan ortografian mukaisia mm. suomelle kulmalainausmerkit ovat tavallisia merkistöt ja merkkaus pitää valita oikein (nykyään raakateksti ja UTF-8 Plain Text UTF-8 löytyvät suoraan sivustolta) (HY) CLT131: 2. luento 9. marraskuuta / 19
14 Asialista 1 Käytännön asioita vielä 2 Tehtävät 3 Teoriaa ja aineistoja 4 Menetelmät ja työkalut tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 2. luento 9. marraskuuta / 19
15 Gutenbergistä: Juhani Aho Rautatie Suora linkki: Selaimella paikalliselle koneella haku ja siirto (scp:llä tms.) on aina mahdollista Hipullakin on mahdollista käyttää vaikka firefoxia jos haluaa tämä on yleensä todella hidasta Tekstipohjaiset selaimet kuten links ovat vähän sukkelampia mutta melko hankalia eivätkä toimi kaikilla sivuilla Komentorivipohjainen wget on käytännöllinen tähän ja automatisoituihin hakuihin yleensäkin wget -O rautatie.txt (HY) CLT131: 2. luento 9. marraskuuta / 19
16 Sivujuonne: Koodausasiat koodauksella tässä tarkoitetaan miten kirjaimet esitetään tietokoneen muistissa: eritoten ääkköset ym. ei alkuperäiseen US-ASCII-aakkostoon sisältyvät merkit, ja rivinvaihdot lähes kaikissa nykysovelluksissa merkistökoodaus on UTF-8, myös gutenbergissä recode ja iconv muuntavat koodauksia (jos esim. vanhat gutenbergit olivat ns. latin1:tä): iconv -f latin1 -t utf8 < vanha > konvertoitu recode l1..u8 vanha gutenbergissä on vielä joitain enimmäkseen harmittomia DOS-rivinvaihtoja (jotka näkyvät vimissä ja emacsissa ikävästi ˆM:inä) fromdos tai dos2unix muuntavat rivinvaihdot: dos2unix rautatie.txt fromdos rautatie.txt (HY) CLT131: 2. luento 9. marraskuuta / 19
17 Tekstin saneistus haluttiin jokainen sanavälein erotettu sana omalle rivilleen tr on yleistyökalu yksinkertaisiin merkkimuunnoksiin: tr -s \n < rautatie.txt muuntaa välilyönnit rivivaihdoiksi (ts. sijoittaa välilyöntien erottamat saneet omille riveilleen) huomaamme, että sanoihin kuuluvat nyt välimerkit, jota emme tällä kertaa halua tr -d.,?!:;- < rautatie.txt poistaa välimerkit kokonaan (HY) CLT131: 2. luento 9. marraskuuta / 19
18 Sanojen laskenta Kun meillä on jokainen sana rivillään, voimme vaikkapa laskea niiden määtä komennon wc -l avulla ja laskea yleisyyksiä komentojen sort ja uniq avulla Ensin järjestetään aakkosjärjestykseen sortilla Sitten uniq -c laskee toistot Sitten järjestetään numerojärjestykseen sort -nr:llä Muistetaan että ns. putkien avulla voimme tehdä kaiken yhdellä rivillä: sort uniq -c sort -nr (HY) CLT131: 2. luento 9. marraskuuta / 19
19 Kotitehtäviä varten vielä: komennoista skripteiksi tiedämme, että tr -s \n < rautatie.txt saneistaa rautatien tr -d.,;!?- < rautatie.txt poistaa välimerkit siitä tr -s \n < rautatie.txt tr -d.,;!?- tekee molemmat jos sen tallentaa tiedostoon saneista.sh ilman osaa < rautattie.txt./saneista.sh < rautatie.txt tekee saman on yleinen käytäntö aloittaa skriptitiedosto rivillä #!/bin/bash, tarpeellista tämä on vain joillain harvoilla unixeilla (HY) CLT131: 2. luento 9. marraskuuta / 19
CLT131: Tekstityökalut 2010, toinen luento
CLT131: Tekstityökalut 2010, toinen luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-12 päivitetty: 2010-11-14 Asialista Käytännön
LisätiedotAsialista. hippu ja.bashrc. Asialista. Tutkimusongelma: tekstin morfologisen jäsennyksen selvittely
Asialista CLT131: Tekstityökalut 2010, toinen luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-12 päivitetty: 2010-11-14 Laskuharjoitukset:
LisätiedotCLT131: Tekstityökalut 2011, viides luento
CLT131: Tekstityökalut 2011, viides luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 30. marraskuuta 2011 tommi.pirinen+clt131@helsinki.fi
LisätiedotCLT131: Tekstityökalut 2012, kymmenes luento
CLT131: Tekstityökalut 2012, kymmenes luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 1. helmikuuta 2012 tommi.pirinen+clt131@helsinki.fi
LisätiedotAsialista. CLT131: Tekstityökalut 2012, kymmenes luento. 2. frekvenssien muunnos todennäköisyyksiksi. 1. taulukkohaut
Asialista CLT131: Tekstityökalut 2012, kymmenes luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 1. helmikuuta 2012 tommi.pirinen+clt131@helsinki.fi
LisätiedotCLT131: Tekstityökalut 2011, seitsemäs luento
CLT131: Tekstityökalut 2011, seitsemäs luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 14. joulukuuta 2011 tommi.pirinen+clt131@helsinki.fi
LisätiedotCLT131: Tekstityökalut 2010, kuudes luento
CLT131: Tekstityökalut 2010, kuudes luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-12-16 Asialista Käytännön asiat Tuleva ohjelma
LisätiedotCLT131: Tekstityökalut 2011, kuudes luento
CLT131: Tekstityökalut 2011, kuudes luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 7. joulukuuta 2011 tommi.pirinen+clt131@helsinki.fi
LisätiedotAsialista. CLT131: Tekstityökalut 2010, kuudes luento. Tuleva ohjelma. Kurssipalaute. Käytännön asiat Tuleva ohjelma Havaitut virheet ja korjaukset
Asialista CLT131: Tekstityökalut 2010, kuudes luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-12-16 Kurssipalaute Kerätään kurssin
LisätiedotAsialista. CLT131: Tekstityökalut 2010, kolmas luento. Laskuharjoitusaikataulut. Harjoituksissa havaitut virheet. Käytännön asiat/kertaus
CLT131: Tekstityökalut 2010, kolmas luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-19 Laskuharjoitusaikataulut Harjoituksissa
LisätiedotCLT131: Tekstityökalut 2010, kolmas luento
CLT131: Tekstityökalut 2010, kolmas luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-19 Asialista Käytännön asiat/kertaus Ongelman
LisätiedotCLT131: Tekstityökalut 2011, kahdeksas luento
CLT131: Tekstityökalut 2011, kahdeksas luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2011-02-04 2011-02-04 1 / 17 Asialista 1 Käytännön
LisätiedotCLT131: Tekstityökalut 2010, neljäs luento
CLT131: Tekstityökalut 2010, neljäs luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-26 Asialista Käytännön asiat Kertausta shelliskriptien
LisätiedotCLT131 Korpusten käsittely
CLT131 Korpusten käsittely Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto CLT131 Korpusten käsittely p.1/16 Syöterivien järjestäminen (sort) sort-komento järjestää syöterivin (aakkosjärjestykseen)
LisätiedotAsialista. CLT131: Tekstityökalut 2010, neljäs luento. Lähiaikataulu. Asialista. Käytännön asiat
CLT131: Tekstityökalut 2010, neljäs luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-26 Lähiaikataulu ensi viikon luennoilla Hissu
LisätiedotKieliteknologian ATK-ympäristö Neljäs luento
Kieliteknologian ATK-ympäristö Neljäs luento Miikka Silfverberg Nykykielten laitos 27. syyskuuta 2010 Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010
LisätiedotCLT131: Tekstityökalut 2010, ensimmäinen luento
CLT131: Tekstityökalut 2010, ensimmäinen luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-04 (päivitetty: 2010-11-08) Asialista
LisätiedotAsialista. CLT131: Tekstityökalut 2011, kahdeksas luento. Merkistöistä ja kalvostoista. Asialista. Tommi A Pirinen
CLT131: Tekstityökalut 2011, kahdeksas luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2011-02-04 2011-02-04 1 / 17 2011-02-04 2 / 17
LisätiedotKieliteknologian ATK-ympäristö Viides luento
Kieliteknologian ATK-ympäristö Viides luento Miikka Silfverberg Nykykielten laitos 3. lokakuuta 2011 Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 5 3. lokakuuta 2011 1
LisätiedotKieliteknologian ATK-ympäristö Viides luento
Kieliteknologian ATK-ympäristö Viides luento Miikka Silfverberg Nykykielten laitos 4. lokakuuta 2010 Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 5 4. lokakuuta 2010 1
LisätiedotKieliteknologian ATK-ympäristö Kuudes luento
Kieliteknologian ATK-ympäristö Kuudes luento Miikka Silfverberg Nykykielten laitos 11. lokakuuta 2010 Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 6 11. lokakuuta 2010
LisätiedotKieliteknologian ATK-ympäristö Toinen luento
Kieliteknologian ATK-ympäristö Toinen luento Miikka Silfverberg Nykykielten laitos 12. syyskuuta 2011 Miikka Silfverberg (Helsingin yliopisto) Kieliteknologian ATK-ympäristö: Luento 2 12. syyskuuta 2011
LisätiedotCtl160 Tekstikorpusten tietojenkäsittely p.1/24
Ctl160 490160-0 Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0 p.1/24 Kurssibyrokratiaa Luennoitsija: Nicholas Volk (nvolk ling.helsinki.fi) Luennot: keskiviikkoisin 19.1.-2.3.
LisätiedotCtl160 Tekstikorpusten tietojenkäsittely
Ctl160 490160-0 Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0 p.1/23 Kurssibyrokratiaa Luennoitsija: Nicholas Volk nvolk ling.helsinki.fi Luennot: keskiviikkoisin 19.1.-2.3.
LisätiedotKorpusten käsittely clt131, P Luento 4
Korpusten käsittely clt131, P2 2006 Luento 4 Nicholas Volk 24.11.2006 Humanistinen tiedekunta Säännölliset lausekkeet: ryhmittely Sulkujen avulla voidaan osoittaa määrällistäjille
LisätiedotKorpusten käsittely clt131, P Luento 1
Korpusten käsittely clt131, P2 2006 Luento 1 Nicholas Volk 3.11.2006 Humanistinen tiedekunta CLT131 Korpusten käsittely (syksy 2006) Luennoitsija FM Nicholas Volk Kurssiassistentti
LisätiedotKorpusten käsittely clt131, P Luento 3
Korpusten käsittely clt131, P2 2006 Luento 3 Nicholas Volk 17.11.2006 Humanistinen tiedekunta Merkkijonon poiminen syötteestä, fgrep Monessa ohjelmassa on etsi/find-toiminto Tätä
Lisätiedot1.1 Tekstinprosessointiohjelmien yleinen toimintatapa (1)
1 Tekstinprosessointiohjelmat 1.1 1.1 Tekstinprosessointiohjelmien yleinen toimintatapa (1) Useimmat tekstinprosessointiohjelmat (cat, grep,... ) toimivat kahdella erilaisella tavalla. Jos niille annetaan
LisätiedotLuento 4. Timo Savola. 21. huhtikuuta 2006
UNIX-käyttöjärjestelmä Luento 4 Timo Savola 21. huhtikuuta 2006 Osa I Shell Lausekkeet Komentoriville kirjotettu komento on lauseke echo "foo" echo $USER MUUTTUJA=1 ls -l Rivinvaihto
LisätiedotCLT131 Korpusten käsittely (3op)
CLT131 Korpusten käsittely (3op) Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto CLT131 Korpusten käsittely (3op) p.1/23 CLT131 Korpusten käsittely (Syksy 2005) Luennoitsija: FM Nicholas
LisätiedotKieliteknologian ATK-ympäristö Kolmas luento
Kieliteknologian ATK-ympäristö Kolmas luento Miikka Silfverberg Nykykielten laitos 20. syyskuuta 2010 Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 20. syyskuuta 2010
LisätiedotLuento 5. Timo Savola. 28. huhtikuuta 2006
UNIX-käyttöjärjestelmä Luento 5 Timo Savola 28. huhtikuuta 2006 Osa I Shell-ohjelmointi Ehtolause Lausekkeet suoritetaan jos ehtolausekkeen paluuarvo on 0 if ehtolauseke then lauseke
LisätiedotKorpusten käsittely clt131, P Luento 5
Korpusten käsittely clt131, P2 2006 Luento 5 Nicholas Volk 1.12.2006 Humanistinen tiedekunta Perl Perl niminen ohjelmointikieli mahdollistaa tekstin monipuolisen muokkaamisen helposti
Lisätiedot[Jnix näyttökoe. o ei ole sallittua käyttää mitään verkkolevyjakoa tai mitään siihen rinnastettavaa järjestelmdä.
v1 081213 DTEK 1043 Opiskelun ja työelämän tietotekniikka [Jnix näyttökoe Tärkeää Naytt«ikokee(ssa/n) o saa hakea ohjeita Internetistä. o ei saa käyttää kurssimateriaaleja. o ei saa käyttää kirjallisia
LisätiedotMylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto
Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto www.kielipankki.fi Kuinka aineistojen käsittelyä voitaisiin
LisätiedotHieman linkkejä: http://cs.stadia.fi/~kuivanen/linux/kom.php, lyhyt ohje komentoriviohjelmointiin.
Linux-harjoitus 9 Linuxin mukana tulevat komentotulkit (mm. bash, tcsh, ksh, jne ) sisältävät ohjelmointikielen, joka on varsin tehokas ja ilmaisuvoimainen. Tähän yhdistettynä unix-maailmasta tutut tehokkaat
LisätiedotToinen harjoitustyö. ASCII-grafiikkaa 2017
Toinen harjoitustyö ASCII-grafiikkaa 2017 Yleistä Tehtävä: tee Javalla ASCII-merkkeinä esitettyä grafiikkaa käsittelevä ASCIIArt17-ohjelma omia operaatioita ja taulukoita käyttäen. Työ tehdään pääosin
LisätiedotPerusohje vi-editorin käyttöön
Perusohje vi-editorin käyttöön Aapo Rista 22.9.2000 Sisältö 1 Johdanto 1 2 vi:n komento- ja kirjoitustilat 2 3 vi:n käynnistäminen ja siitä poistuminen 2 4 Liikkuminen tekstissä 3 5 Merkkien lisääminen
LisätiedotToinen harjoitustyö. ASCII-grafiikkaa
Toinen harjoitustyö ASCII-grafiikkaa Yleistä Tehtävä: tee Javalla ASCII-merkkeinä esitettyä grafiikkaa käsittelevä ASCIIArt-ohjelma omia operaatioita ja taulukoita käyttäen. Työ tehdään pääosin itse. Ideoita
LisätiedotCtl160 Tekstikorpusten tietojenkäsittely Kolmas luento
Ctl160 Tekstikorpusten tietojenkäsittely 490160-0 Kolmas luento Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 Tekstikorpusten tietojenkäsittely490160-0kolmas luento p.1/26 Lisää
LisätiedotUnix-perusteet. Unix/Linux-käyttöjärjestelmä ja sen ominaisuudet
Unix-perusteet Unix/Linux-käyttöjärjestelmä ja sen ominaisuudet Mikä on unix? Monen käyttäjän käyttöjärjestelmä Siis monta käyttäjää ja monta ohjelmaa jokaisella Kaikkiin koneisiin mikrosta supertietokoneeseen
LisätiedotKirjoita oma versio funktioista strcpy ja strcat, jotka saavat parametrinaan kaksi merkkiosoitinta.
Tehtävä 63. Kirjoita oma versio funktiosta strcmp(),joka saa parametrinaan kaksi merkkiosoitinta. Tee ohjelma, jossa luetaan kaksi merkkijonoa, joita sitten verrataan ko. funktiolla. Tehtävä 64. Kirjoita
Lisätiedot2 Konekieli, aliohjelmat, keskeytykset
ITK145 Käyttöjärjestelmät, kesä 2005 Tenttitärppejä Tässä on lueteltu suurin piirtein kaikki vuosina 2003-2005 kurssin tenteissä kysytyt kysymykset, ja mukana on myös muutama uusi. Jokaisessa kysymyksessä
LisätiedotIRC ja etäyhteydet IRC JA ETÄYHTEYDET
IRC JA ETÄYHTEYDET Contents 1 IRC... 2 1.1 Yleisesti... 2 1.1.1 SSH-yhteys Windowsilla... 2 1.1.2 SSH-yhteys Linuxilla tai OS X:llä... 3 1.2 Irkkaamisen aloitus... 3 1.3 Irkkiin palaaminen... 4 1.4 Hyödyllistä
LisätiedotPerusteet. Pasi Sarolahti Aalto University School of Electrical Engineering. C-ohjelmointi Kevät Pasi Sarolahti
C! Perusteet 19.1.2017 Palautteesta (1. kierros toistaiseksi) (Erittäin) helppoa Miksi vain puolet pisteistä? Vaikeinta oli ohjelmointiympäristön asennus ja käyttö Ei selvää että main funktion pitikin
Lisätiedot2.1.2011. Ohjelma on tarkoitettu pankkiyhteysohjelmalla vastaanotettujen Finvoiceverkkolaskujen
OHJE 1 (7) FINVOICE-LASKUJEN ARKISTOINTIOHJELMA Ohjelma on tarkoitettu pankkiyhteysohjelmalla vastaanotettujen Finvoiceverkkolaskujen jatkokäsittelyyn. Ohjelman käyttötarkoitus: Ohjelma purkaa pankista
LisätiedotSUOMEN PANKKIYHDISTYS
FINVOICE-laskujen arkistointiohjelma Ohje 1 (5) FINVOICE-LASKUJEN ARKISTOINTILMA Ohjelma on tarkoitettu pankkiyhteysohjelmalla vastaanotettujen Finvoice-verkkolaskujen jatkokäsittelyyn. Ohjelman käyttötarkoitus:
LisätiedotSangen lyhyt L A T E X-johdatus
Sangen lyhyt L A T E X-johdatus Lari Koponen ja Eetu Ahonen 23.1.2013 Koulutuksen tavoitteet Koulutuksen jälkeen pystyy kirjoittamaan työselostuksen L A T E X:illa, eli Dokumentin rakenne tutuksi Tekstin
LisätiedotRekursiolause. Laskennan teorian opintopiiri. Sebastian Björkqvist. 23. helmikuuta Tiivistelmä
Rekursiolause Laskennan teorian opintopiiri Sebastian Björkqvist 23. helmikuuta 2014 Tiivistelmä Työssä käydään läpi itsereplikoituvien ohjelmien toimintaa sekä esitetään ja todistetaan rekursiolause,
Lisätiedotlinux: Ympäristömuuttujat
L5: linux linux: Ympäristömuuttujat linux: Ympäristömuuttujat linux komentotulkkki toimii asetettujen ympäristömuuttujien mukaan env kertoo asetetut ympäristömuuttujat Yksi tulostuvista riveistä on tyypillisesti
LisätiedotPerusteet. Pasi Sarolahti Aalto University School of Electrical Engineering. C-ohjelmointi Kevät Pasi Sarolahti
C! Perusteet 19.1.2017 Palautteesta (1. kierros toistaiseksi) Toistaiseksi helppoa Miksi vain puolet pisteistä? Vaikeinta oli ohjelmointiympäristön asennus ja käyttö Vaikeaa eroavuudet Pythonin ja C:n
Lisätiedot5. HelloWorld-ohjelma 5.1
5. HelloWorld-ohjelma 5.1 Sisällys Lähdekoodi. Lähdekoodin (osittainen) analyysi. Lähdekoodi tekstitiedostoon. Lähdekoodin kääntäminen tavukoodiksi. Tavukoodin suorittaminen. Virheiden korjaaminen 5.2
LisätiedotFrontPage 2000 - Näkymät
FrontPage 2000 - Näkymät FrontPagessa on kuusi erilaista näkymää sivustoon. Sivunäkymä Tässä näkymässä luodaan sivut eli näkymä vastaa paljolti Wordin tekstinkäsittelyohjelman näkymää. Tässä on myös muokattava
LisätiedotAlkuarvot ja tyyppimuunnokset (1/5) Alkuarvot ja tyyppimuunnokset (2/5) Alkuarvot ja tyyppimuunnokset (3/5)
Alkuarvot ja tyyppimuunnokset (1/5) Aiemmin olemme jo antaneet muuttujille alkuarvoja, esimerkiksi: int luku = 123; Alkuarvon on oltava muuttujan tietotyypin mukainen, esimerkiksi int-muuttujilla kokonaisluku,
LisätiedotCtl160 Tekstikorpusten tietojenkäsittely Kolmas luento,
Ctl160 490160-0 Kolmas luento, 10.2.2003 Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0Kolmas luento, 10.2.2003 p.1/28 Unohtui viime kerralla... Skriptin ajaminen edellyttää
LisätiedotJohdatus Ohjelmointiin
Johdatus Ohjelmointiin Syksy 2006 Viikko 2 13.9. - 14.9. Tällä viikolla käsiteltävät asiat Peruskäsitteitä Kiintoarvot Tiedon tulostus Yksinkertaiset laskutoimitukset Muuttujat Tiedon syöttäminen Hyvin
LisätiedotTapahtumakalenteri & Jäsentietojärjestelmä Ylläpito
Tapahtumakalenteri & Jäsentietojärjestelmä Ylläpito Henri Kinnunen, Seppo Tompuri, Tero Malkki, Matti Heiskanen, Tommi Rönkönharju, Tuomas Valkeapää Sisällysluettelo 1. Alkusanat.2 2. Asennusohje..2 3.
LisätiedotDatatähti 2000: alkukilpailun ohjelmointitehtävä
Datatähti 2000: alkukilpailun ohjelmointitehtävä 1 Lyhyt tehtävän kuvaus Tehtävänä on etsiä puurakenteen esiintymiä kirjaintaulukosta. Ohjelmasi saa syötteenä kirjaintaulukon ja puun, jonka jokaisessa
LisätiedotMatriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.
Python linkit: Python tutoriaali: http://docs.python.org/2/tutorial/ Numpy&Scipy ohjeet: http://docs.scipy.org/doc/ Matlabin alkeet (Pääasiassa Deni Seitzin tekstiä) Matriisit ovat matlabin perustietotyyppejä.
LisätiedotKorpusten käsittely clt131, P Luento 6
Korpusten käsittely clt131, P2 2006 Luento 6 Nicholas Volk 8.12.2006 Humanistinen tiedekunta Syöterivien lukemista while () { käsky1; käsky2; käskyn; } continue { print $_; }
Lisätiedot4. Lausekielinen ohjelmointi 4.1
4. Lausekielinen ohjelmointi 4.1 Sisällys Konekieli, symbolinen konekieli ja lausekieli. Lausekielestä konekieleksi: - Lähdekoodi, tekstitiedosto ja tekstieditorit. - Kääntäminen ja tulkinta. - Kääntäminen,
LisätiedotVesa Ollikainen, päivitys Juha Haataja 3.8.2010
METROPOLIA Tekstinkäsittely1 Peruskäyttö Vesa Ollikainen, päivitys Juha Haataja 3.8.2010 Tavoitteet ja sisältö Tavoite Lyhyen asiakirjan kirjoitustaito Word-tekstinkäsittelyohjelmalla Sisältö Tekstinkäsittelyohjelman
LisätiedotHarjoitus 5. Esimerkki ohjelman toiminnasta: Lausekielinen ohjelmointi I Kesä 2018 Avoin yliopisto 1 / 5
Kysy Karilta tai Kimmolta, jos tehtävissä on jotain epäselvää. Kerro WETOon liittyvät tekniset ongelmat suoraan Jormalle sähköpostitse (jorma.laurikkala@uta.fi). Muista nimetä muuttujat hyvin sekä kommentoida
LisätiedotMaastotietokannan torrent-jakelun shapefile-tiedostojen purkaminen zip-arkistoista Windows-komentojonoilla
Maastotietokannan torrent-jakelun shapefile-tiedostojen purkaminen zip-arkistoista Windows-komentojonoilla Viimeksi muokattu 5. toukokuuta 2012 Maastotietokannan torrent-jakeluun sisältyy yli 5000 zip-arkistoa,
LisätiedotKotisivuohjeet. Eteläpohjalaiset Kylät ry. Sivupohjien rakenne
Kotisivuohjeet Tässä ohjeessa käydään läpi kotisivujen tekemisen perusteet keskittyen html-koodiin ja sen ominaisuuksiin. Sivupohjissa ulkoasu ja rakenne on pääasiassa jaettu erilliseen css-tyylitiedostoon,
LisätiedotSen jälkeen Microsoft Office ja sen alta löytyy ohjelmat. Ensin käynnistä-valikosta kaikki ohjelmat
Microsoft Office 2010 löytyy tietokoneen käynnistävalikosta aivan kuin kaikki muutkin tietokoneelle asennetut ohjelmat. Microsoft kansion sisältä löytyy toimisto-ohjelmistopakettiin kuuluvat eri ohjelmat,
LisätiedotCtl160 Tekstikorpusten tietojenkäsittely p.1/15
Ctl160 490160-0 Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0 p.1/15 Lisää säännöllisistä lausekkeista Aikaisemmin esityt * ja + yrittävät osua mahdollisimman pitkään merkkijonoon
LisätiedotWritten by Administrator Monday, 05 September 2011 15:14 - Last Updated Thursday, 23 February 2012 13:36
!!!!! Relaatiotietokannat ovat vallanneet markkinat tietokantojen osalta. Flat file on jäänyt siinä kehityksessä jalkoihin. Mutta sillä on kuitenkin tiettyjä etuja, joten ei se ole täysin kuollut. Flat
LisätiedotNÄIN KÄYTÄT SIGNWIKIÄ
NÄIN KÄYTÄT SIGNWIKIÄ Käyttäjätunnuksen luominen ja kirjautuminen Klikkaa kirjaudu sisään tai luo tunnus 16.03.2017 1 Jos sinulla on jo käyttäjätunnus ja olet saanut käyttöoikeudet, kirjoita käyttäjätunnuksesi
LisätiedotKomentotulkki. Kysymyksiä
Komentotulkki Komentotulkki ja avustustoiminnot Tux-pingviinin kuva: Larry Ewing, Simon Budig ja Anja Gerwinski Kysymyksiä 1. Miten työskentelen komentotulkilla? 2. Miten komennot annetaan ja käsitellään?
LisätiedotOpintokohteiden muokkaus
1 Opintokohteiden muokkaus Näiden ohjeiden avulla hahmottuu kuinka opintokohteita voidaan muokata ssa. Ohje on suunnattu käyttäjille, joilla on in OpasMuokkaaja-oikeudet. n käyttölupia voi hakea lomakkeella,
LisätiedotLuento 2 Vertaisarviointien tekeminen ja ryhmätyö Office 365:ssä
Luento 2 Vertaisarviointien tekeminen ja ryhmätyö Office 365:ssä 3.9.2019 Aulikki Hyrskykari Tänään o Ajankohtaista aikatauluista o Vertaisarvioinnit o Office 365 yleistä o OneDrive ja jakaminen o Kalenteri
LisätiedotCtl160 Tekstikorpusten tietojenkäsittely p.1/28
Ctl160 490160-0 Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0 p.1/28 Emacs-editori Ikkunoinnin toimiessa Emacs-editorin käynnistyskäskyn perään kannattaa lisätä &-merkki
LisätiedotSekalaisia selvennyksiä
Sekalaisia selvennyksiä Panu Kalliokoski ja Jussi Syrjänen Sisältö 1 Komento vai tiedosto 1 2 Unix-komennon kommunikaatiomalli 2 3 Merkkien lainaaminen 3 4 Mikä on muuttuja? 4 5 Absoluuttiset ja relatiiviset
LisätiedotTodennäköisyys (englanniksi probability)
Todennäköisyys (englanniksi probability) Todennäköisyyslaskenta sai alkunsa 1600-luvulla uhkapeleistä Ranskassa (Pascal, Fermat). Nykyisin todennäköisyyslaskentaa käytetään hyväksi mm. vakuutustoiminnassa,
LisätiedotPauliina Munter/Suvi Junes Tampereen yliopisto / Tietohallinto Valitse muokkaustila päälle kurssialueen etusivun oikean yläkulman painikkeesta.
Sanasto Sanasto -työkalulla voi laatia sanakirjan tapaisen sanaston, jonka hakusanoja (käsitteitä ja niiden määritelmiä) voidaan selata ja opettajan niin halutessa myös kommentoida. Sekä opettaja että
LisätiedotSisällys. Johdatus Linux/Unixiin: Osa 2. Prosessin tilat. Prosessien hallinta. Prosessien monitorointi
Sisällys Johdatus Linux/Unixiin: Osa 2 Prosessien hallinta Syöttö ja tulostus Säännölliset lausekkeet Tiedostojen käsittelyä Eero Hyvönen Tietojenkäsittelytieteen laitos Helsingin Yliopisto 13.9.2000 E.
LisätiedotUbuntu tunkkausta En US / Helsinki asennuksen jälkeen jotta loki5ac toimisi oikein Winen päällä.
Ubuntu tunkkausta En US / Helsinki asennuksen jälkeen jotta loki5ac toimisi oikein Winen päällä. Tämä siis vain Ubuntu käyttäjille jotka ovat valinneet asennuksessa kieleksi Englanti ja paikaksi Helsinki...
LisätiedotNÄIN KÄYTÄT SIGNWIKIÄ
Päivitetty 7.2.2019 Taalas Pia NÄIN KÄYTÄT SIGNWIKIÄ Käyttäjätunnuksen luominen ja kirjautuminen Klikkaa Luo tunnus tai Kirjaudu sisään. Sisältö: Näin käytät SignWikiä 1 Kirjaudu sisään tai luo tunnus.
LisätiedotKurssien lukulistojen ylläpito Nellissä ja siirto Moodleen
Kurssien lukulistojen ylläpito Nellissä ja siirto Moodleen Nellistä voi siirtää kirjallisuuslistoja Moodle-oppimisympäristöön. Näin voidaan tarjota opiskelijalle esimerkiksi verkkokurssin oheislukemistona
LisätiedotDatatähti 2019 alku. task type time limit memory limit. A Kolikot standard 1.00 s 512 MB. B Leimasin standard 1.00 s 512 MB
Datatähti 2019 alku task type time limit memory limit A Kolikot standard 1.00 s 512 MB B Leimasin standard 1.00 s 512 MB C Taulukko standard 1.00 s 512 MB D Ruudukko standard 1.00 s 512 MB E Sanalista
LisätiedotHarjoitus 5 (viikko 48)
Moni tämän harjoituksen tehtävistä liittyy joko suoraan tai epäsuorasti kurssin toiseen harjoitustyöhön. Harjoitustyö edistyy sitä paremmin, mitä enemmän tehtäviä ratkaiset. Mikäli tehtävissä on jotain
LisätiedotVedä ja pudota Maamittauslaitoksen JPEG2000-ortoilmakuva GeoTIFF-muotoon
Vedä ja pudota Maamittauslaitoksen JPEG2000-ortoilmakuva GeoTIFF-muotoon Jukka Rahkonen http://latuviitta.org Viimeksi muutettu 16. lokakuuta 2012 Tiivistelmä Latuviitta.ogr -sivuston palautteessa kaivattiin
LisätiedotOhjelmoinnin perusteet Y Python
Ohjelmoinnin perusteet Y Python T-106.1208 25.2.2009 T-106.1208 Ohjelmoinnin perusteet Y 25.2.2009 1 / 34 Syötteessä useita lukuja samalla rivillä Seuraavassa esimerkissä käyttäjä antaa useita lukuja samalla
LisätiedotSangen lyhyt L A T E X-johdatus
Sangen lyhyt L A T E X-johdatus Lari Koponen, Eetu Ahonen ja Timo Voipio 11. maaliskuuta 2013 Koulutuksen tavoitteet Koulutuksen jälkeen pystyy kirjoittamaan työselostuksen L A T E X:illa, eli Dokumentin
LisätiedotSmart Board lukion lyhyen matematiikan opetuksessa
Smart Board lukion lyhyen matematiikan opetuksessa Haasteita opettajalle lukion lyhyen matematiikan opetuksessa ovat havainnollistaminen ja riittämätön aika. Oppitunnin aikana opettaja joutuu usein palamaan
Lisätiedot815338A Ohjelmointikielten periaatteet Harjoitus 6 Vastaukset
815338A Ohjelmointikielten periaatteet 2015-2016. Harjoitus 6 Vastaukset Harjoituksen aiheena on funktionaalinen ohjelmointi Scheme- ja Haskell-kielillä. Voit suorittaa ohjelmat osoitteessa https://ideone.com/
LisätiedotSähköisten materiaalien käyttö tableteilla
Sähköisten materiaalien käyttö tableteilla Oili Valtonen, informaatikko KyAMK / kirjasto- ja tietopalvelut / Kasarminmäki Esityksen sisältö Mitä sähköisiä materiaaleja on tarjolla Mitä mahdollisuuksia
Lisätiedot5. HelloWorld-ohjelma 5.1
5. HelloWorld-ohjelma 5.1 Sisällys Lähdekoodi. Lähdekoodin (osittainen) analyysi. Lähdekoodi tekstitiedostoon. Lähdekoodin kääntäminen tavukoodiksi. Tavukoodin suorittaminen. Virheiden korjaaminen 5.2
LisätiedotBitnami WordPress - Asenna WordPress koneellesi. Jari Sarja
WordPress - Asenna WordPress koneellesi Jari Sarja jari.sarja @otavanopisto.fi 2018 SISÄLLYSLUETTELO 1 Johdanto... 3 1.1 n Wordpress... 3 1.2 Edut ja haitat... 3 2 WordPressin Asennus bitnamilla...4 2.1
LisätiedotPörisevä tietokone. morsetusta äänikortilla ja mikrofonilla
Pörisevä tietokone morsetusta äänikortilla ja mikrofonilla 1 Tiivistelmä Idea toteuttaa seuraavat vaatimukset: 1. kommunikointi toisen opiskelijan kanssa (morsetus) 2. toisen opiskelijan häirintä (keskittymistä
LisätiedotWWW-PALVELUN KÄYTTÖÖNOTTO LOUNEA OY
1 WWW-PALVELUN KÄYTTÖÖNOTTO LOUNEA OY 10.4.2015 Lounea Oy Tehdaskatu 6, 24100 Salo Puh. 029 707 00 Y-tunnus 0139471-8 www.lounea.fi Asiakaspalvelu 0800 303 00 Yrityspalvelu 0800 303 01 Myymälät 0800 303
LisätiedotOhjelmoinnin perusteet Y Python
Ohjelmoinnin perusteet Y Python T-106.1208 14.2.2011 T-106.1208 Ohjelmoinnin perusteet Y 14.2.2011 1 / 55 Kännykkäpalautetteen antajia kaivataan edelleen! Ilmoittaudu mukaan lähettämällä ilmainen tekstiviesti
LisätiedotIDL - proseduurit. ATK tähtitieteessä. IDL - proseduurit
IDL - proseduurit 25. huhtikuuta 2017 Viimeksi käsiteltiin IDL:n interaktiivista käyttöä, mutta tämä on hyvin kömpelöä monimutkaisempia asioita tehtäessä. IDL:llä on mahdollista tehdä ns. proseduuri-tiedostoja,
LisätiedotSisällys. Johdatus Linuxiin/Unixiin: Osa 4. Arkistointi ja pakkaus. Hakemistojen ja tiedostojen arkistointi ja pakkaus.
Sisällys Johdatus Linuxiin/Unixiin: Osa 4 Tiedon arkistointi ja pakkaus Komentotulkki - tehokäyttöä Tekstin ladonta Eero Hyvönen Tietojenkäsittelytieteen laitos Helsingin yliopisto 9/12/2002 E. Hyvönen:
LisätiedotATK tähtitieteessä. Osa 3 - IDL proseduurit ja rakenteet. 18. syyskuuta 2014
18. syyskuuta 2014 IDL - proseduurit Viimeksi käsiteltiin IDL:n interaktiivista käyttöä, mutta tämä on hyvin kömpelöä monimutkaisempia asioita tehtäessä. IDL:llä on mahdollista tehdä ns. proseduuri-tiedostoja,
LisätiedotMITÄ JAVASCRIPT ON?...3
JavaScript MITÄ JAVASCRIPT ON?...3 YLEISTÄ JAVASCRIPTIN SYNTAKSISTA...3 KÄSKYSANAT JA MUUT VARATUT SANAT...3 MUUTTUJIEN, FUNKTIOIDEN JA LUOKKIEN NIMISSÄ...3 HTML-TAGEIHIN VIITTAAVISSA METODINIMISSÄ...3
Lisätiedot4. Lausekielinen ohjelmointi 4.1
4. Lausekielinen ohjelmointi 4.1 Sisällys Konekieli, symbolinen konekieli ja lausekieli. Hyvä ohjelmointitapa. Lausekielestä konekieleksi: - Lähdekoodi, tekstitiedosto ja tekstieditorit. - Kääntäminen
LisätiedotAutomaatit. Muodolliset kielet
Automaatit Automaatit ovat teoreettisia koneita, jotka käsittelevät muodollisia sanoja. Automaatti lukee muodollisen sanan kirjain kerrallaan, vasemmalta oikealle, ja joko hyväksyy tai hylkää sanan. Täten
LisätiedotHarjoitus 5 (viikko 41)
Mikäli tehtävissä on jotain epäselvää, laita sähköpostia vastuuopettajalle (jorma.laurikkala@uta.fi). Muista nimetä muuttujat hyvin sekä kommentoida ja sisentää koodisi. Vältä liian pitkiä rivejä, käytä
Lisätiedot