Korpusten käsittely clt131, P Luento 4

Samankaltaiset tiedostot
Ctl160 Tekstikorpusten tietojenkäsittely Kolmas luento

Ctl160 Tekstikorpusten tietojenkäsittely p.1/28

Korpusten käsittely clt131, P Luento 5

Korpusten käsittely clt131, P Luento 3

Ctl160 Tekstikorpusten tietojenkäsittely Kolmas luento,

Kieliteknologian ATK-ympäristö Kolmas luento

Kieliteknologian ATK-ympäristö Neljäs luento

Luento 4. Timo Savola. 21. huhtikuuta 2006

Luento 5. Timo Savola. 28. huhtikuuta 2006

Korpusten käsittely clt131, P Luento 1

CLT131 Korpusten käsittely

Kieliteknologian ATK-ympäristö Viides luento

Kieliteknologian ATK-ympäristö Viides luento

Komentotulkki. Kysymyksiä

Hannu Valtanen Oy. Linux vi-editori

Lupa opetuskäyttöön pyydettävä. Näppäimistö. Kohdistimen ohjausnäppäimistö. Funktionäppäimistö. Kirjoitusnäppäimistö

Korpusten käsittely clt131, P Luento 6

Pikanäppäin Yhdistelmiä. Luku 6 Pikanäppäimet

CLT131 Korpusten käsittely (3op)

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

Perusohje vi-editorin käyttöön

Ctl160 Tekstikorpusten tietojenkäsittely

Metropolia Ammattikorkeakoulu

Kieliteknologian ATK-ympäristö Toinen luento

Ctl160 Tekstikorpusten tietojenkäsittely p.1/24

[Jnix näyttökoe. o ei ole sallittua käyttää mitään verkkolevyjakoa tai mitään siihen rinnastettavaa järjestelmdä.

Sisällys. Johdatus Linux/Unixiin: Osa 2. Prosessin tilat. Prosessien hallinta. Prosessien monitorointi

Komentotulkki (SHELL) C- "perhe" - csh, alkup. C shell. Komentokieli. kieltä. - tcsh - edellisen laajennettu versio

Hieman linkkejä: lyhyt ohje komentoriviohjelmointiin.

Windowsin pikanäppäimet

5. Alaindeksi 6. Yläindeksi 7. Poista muotoilut 8. Tasaa teksti vasemmalle

Asialista. CLT131: Tekstityökalut 2012, kymmenes luento. 2. frekvenssien muunnos todennäköisyyksiksi. 1. taulukkohaut

CLT131: Tekstityökalut 2012, kymmenes luento

Tilastotoiminnot. Seuraavien kahden esimerkin näppäinohjeet on annettu kunkin laskinmallin kohdalla:

Luento 2. Timo Savola. 31. maaliskuuta 2006

Taulukkolaskentaa selkokielellä EXCEL

Julkaiseminen verkossa

Johdatus Ohjelmointiin

Vesa Ollikainen, päivitys Juha Haataja

YHTEYDEN OTTAMINEN CSC:N KONEELLE HIPPU

PERUSLASKUJA. Kirjoita muuten sama, mutta ota välilyönti 4:n jälkeen 3/4 +5^2

Luento 3. Timo Savola. 7. huhtikuuta 2006

Osa 7: Hahmojen ohjelmointi ja hienosäätö

5. HelloWorld-ohjelma 5.1

sivu 1 Verkkopäätteen muuttaminen Anvian uuteen tekniikkaan Ohje käy seuraaviin verkkopäätteisiin

CLT131: Tekstityökalut 2011, toinen luento

CLT131: Tekstityökalut 2011, viides luento

Zeon PDF Driver Trial

Sekalaisia selvennyksiä

IRC ja etäyhteydet IRC JA ETÄYHTEYDET

Kieliteknologian ATK-ympäristö Kuudes luento

CLT131: Tekstityökalut 2010, kuudes luento

linux: Prosessit kill PID lopettaa prosessin PID, jos siihen on oikeudet Ctrl + c lopettaa aktiivisen prosessin L7: linux

Unix-kurssi, harjoitustehtävät

Ubuntu tunkkausta En US / Helsinki asennuksen jälkeen jotta loki5ac toimisi oikein Winen päällä.

Vertti. Verituotteiden tilaus. Versio 2.1

Excelin käyttö mallintamisessa. Regressiosuoran määrittäminen. Käsitellään tehtävän 267 ratkaisu.

Unix. Markus Norrena

Ohjelmoinnin perusteet Y Python

11/21/00. Sis llys. Prosessin tilat. Prosessien hallinta. Johdatus Linuxiin/UNIXiin: Osa 3

CLT131: Tekstityökalut 2011, kuudes luento

Maastotietokannan torrent-jakelun shapefile-tiedostojen purkaminen zip-arkistoista Windows-komentojonoilla

Tähtitieteen käytännön menetelmiä Kevät 2009 Luento 2: Linux

Kirjoita oma versio funktioista strcpy ja strcat, jotka saavat parametrinaan kaksi merkkiosoitinta.

TAULUKON TEKEMINEN. Sisällysluettelo

CVS. Kätevä väline usein päivitettävien tiedostojen, kuten lähdekoodin, hallitsemiseen

SuperNova Pikanäppäimet pöytäkoneille, kannettaville ja kosketusnäytöille. Tämä opas on saatavilla eri muodoissa osoitteesta

Ohjeita LINDOn ja LINGOn käyttöön

Ohjelmoinnin perusteet Y Python

Terminaali-ohjelman käyttö - 1

Unix-kurssi, harjoitustehtävät

2. Aloitus -välilehti, leikepöytä- ja fontti -ryhmät

Tilastolliset toiminnot

Fonttimuotoilut. Fontin tyyppi ja fonttikoko

SCI- A0000: Tutustuminen Linuxiin, syksy 2015

Vesa Ollikainen, päivitys Juha Haataja

Sisällys. Johdatus Linuxiin/Unixiin: Osa 4. Arkistointi ja pakkaus. Hakemistojen ja tiedostojen arkistointi ja pakkaus.

SSH Secure Shell & SSH File Transfer

SQL Buddy JAMK Labranet Wiki

KÄYTTÖOHJE LATOMO VERSO

IDL - proseduurit. ATK tähtitieteessä. IDL - proseduurit

1. HARJOITUS harjoitus3_korjaus.doc

SELVITYSRAPORTTI LABRA-VERKON MYSQL:n JA PHP:n KÄYTTÖÖNOTOSTA. Jarkko Kähkönen

Pythonin Kertaus. Cse-a1130. Tietotekniikka Sovelluksissa. Versio 0.01b

ATK tähtitieteessä. Osa 3 - IDL proseduurit ja rakenteet. 18. syyskuuta 2014

1.1 Tekstinprosessointiohjelmien yleinen toimintatapa (1)

5 Näppäimistö. 5.1 Näppäimistön eventit

2 Konekieli, aliohjelmat, keskeytykset

Harjoituksen aiheena on tietokantapalvelimen asentaminen ja testaaminen. Asennetaan MySQL-tietokanta. Hieman linkkejä:

DIFFERENTIAALI- JA INTEGRAALILASKENTA

CLT131: Tekstityökalut 2010, neljäs luento

Asialista. CLT131: Tekstityökalut 2010, kolmas luento. Laskuharjoitusaikataulut. Harjoituksissa havaitut virheet. Käytännön asiat/kertaus

CLT131 Korpusten käsittely Viides luento

Ohjelmoinnin perusteet Y Python

PERL. TIE Principles of Programming Languages. Ryhmä 4: Joonas Lång & Jasmin Laitamäki

Luvuilla laskeminen. Esim. 1 Laske

Ohjelmoinnin perusteet Y Python

Julkaiseminen verkossa, esitysgrafiikkaa (laitteistosta, tietotekniikka ja tulevaisuus) H9T1: Tiedostojen vienti internetiin

Seuraavassa on esitetty seuraavien laskutoimitusten suoritukset eri laskinmalleilla

FrontPage Näkymät

Transkriptio:

Korpusten käsittely clt131, P2 2006 Luento 4 Nicholas Volk <nvolk@ling.helsinki.fi> 24.11.2006 Humanistinen tiedekunta

Säännölliset lausekkeet: ryhmittely Sulkujen avulla voidaan osoittaa määrällistäjille usean merkin kokoisia yksiköitä: egrep ^(ha)+$ egrep ^(h[aeio]h?)+$ egrep (reduplikaatio){2} egrep 10( Australian)? dollaria Kenoviivan avulla voi viitata merkkiin itseensä

Säännölliset lausekkeet: ryhmittely 2 Putkimerkki ' ' tarkoittaa valinnaisuutta Itse käytän sitä vain sulkujen sisällä: egrep san(a oi)s[st]a egrep K(a u)mpi voitti egrep M(\. atti) Meikäläinen egrep (pitää täytyy on pakko) Välillä näkee myös (toimivia) muotoja: ((pitää) (täytyy) (on pakko)) pitää täytyy on pakko

Palindromiesimerkki Egrep-käskyllä on mahdollista viitata aikaisemmin ilmaistuihin suluilla rajattuihin kokonaisuuksiin kirjoittamalla \n, jossa n on 1...9 Esim. Kuusimerkkinen palindromi tunnistetaaan näin: egrep ^(.)(.)(.)\3\2\1$ Kiva nippelitieto, ei tarvitse osata... Notaatio käytössä myös Perlin vanhassa nelosversiossa, mutta ei siitä enempää...

less Luentojen esimerkeissä käyttämälläni less-komennolla voi kätevästä selata tiedostoa tai syötettä Selauksessa voi käyttää mm. page up-, page down- ja nuolinäppäimiä Lopetus q-näppäimellä Ohjesivu h-näppäimellä

less ja säännölliset lausekkeet Painamalla /-näppäintä voi hakea tekstistä säännöllistä lauseketta Lausekkeen kirjoittamisen ja enterin painamisen jälkeen siirrytään ensimmäisen osuman kohdalle Seuraavaan osumaan pääsee painamalla n Edellinen osuma saadaan painamalla N

Skriptaus ja editorit Komentorivillä annetut käskyt voi kirjoittaa skriptiksi tiedostoon, joka voidaan suorittaa Etuja: tallessa pysyminen, helpompi muistaa ja muokata Kirjoitus tiedostoon tapahtuu editorin avulla Tällä kurssilla opetetaan hieman Emacs-editorin käyttöä Käynnistys: emacs Tiedoston avaaminen: emacs tiedosto

Prosessin jakaminen Unix-luokassa emacs kannattaa käyttää komennolla emacs & '&'-merkki aiheuttaa haarautumisen (fork), jolloin myös komentojen antamista komentoriviltä voi jatkaa Ikkunoimattomassa ympäristössä tätä ei kannata käyttää, haarautunut prosessi jää pyörimään piiloon taustalle Taustalla pyörivän prosessin saa esiin käskyllä fg, joka tuo taustaalla pyörivän prosessin esiin

Notaatioita CTRL-x tarkoittaa, että painetaan yhtä aikaa Ctrl- ja x- näppäimiä M-x ('M' niinkuin meta) tarkoittaa joko yhtäaikaisiaa Alt- ja x-näppäimiä tai ensin Esc-näppäintä ja sitten x-näppäintä

Emacsin avautuminen omassa ikkunassa ja terminaalin sisällä Jos halutaan avata Emacs tekstimoodissa voidaan käyttää optiota käytetään -nw optiota: emacs -nw Graafinen versio ei aina ole käytettävissä etäyhteyden yli Niinpä on syytä osata ainakin muutama Emacsin näppäinyhdistelmä... Esim. CTRL-z siirtää Emacsin taustalle

Tärkeitä näppäinyhdistelmiä Emacsin sulkeminen: CTRL-x CTRL-c (huomauttaa, jos käyttäjällä on muuttuneita tallentamattomia tiedostoja) Tiedoston tallettaminen CTRL-x CTRL-s Tiedoston tallettaminen erinimisenä CTRL-x CTRL-w (kysyy uuden tiedoston nimeä) Edellisen asian peruutus (undo): CTRL-x u

Emacsin ja komentorivin yhteisiä näppäinyhdistelmiä Rivin alkuun: CTRL-a Rivin loppuun: CTRL-e Loppurivin poisto: CTRL-k Lisää yhdistelmiä kurssin www-sivuilla

Emacs: merkkijonon haku ja korvaus Merkkijonon haku eteenpäin: CTRL-s merkkijono Seuraava osuma: CTRL-s CTRL-s Merkkijonon haku taaksepäin: CTRL-r merkkijono Merkkijonon korvaaminen: M-% (lue CTRL-SHIFT-%) Säännöllisen lausekkeen korvaaminen: C-M-% Emacsin säännöllisten notaatio eroaa osin kurssilla opetusta (sama kuin perus-grep-käskyllä)

Skriptitiedosto Shell-skripti on komentotulkille kelpaavista käskyistä koostuva tiedosto, johon on suoritus- ja lukuoikeudet (konekielisille ohjelmalle riittää pellä suoritusoikeus) Suoritusoikeus kaikille: $ chmod a+rx skripti.sh Suoritus esim. $./skripti.sh Hyvä tiedostopääte shell-skriptille on.sh

Skriptitiedosto (2) Shell-skriptin ensimmäinen rivi alkaa merkeillä #! joiden perään tulee käytettävän komentotulkin sijainti Komentotulkin sijainti löytyy which-käskyllä: which bash Tavallisesti kannattaa käyttää vanhempaa sh-tulkkia, joka löytyy varmasti kaikista unix-koneista Meillä siis joko #!/bin/sh tai #!/bin/bash

Emacsin moodit Emacs voi tunnistaa tiedostotyypiin tiedostopäätteen tai ohjelman ensimmäisen rivin perusteella ja mennä tiedon avulla oikeaan moodiin Moodit helpottavat tiedostojen editoimista mm. sisennysten ja värien avulla Sh-moodi: M-x sh-mode Moodin mukaiset värit päälle tai pois päältä: M-x global-font-lock-mode

Shell-skriptin argumentit Omallekin skriptille voi antaa komentoriviltä optiota ja argumentteja Ne tallettuvat saapumisjärjestyksessä muuttujiin välillä $1 ja $9 sekä kollektiivisesti muuttujiin $* ja $@ Argumentteja voi olla enemmän kuin 9, loput saa esiin shift-komentoa hyödyntämällä, mutta se ei ole tämän kurssin murhe... On skriptin/ohjelman tehtävä käsitellä komentoriviargumentit

Argumenttien käyttö tällä kurssilla Jos ohjelma saa argumenttinaan yhden tiedoston, se voidaan lukea ja putkittaa seuraavalle komennolle komennolla cat $1 Tuntematon määrä tiedostoargumentteja voidaan käsitellä komennolla cat $@ Jompi kumpi näistä on siis skriptin ensimmäinen komento, jonka tulostus ohjataan seuraaville komennoille (esim. frekvenssilistan tekeville komennoille)