Kielen ymmärtäminen kieliteknologian näkökulmasta. Kimmo Koskenniemi täysinpalvellut kieliteknologian professori Helsingin yliopisto



Samankaltaiset tiedostot
Kielellisten merkitysten tilastollinen ja psykologinen luonne: Kognitiivisia ja filosofisia näkökulmia. Timo Honkela.

ONKI kansallinen ontologiapalvelu: kohti yhtenäistä sisällönkuvailua

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Turingin testin historia

4. Lausekielinen ohjelmointi 4.1

Englanti. 3. luokan keskeiset tavoitteet

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Osaava henkilöstö kotouttaa kulttuurien välisen osaamisen arviointi. Työpaja Hämeenlinna

Pia Hägglund, Pohjanmaan tulkkikeskus. Monikulttuurisuus ja perehdyttäminen

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

RANSKAN KIELI B2 RANSKAN KIELI B2 8 LUOKKA

Kieli ja viestinnän kokonaisuus

Kim Polamo Työnohjaukse ks n voi n m voi a Lu L e,,ku inka i t yönohj t aus s autt t a t a t yös t s yös ä s si s. i 1

Kielellisen datan käsittely ja analyysi tutkimuksessa

tarua vai totta Esitelmän pitäjän nimi Mirjam Heikkinen Helsingin kaupunki

Eväspussi. Onko lähipiirissä esiintynyt hitautta tai vaikeutta lukemaan ja kirjoittamaan oppimisessa? Millaista?

Sonja Kniivilä, Sari Lindblom-Ylänne & Anne Mäntynen

Alkukartoitus Opiskeluvalmiudet

Alberta Language and Development Questionnaire (ALDeQ) A. Varhaiskehitys Lapsen nimi

ääripäistä Ajatuksia suorittamisesta, hellittämisestä ja tiestä tasapainoon.

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Tavoite Opiskelija osaa käyttää englannin kielen rakenteita, hallitsee kielen perusilmaukset ja ymmärtää opiskelijan arkielämään liittyvää kieltä

Tekoälyn perusteita ja sovelluksia (TIEP1000)

Luonnollisella kielellä keskustelevat järjestelmät

Asiakasystävällinen ja ylläpidettävä verkkopalvelu tarua vai totta

TULKKITYÖSKENTELY MAAHANMUUTTAJA- PERHEIDEN KANSSA. Mohsen Tavassoli Suunnittelija Helsingin seudun asioimistulkkikeskus

Aasian ja Afrikan kielet tulivat lukion opsperusteisiin. Mitä muita muutoksia päivitys tuo mukanaan?

Berlitzin taitotaso 1 CEF-taso A 1

How to prepare for the 7th grade entrance exam? Kuinka lukea englannin linjan soveltuvuuskokeisiin?

Valttikortit 100 -ohjelman sanasto on peruskoulun opetussuunnitelman ytimestä.

SUOMI L3-KIELEN OSAAMISTASON KUVAUKSET yläkoulu ja lukio

Yhteentoimiva.suomi.fi - palvelukokonaisuuden ja työkalujen esittely

Tekstien ääniä. Tommi Nieminen Itä-Suomen yliopisto

Aikuisten maahanmuuttajien luku- ja kirjoitustaidon koulutuksen opetussuunnitelman perusteet. Perusteista käytäntöön

KIELENOPPIJOITA TIEDONHANKINTA KESKIÖSSÄ KUUNTELEMALLA OPPIJA (AUDITIIVINEN) KIELEN KÄYTTÖ, VUOROVAIKUTUS NÄKEMÄLLÄ

MONIKULTTUURISEN OPETUKSEN JA OHJAUKSEN HAASTEET. Selkokielen käyttö opetuksessa. Suvi Lehto-Lavikainen, Koulutuskeskus Salpaus

Aasian kieliä ja kulttuureita tutkimassa. Paja

Kielet näkyviin ja kuuluviin

TEKOÄLY JA TIETOISET KONEET

Kiinan kursseilla 1 2 painotetaan suullista kielitaitoa ja kurssista 3 alkaen lisätään vähitellen myös merkkien lukemista ja kirjoittamista.

SUBSTANTIIVIT 1/6. juttu. joukkue. vaali. kaupunki. syy. alku. kokous. asukas. tapaus. kysymys. lapsi. kauppa. pankki. miljoona. keskiviikko.

Osaamispisteet. Vapaasti valittava

LAUSEPANKKI luokkien lukuvuosiarviointiin

Vaikeavammaisen asiakkaan kanssa työskentely

Seuraavat kysymykset koskevat erilaisia tekijöitä, jotka liittyvät digitaaliseen mediaan ja digitaalisiin laitteisiin kuten pöytätietokoneet,

Musiikkipäiväkirjani: Maalataan, kirjoitetaan ja luetaan musiikkia (PWR1) Valitaan värejä, kuvia tai symboleja erilaisille äänille.

Televisiossa jaetaan torstaisin rahaa julkkiksille Speden

LEGO Technic Rakenna digitaalisesti! Kilpailu yleiset määräykset ja ehdot

POHJOISSAAMEN KIELI 10 ov (400h) Lukuvuosina ja alkaen

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Tässä keskitymme palveluiden kehittämiseen ja niistä viestimiseen jotta osaaminen olisi nähtävissä tuotteena. Aluksi jako neljään.

Matematiikan osaaminen ja osaamattomuus

Luova opettaja, luova oppilas matematiikan tunneilla

Mitä taitoja tarvitaan tekstin ymmärtämisessä? -teorian kautta arkeen, A.Laaksonen

T3 ohjata oppilasta havaitsemaan kieliä yhdistäviä ja erottavia ilmiöitä sekä tukea oppilaan kielellisen uteliaisuuden ja päättelykyvyn kehittymistä

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

Seuraavat kysymykset koskevat erilaisia tekijöitä, jotka liittyvät digitaaliseen mediaan ja digitaalisiin laitteisiin kuten pöytätietokoneet,

arvioinnin kohde

Työpaja I + II Kaksikielisen opetuksen arviointi. klo (kahvitauko klo )

Galactor and the Codebreakers: - oppimispeli online maailman sudenkuopista

OHJELMISTOKEHITYS -suuntautumisvaihtoehto

5 asiaa, jotka sinun on hyvä tietää sinun aivoista

Hallitsevat uskomukset ja minäkuvan työstäminen Aija Paakkunainen 1

Eriarvoistava kieli ja köyhyys

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

Vuosiluokkien 1 2 A1-kielen opetussuunnitelman perusteet

Nautitaan e-aineistoista

Tutkiva Oppiminen Varhaiskasvatuksessa. Professori Lasse Lipponen PED0031, VARHAISPEDAGOGIIKKA

Testaajan eettiset periaatteet

Työskentelyohjeita: Suomi toisena kielenä ja kirjallisuus oppimäärän opetuksen tavoitteet vuosiluokilla 1 2. Laaja alainen osaaminen

Lapsen tyypillinen kehitys. -kommunikaatio -kielellinen kehitys

teknologia kielenopetuksessa Teknologia on monimuotoista

MATEMAATTIS- LUONNONTIETEELLINEN OSAAMINEN

Ostoskassit pullollaan miten kehittää

Yllättävän, keskustelun aikana puhkeavan ristiriidan käsittely

Miten opetan suomea? luento CIMO:ssa Comenius-apulaisopettajiksi lähteville Emmi Pollari

7,8 27,8 46,1 54,1 17,4. (oppilas, huoltaja ja opettaja) 27,5 45,7 50,6 25,4. (oppilas, huoltaja ja opettaja) 3,8 20,4 27,4 41,2 50,5 34,6

Näkökulmia ja haasteita Venäjäliiketoimintaympäristössä. Живи и учись. Век живи - век учись

10 yleistä hakukoneoptimointivirhettä

Oppijan verkkopalvelun käyttöohjeiden laatiminen

Euroopan unioni ja monikielisyys Verkkojen Eurooppa Automaattinen käännösalusta. Kimmo Rossi European Commission, CNECT.G3

Global Mindedness kysely. Muuttaako vaihto-opiskelu opiskelijan asenteita? Kv päivät Tampere May- 14

Musiikkipäiväkirjani: Soitetaan rytmissä omaa ääntä käyttämällä (RV1) Juhlitaan kaikkia tunnettuja kielen ääniä.

Tutkiva Oppiminen Lasse Lipponen

Kokemuksia monialaisista oppimiskokonaisuuksista ja niiden arvioinnista

Monikulttuurisuus päiväkodissa. Anna Moring, FT Monimuotoiset perheet -verkosto Kaikkien perheiden Suomi -hanke

Matematiikan didaktiikka, osa II Prosentin opettaminen

4. Lausekielinen ohjelmointi 4.1

VIERAS KIELI/SAAMEN KIELI, A1-OPPIMÄÄRÄ

Jorma Lehtojuuri, rkm Omakotiliiton rakennusneuvoja Juuan Omakotiyhdistys ry:n puheenjohtaja

Koulussamme opetetaan näppäilytaitoa seuraavan oppiaineen yhteydessä:

Kokemuksia varhaisesta kieltenopetuksesta Paula Keskinen Jyväskylän steinerkoulu

Kääntämisen sisäkkäiset etenevät ympyrät

Tietotekniikan koulutusohjelman suuntautumisvaihtoehdot

Uudet kielten opetussuunnitelmat käytäntöön :

KV-järjestelmät suomelle

Eläinlääketieteen lisensiaatin tutkielma Seminaarityöskentelyohjeet

ERIKOISSAIRAANHOIDON LOPPULAUSUNTOJEN YMMÄRRETTÄVYYS terveyskeskussairaanhoitajien haastattelututkimus

Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala

JOHDATUS TEKOÄLYYN TEEMU ROOS

Transkriptio:

Kielen ymmärtäminen kieliteknologian näkökulmasta Kimmo Koskenniemi täysinpalvellut kieliteknologian professori Helsingin yliopisto

Tietää vai ymmärtää? Ymmärtää eli saada järkensä avulla itselleen selväksi, hallita mielessään näin selville saatu, käsittää, oivaltaa, älytä, tajuta (Kielitoimiston sanakirja): ihminen voi ymmärtää, mitä toinen sanoo (käsittää), miten auton moottori toimii (toiminnan periaatteen), miten hänen olisi pitänyt kasvattaa lapsensa (elämänviisautta), ihminen voi ymmärtää vierasta kieltä (kyky, taito). Tietämisessä ihminen on passiivisempi osapuoli: ihminen voi tietää, kuka oli Suomen ensimmäinen presidentti tai milloin oli kolmikymmenvuotinen sota. Hän osoittaa ymmärtäneensä kysymyksen vastaamalla K. J. Ståhlberg tai 1618 1648. (Tai: Svinhufvud...)

Kieliteknologia Opettaa tietokonetta tunnistamaan, tuottamaan ja ehkä myös ymmärtämään ihmisten kieltä (tutkimustavoite). Mallintaa kieltä, sen rakennetta ja toimintaa tietojenkäsittelyn menetelmillä. Tuottaa sovelluksia, joiden avulla ihminen voi paremmin toimia laitteiden ja tietojärjestelmien kanssa (käytännön hyödyt): Oikeinkirjoituksen tarkistaminen ja korjaaminen Tiedonhaku, indeksointi, tiedon eristäminen Puhesynteesi ja puheentunnistus Kielten oppimisen ja -opetuksen tukeminen Kielen kääntämisen avustaminen tai konekäännös. Poistaa esteitä sille, että tietokone ymmärtäisi kieltä.

Ihmisten kieli on iso järjestelmä Montako suomen kielen sananmuotoa teistä jokainen pystyisi tunnistamaan tai tuottamaan (periaatteessa, jos aikaa olisi rajatta)? Mukaan luetaan: kaniineinenne, ymmärryskoneina, katonkelmuakaan tai jääovijuustolanheteissämme, jauhelihaspagettikastikkeena. Tunnistamme niiden osaset ja meille syntyy mielikuva siitä, mitä sanakummajaiset ehkä tarkoittaisivat. Käänteisesti, merkityksen selityksen perusteella voisimme tuottaa kyseiset sananmuodot. Mutta arvatkaa kuinka paljon tällaisia potentiaalisia sananmuotoja voisi olla! enemmän, enemmän, enemmän, Mutta tämä kaikki on tietokoneella helposti hallittavissa, eikä suomi ole erityisen hankala tässä suhteessa.

Miten niin tietokone ymmärtäisi ihmisten kieltä? Tekoälyksi kutsutaan sitä, kun tietokone tekee jotain, mitä ihmisen tekemänä pidetään älykkäänä. (Tämä voi muuttua ajan kuluessa.) Tietokone ymmärtää jos se tekee jotain, mikä ihmisen tekemänä pidettäisiin ymmärtämisenä. Ihminen kysyy tietokoneelta ja tietokone vastaa; jos vastaus on hyödyllinen, tietokone näyttää ymmärtävän. Ihminen komentaa tietokonetta; jos tietokone tekee sitä, mitä ihminen haluaa sen tekevän, tietokone näyttää ymmärtävän. Jos tietokone koostaa johtopäätöksiä suuresta määrästä tekstejä, tietokone näyttäisi suorittavan jotakin laajempaa ymmärtämistä.

Ymmärtää tai ei ymmärrä Ihmiset eivät useinkaan ymmärrä toisiaan, koska heillä on eri kulttuuritausta, erilainen koulutus tai kokemuspiiri. Kieli on monimerkityksistä, tai yksinkertaisesti kuullaan väärin. Eikä kuulija aina edes halua ymmärtää tai puhuja halua tulla ymmärretyksi oikein. Itse ymmärtämisen mekanismia ei osata hyvin määritellä eikä kuvata. Ymmärtämisen epäonnistumisen osatekijöitä tai esteitä on selvempää tunnistaa ja mallintaa.

Ymmärtämisen kielellisiä esteitä Kieli voidaan ymmärtää koodina, joka koostuu kieliopista ja sanastosta. Sanastoa, sanojen taipumista voidaan mallintaa tietokoneella, samoin niitä sääntöjä, joilla sanoja voidaan yhdistää virkkeiksi. Ilman tällaista kykyä tietokone ei voi juurikaan ymmärtää kielellisiä ilmauksia. Kieli koodaa asioita kuitenkin moniselitteisesti: sanoilla on monia merkityksiä (laskea), sananmuodot voisivat olla eri sanojen muotoja (alusta), lauseiden sanojen suhteet voidaan tulkita useammalla tavalla (punainen tupa ja perunamaa onko perunamaakin punainen?) Kieliteknologia poistaa tällaisia esteitä erilaisilla jäsentimillä ym. (tunnistaa sanojen eri muodot, lauserakenteet ja yksiselitteistää niitä).

Merkityksistä Suuret tekstikorpukset heijastavat ympäröivää maailmaa, josta kielellä puhutaan ja johon kielellä viitataan. (Minkälaisia asioita maailmassa on.) Tesaurukset suhteuttavat kielen sanoja toisiinsa (synonyymejä, ylä- ja alakäsitteitä, vastakohtia). (Yleistyksiin perustuvaa merkitystä.) Tiedon eristämisen (information extraction) menetelmillä voidaan tekstimassoista eristää ja tunnistaa henkilöiden tai organisaatioiden nimiä (Kekkonen ~ Urho Kaleva Kekkonen ~ tasavallan presidentti Kekkonen ~ Urkki ~...). Yksittäisten tietojen lisäksi voidaan eristää konstruktioita (Microsoft osti Nokian matkapuhelimet)

Tietokone ymmärtää? Avoimesti arkisista asioista keskusteleva tietokoneohjelma (Turingin testi). Kysymys-vastaus -järjestelmät (avoimia tai määrättyyn aihepiiriin rajattuja; vastaukset perustuvat digitaalisessa muodossa oleviin teksteihin). Tietyn aihealueen rakenteen hallitsevat luonnollista kieltä ymmärtävät järjestelmät (aihepiirin käsitteet ja käsitteiden väliset suhteet on huolellisesti määritelty etukäteen). Kielen automaattinen kääntäminen (oikein). (Bar-Hillel 1960: kone voi kääntää oikein vain sen, minkä se ymmärtää.)

Vapaasti keskustelevat ohjelmat Keskusteleva tietokoneohjelma, ajatellaan ymmärtävän, mitä sille sanotaan, jos se vastaa mielekkäästi ja luontevasti Alan Turingin artikkeli "Computing machinery and intelligence" vuodelta 1950 on hyvin tyhjentävä ja kaukonäköinen, ks. http://loebner. net/prizef/turingarticle.html Loebner Prizen, v. 2013 voittaja http://mitsuku.com/ toteuttaa kohtuullisesti Turingin "imitation gamen" eli sen kanssa keskustellessa ei voi olla 5 minuutin kuluessa kovin varma, onko toisessa päässä ihminen vai ohjelma.

Jeopardy! USA:ssa suosittu TV-ohjelma, jossa kilpailijoille esitetään vastauksia ja se, joka ensimmäisenä keksii vastaukseen sopivan kysymyksen, saa pisteitä. IBM laati Watson -nimisen tietokoneohjelman, jolla oli valtava määrä järjestettyä ja järjestämätöntä arkitietoa kaikista aihepiireistä. Kilpailuissa v. 2011 Watson päihitti USA:n parhaat Jepardy-pelaajat useaan otteeseen. Watson on tyypillinen kysymys vastaus-järjestelmä, jossa käytettävissä olevasta aineistosta eristetään etukäteen tietoa, kysymys analysoidaan ja mahdollisista vastauksista etsitään parhaiten sopiva.

Kysymys vastaus-järjestelmät Tietystä aihepiiristä, esim. tietokoneohjelman käytöstä voi olla käsikirja tai kansaneläkelaitoksen palveluista ja tuista ohjeet ja lait. Tiedon eristämisen keinoilla tällaisista teksteistä voidaan eristää etukäteen käsitteitä, joihin kysymykset voidaan yhdistää: kohtia, joissa määritellään käsitteitä tai joissa sanotaan, miten jokin asia tehdään. Ohjelma etsii tekstin kohdat, joiden ilmaukset ovat sen kaltaisia, että ne voisivat olla vastauksia esitettyyn kysymykseen. Ohjelma tulkitsee kysymyksen ja suhteuttaa sen saatavilla olevaan tietämykseen tämä on melkein ymmärtämistä Moniselitteisyyttä ratkaistaan tilastollisilla todennäköisyyksillä.

Suppean aihepiirin keskustelujärjestelmät Ontologialla voidaan kuvata rajallisen aihepiirin käsitteiden suhteet toisiinsa, esimerkiksi tietokoneen tulostimista, että niillä on tiettyjä osia, osilla toimintoja ja miten osat voivat aiheuttaa toimintahäiriöitä. Näin voidaan rakentaa mielekkäästi keskustelevia järjestelmiä, jotka ontologian avulla pystyvät paremmin arvaamaan, mitä käyttäjä kysyy ja mitä hänelle kannattaa vastata. Ontologia auttaa yksiselitteistämään moniselitteisiä kysymyksiä (usein vain yksi mahdollisista tulkinnoista sopii ontologiaan). Järjestelmä kysyy lisää, jos jää monia mahdollisia tulkintoja.

Kielen kääntäminen Googlen konekäännös on tilastollispohjainen, eikä pyri jäsentämään kieltä. Se toimii joskus hyvin, joskus erehtyy pahasti. Aarne Rannan Grammatical Framework (GF) perustuu ontologian kaltaiseen käsitemalliin ja pystyy melkoisella varmuudella kääntämään oikein sen, minkä se käsitemallinsa perusteella pystyy tunnistamaan. GF:n varhaisimmat versiot käänsivät matemaattisia todistuksia. Lähtökielen moniselitteisyydet ratkottiin sen perusteella, että teoreema oli mielekäs. Saatu looginen esitysmuoto voitiin sitten kääntää tarkasti kohdekielelle. GF:n voi sanoa ymmärtävän tekstiä, jonka se kääntää.

Kiitos!