Puheentunnistus Joel Pyykkö 1 1 DL-AT Consulting 2018
Sisällysluettelo Puheentunnistus Yleisesti Chattibotin Luonti Esimerkkinä - Amazon Lex
Puheentunnistus Yleisesti
Puheentunnistus Yleisesti Puheentunnistus on automatisoitua puheen muuttamista tekstiksi tai semanttiseksi tiedoksi. Poikkitieteellinen ala kielitieteiden ja tietojenkäsittelyn välillä. Nykyään toteutetaan useimmiten neuroverkoilla. Käytössä useissa arkipäivän toimissa sekä töissä. Tämän jatkeeksi voidaan tehdä esimerkiksi chattibotteja.
Käyttökohteita Puheentunnistusta käytetään yleisimmin: Henkilökohtaisissa assistenteissa: Siri, Cortana, Alexa, Google Assistant Puhelinboteissa asiakkaille Diktatoinnissa, transkriptoinnissa: Youtube transcript Ajoneuvoissa (autot, lentokoneet) Invalidien apuna Kielten kääntämisessä Pilot / WT2 kieltenkääntäjät
Cortana Useat tietokoneohjelmat käytössä puhekomennoilla, ts. korvaa näppäimistön. Toimii assistenttina joka ymmärtää kalenteria, viestejä sekä toimii viihdykkeenä. Tukee useita kieliä. Yhdistettiin Alexan kanssa hetki sitten. 1 1 https://www.microsoft.com/en-us/cortana
Google Voice Yksi alan perusteellisimmista tuotteista. Puhelinpalvelu jossa puheentunnistin käytössä esim., voicemailin transkriptiossa. 2 2 https://ai.googleblog.com/2015/09/google-voice-search-faster-andmore.html
WT2 Kuuloke joka toimii tulkkina yli kymmenelle kielelle. Reaaliaikainen. 3 3 https://www.wt2.co/
Chattibotin Luonti
Chattibotin Luonti Tarvitaan puheentunnistin, ASR (Automatic Speech Recognition), mikä muuntaa äänen tekstiksi. NLP-järjestelmä (Natural Language Processing) joka tunnistaa tekstistä elementtejä (sanoja, merkityksiä). Järjestelmä joka päättää mitä vastata elementtien perusteella. Vastaukset mahdollisia tekstinä tai puhesynteesinä. 4 4 https://technologyadvice.com/blog/marketing/chatbots-consumers-wantexpect/
Puheentunnistimen Luonti Hyviä tuloksia Recurrent Neural Networkeilla (RNN). Tarvitaan opetusdataa (akustisia näytteitä) ja oikeita vastauksia (foneemeja, sanoja) annetusta aihealueesta ja kielestä. Opetetaan neuroverkkoa kunnes tulokset kelpaavat. Oletuksia tekstin semantiikasta jo täällä, sillä pitää tarvittaessa arvata mitä sanottiin. 5 5 https://www.slideshare.net/aifrontiers/jeff-dean-trends-anddevelopments-in-deep-learning-research
Neuroverkoista Kuvassa RNN-arkkitehtuuri. Data (X) syötetään alhaalta, josta muodostetaan hypoteesi (h) datan merkityksestä. Neuroni (A) muistaa edeltävän ajan tilan syöttämällä tiedon itseensä. 6 6 http://colah.github.io/posts/2015-08-understanding-lstms/img/rnnunrolled.png
Reagointi Sääntöpohjainen tapa: Toimii joka kerta kuten suunniteltu, helppo toteuttaa. Jokainen tapaus pitää vain erikseen määritellä itse. Koneopittu tapa: Oppii joustavamman tavan tunnistaa ja reagoida eri skenaarioihin. Opettaminen vaatii paljon vaivaa, ja välillä voi olla arvaamaton.
Puhesynteesi Neuroverkoilla voidaan toteuttaa myös puhesynteesiä. Teksti muutetaan puheääneksi, joka kuulostaa inhimilliseltä intonaatioiden kera. WaveNet 7 7 https://deepmind.com/blog/wavenet-generative-model-raw-audio/
Esimerkkinä - Amazon Lex
Amazon Lex AWS:ssä toimiva alusta puheentunnistusjärjestelmien ja chattibottien luomiseen. Pohjautuu Alexan teknologiaan. 8 8 https://aws.amazon.com/lex/
Amazon Lex Kykenee tunnistamaan homonyymejä ja keskustelun kontekstin. Vastaukset tulevat millisekunneissa. 9 9 https://aws.amazon.com/lex/
Amazon Transcribe Muuntaa äänen tekstiksi. Tunnistaa useammat puhujat ja homonyymit. Tuki useanlaiselle käyttötarkoitukselle. Sanoja voi lisätä. 10 10 https://aws.amazon.com/transcribe/
Testausta Google Cloud Speech-to-Text Dictation.io Amazon Lex
Lähteitä Pilvipalveluissa valmiita sovelluksia, sekä kehitysympäristöjä: Amazon Web Service (AWS) ja Microsoftin Azure. Githubista löytyy useita valmiita ratkaisuja, vaatii koodausta käyttöönottoon. https://aws.amazon.com/lex/ https://cloud.google.com/speech-to-text/ https://dictation.io/ https://github.com/lucko515/speech-recognition-neuralnetwork