DataLake-hanke - AWS , tietohallinto, Matti Valli, Pasi Porkka

Samankaltaiset tiedostot
UNA PoC-yhteenveto CGI Aino Virtanen

AMOlla tiedot lähelle

TIETOMALLI JA TIETOVARASTO PALVELUKONSEPTI

Järjestelmäarkkitehtuuri (TK081702)

Valtiokonttorin Voimaraportointi. Tero Mäkinen

Copyright Observis Oy All rights reserved. Observis Oy Ville Kanerva, CTO Heikki Isotalus, COO Datasta tietoa

Amazon Web Services (AWS) on varmaankin maailman suosituin IaaS-tarjoaja. Lisäksi se tarjoaa erilaisia PaaS-kategoriaan kuuluvia palveluita.

SAS sovellusten hallinnointi helpoksi Turbo Charge -menetelmällä Tapio Kalmi, SAS Institute Oy

Tietojärjestelmä tuotantoympäristössä. Sovellusohjelmat Helsingin ammattikorkeakoulu Stadia / Tekniikka ja liikenne Vesa Ollikainen

Poweria analytiikkaan

Järjestelmäarkkitehtuuri (TK081702) Lähtökohta. Integroinnin tavoitteet

TeliaSonera Identity and Access Management

Verkottunut suunnittelu

Analytiikka osana muutosjohtamista ja tiedonhallintaa Kuinka me teimme sen ja mihin olemme menossa? Elintarviketurvallisuusvirasto Evira Erik Semenius

TERADATAN JA SAS DI STUDION YHTEISELO CASE LÄHITAPIOLA

Data Warehouse kuulumisia

Käyttövaltuushallinnan hyödyt tehokkaasti käyttöön. Johanna Lampikoski, RM5 Software Juha Arjonranta, TeliaSonera Finland

Health Intelligence - Parempaa informaatiota terveydenhuollon päätöksentekoon. Terveydenhuollon ATK päivät Sibelius Talo, Lahti

in condition monitoring

UNA PoC-yhteenveto Atostek Sami Konttinen

Kari Rouvinen Johtaja, Technology Products & Solutions. Oracle Finland Oy

Koodistoeditorin toteutuksen lähtökohtia: KaPA-koodistopalvelu ja REST-rajapinnat

Suunnitteluvaihe prosessissa

Tapahtuipa Testaajalle...

Paikkatiedon tulevaisuus

Tiedon suojaaminen ja hallinta. Sytyke seminaari

IBM BusinessConnect A new era of thinking. A new era of thinking. Metsä Group. Mobiiliarkkitehtuuri. Ari Linja IBM Corporation

Tiedolla johtaminen ja sähköiset palvelut. Sami Niskanen, Jari Uotila & Matti Koskivirta

XPages käyttö ja edut Jarkko Pietikäinen toimitusjohtaja, Netwell Oy

ACCOUNTOR ICT Digitaalinen työympäristö Markkinatutkimus joulukuu 2018

Monimutkaisesta datasta yksinkertaiseen päätöksentekoon. SAP Finug, Emil Ackerman, Quva Oy

Työasemien hallinta Microsoft System Center Configuration Manager Jarno Mäki Head of Training Operations M.Eng, MCT, MCSE:Security, MCTS

Järjestelmäarkkitehtuuri (TK081702) Pilvipalvelut. Pilvipalvelut - lähtökohtia

Järjestelmäarkkitehtuuri (TK081702) Avoimet web-rajapinnat

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

Visuaaliset työpöydät - lisää voimaa liiketoimintaan suurten datamassojen ketterästä analysoinnista

IoT-platformien vertailu ja valinta erilaisiin sovelluksiin / Jarkko Paavola

Scrum is Not Enough. Scrum ei riitä. Ari Tanninen & Marko Taipale. Nääsvillen oliopäivä 2009 Tampereen teknillinen yliopisto 9.12.

XBRL-raportointi julkishallinnolle. Tietojärjestelmätoimittajainfo Kuntatieto-ohjelmasta Seppo Harju

Taltioni teknisen alustan arviointi

Jan Montell. Talousjohtaminen ja datan hallinta Fingridissä

Järjestelmäintegraatio

Risto Pelin Microsoft Project 2002 projekti- ja yritystason järjestelmänä

Avoin data ja rajapinnat Tampereen seudulla Johdatus www-tekniikoihin, UTA, Tampere

Testiautomaatio tietovarastossa. Automaattisen regressiotestauksen periaate ja hyödyt

JUHTA / VAHTI työpaja Valtiovarainministeriö, Kimmo Järvinen Valtiokonttori. Tietojohtaminen ja HR

Virtualisoi viisaasti paranna palvelua. Iikka Taanila Systems Architect IBM Systems and Technology Group

ArcGISSM. Online. Paikkatietoalusta organisaatiollesi

Tutkimusprojekti: Siemens Simis-C -asetinlaitteen data-analytiikka

DI Studion käyttökokemuksia. Kaisu Ikonen, Tilastokeskus

Maakunnan tiedolla johtaminen ja tietoaltaan hyödyntäminen Jyrki Tirkkonen Liiketoimintapäällikkö, Tiedolla johtaminen ja informaation hallinta

Suomen terveysdataympäristö

KONTTI - Teolliset komponenttiohjelmistot Tekesin ETX-ohjelma

Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta

Tosi elävä virtuaalimalli Mika Karaila Tutkimuspäällikkö Valmet Automation

Liiketoimintajärjestelmien integrointi

Projektinhallintaa paikkatiedon avulla

Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas

LAS- ja ilmakuva-aineistojen käsittely ArcGIS:ssä

Älykkäämpi päätelaitteiden hallinta Juha Tujula, CTO, Enfo Oyj IBM Corporation

Hand-out kooste

SQL SERVER 2012 PARALLEL DATA WAREHOUSE APPLIANCE

KADA (Drupal 7) migraatio uuteen (versioon) webiin

TIEDOLLA JOHTAMISEN TULEVAISUUS

Rajapinnat kuntajärjestelmissä #Kuntamarkkinat

Valtionhallinnon käyttäjäpäivä - IBM Cognosin tulevaisuuskatsaus ja nykypäivä

Järjestelmän alasajon suunnittelu. Kullström Satu

Paikkatiedon hyödyntäminen vesiensuojeluyhdistyksissä

5.10. Työ Työkykyjohtamisen opintopolku 2017, osa 8/9: Työkyvyn johtaminen tiedolla

KAOS 2015: Integraatioiden standardointi suunnittelumallien avulla. Ilkka Pirttimaa, Chief ICT Architect, Stockmann ICT

UNA PoC-yhteenveto DIGIA Ari-Pekka Paananen

Web-seminaari

Amazon Web Services Case Fonecta. Palvelupohjaiset järjestelmät TIE-23600

Tapaaminen asiakas- ja potilastietojärjestelmien uudistamisyhteistyön seuraavan vaiheen organisointiin liittyen

Automatisoinnilla tehokkuutta mittaamiseen

DL2021-infrastruktuurin ja osaamisen kehitystyö CSC:llä

Liiketoimintajärjestelmien integrointi

Koodistoeditorin tavoitteet ja tilannekatsaus

Story. Kajaani. Kuopio. Ornskoldsvik. Trondheim. Savonlinna. Tampere. Lappeenranta. Turku. Espoo (Helsinki) Bergen. Oslo Stockholm.

Liiketoimintasovellusten modernisointi - Anna sovelluksillesi uusi elämä. Sofor varmistaa investointiesi tehokkaan hyödyntämisen

Miten kaupunki hyödyntää dataa ja mitä esimerkiksi raportointi vaatii järjestelmiltä

Big-data analytiikka-alusta osana markkinoinnin kokonaisratkaisua

Tietotalo Infogate myynti-ja-markkinointi-verkossa-seminaari

Smart cities - nyt ja huomenna

Työpöytävirtualisointi

IoT-järjestelmän ja ulkovalaistuksen ohjauksen hankinta -markkinavuoropuhelutilaisuus

Konesali ilman rajoja Kongressi A

Käytännön haasteita ja ratkaisuja integraation toteutuksessa. Jukka Jääheimo Teknologiajohtaja Solita Oy

YHDISTYKSEN DIGITAALINEN VIESTINTÄ

Liite 1: KualiKSB skenaariot ja PoC tulokset. 1. Palvelun kehittäjän näkökulma. KualiKSB. Sivu 1. Tilanne Vaatimus Ongelma jos vaatimus ei toteudu

Juha Viinikka, Senior Manager, Corporate Security, Kesko

Projektisuunnitelma. Asdf. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Parametronnin perusteet

AVOIN LÄHDEKOODI JA SEN MERKITYS LIIKETOIMINNASSA

Written by Administrator Monday, 05 September :14 - Last Updated Thursday, 23 February :36

Älykäs verkottuminen ja käyttäjänhallinta. Pekka Töytäri TeliaSonera Finland

Työkalujen merkitys mittaamisessa

Internet of Things. Käänteentekeviä innovaatioita ja uusia liiketoimintamahdollisuuksia. Pekka Pykäläinen, Product & Solutions Manager Microsoft Oy

TKK: Shibboleth toteutuksia ja projekteja. Markus Melin

Potilastiedot ja tietoturvallisuus Tietoturvaselvitykset ja asiantuntijakonsultointi roolipohjaisen käyttäjähallinnan osalta

Transkriptio:

DataLake-hanke - AWS 26.9.2018, tietohallinto, Matti Valli, Pasi Porkka

DataLake Organisaation näkökulma Yhteen järjestelmään kerätty organisaation liiketoiminnallinen tieto parantaa organisaation mahdollisuuksia saada ajantasaista ja kattavaa tietoa sen omasta liiketoiminnasta: Kaikilla toimijoilla on samat tunnusluvut, jotka perustuvat samaan tietoon ja samoihin analyyseihin Tieto on jatkuvasti ajan tasalla Useista eri operatiivisista järjestelmistä saatua tietoa voidaan yhdistellä keskenään ja muun esim. avoimen datan ja paikkatiedon kanssa BI-alustalla vaativat analyysit ovat tehokkaita ja helpohkosti toteutettavissa Kullekin toimialalle voidaan räätälöidä omia raportteja Henkilöstö voi itse analysoida koostettuja tietoja sallituilla ohjelmistoilla BI-alusta mahdollistaa simulaatiot ja aikasarjaennusteet Asiakkaille (kaupungin asukkaille) voidaan tehdä omia näkymiä

DataLake Lähtökohta ICT-yksikkö Vuonna 2017 n. 210 eri tietojärjestelmää, joissa osassa tietokanta, osassa ei Kaikkiin kantoihin ei kuitenkaan saatavilla rajapintaa; (uusissa sopimuksissa pykälä, joka takaa pääsyn kantaan eli omaan dataan!) Omien järjestelmien lisäksi avointa dataa Väestörekisteri, verottaja, PRH, kaupparekisteri, jne. Data saatavilla useissa erilaisissa muodoissa (csv, xml, json, txt, doc, pdf, jne.) Isoimmissa operatiivisissa tietokannoissa satoja tauluja Tietomallit monimutkaisia; esim. HR-puolella tietokuutio, jossa 36 dimensiota Operatiivisissa järjestelmissä kymmeniä omia raportointiohjelmia

DataLake Tavoitteet ICT-yksikkö Koska paljon erilaisia datalähteitä: Erilaisille datatyypeille omat automatisoidut datan siirtoputket. Toteutus ja suorituksen automatisointi yhdenmukaisesti. Integraatioiden on reagoitava, jos toipumisen automatisointi ei ole järkevää. Data ei saa korruptoitua automaation seurauksena! Oleellisen ja tärkeän datan määrittely priorisoiduista järjestelmistä. Koska data monimutkaista: Dokumentaatio data, prosessit, roolit, päätökset, integraatiot ja erityisesti riippuvuudet eri tietolähteiden välillä on kuvattava jatkuvasti; kokonaiskuva Koska (toivottavasti) käytetään vain muutamaa raportointiohjelmaa: raporttien yhtenäiset pohjat, yhtenäinen laskenta, sama värimaailma, yhteiset tulkinnat raportointiohjelmien syvällinen osaaminen ja koulutus toimialoille

DataLake - Poc 2016 alkaen testattiin samalla aineistolla 3:n eri teknologiaratkaisun ETL-prosessia Aineistoina ostolaskutiedot, varastotapahtumat, maaomaisuus ja kaivuuluvat Omia kokemuksia ja mielikuvia toimittajista ja tuotteista: Microsoft sekava arkkitehtuuri, liikaa liikkuvia osia, hintapolitiikka, ei kustannusarviota IBM pystytysvaikeudet, aikataulu petti, luottamuspula Oracle selkeä arkkitehtuuri, kallis, toteutui halutusti, hintapolitiikka? Suunnitelman mukaisesti toteutui Oracle, mutta hyvin kallis. Microsoftkin ehkä (!?). IBM-alustan kanssa suuria teknisiä pystytysvaikeuksia eikä sen kanssa päästy eteenpäin. Kysyttiin myös Fujitsun tarjonta DataLaken pohjaksi ei oikein sopinut ajatuksiin kypsyi ajatus kokeilla arkkitehtuuria, joka mahdollistaa open source- pohjaisten BI- ja analytiikka-työkalujen käytön AWS!

DataLake Yleisarkkitehtuuri Ulkoiset tietolähteet www Avoin Data Porilaiset, ulkoiset käyttäjät... Analyysi-ohjelmisto, avoin data BI-alusta DataLeikki Perusdatan yhdistely, siivous ja muokkaus Kyselytietokanta Analyysi-ohjelmisto, raportointi Tiedolla johtaminen, simuloinnit, tekoäly Porin kaupunki FRENDS Työntekijät Johto TK TK TK......

DataLake AWS - arkkitehtuuri Client console S3 S3 EMR AWS Lambda AWS Step Functions PostgreSQL S3 FRENDS VPN connection <HIVE> corporate data center SSL connection Landing tables Staging tables Hive scripts Lambda function PostgreSQL instance views AWS region: eu-central-1 (Frankfurt) AWS Management Console EC2 AWS CodeCommit AWS Storage Gateway IAM Security Cognito PostgreSQL replica QuickSight Analysis Management of services AWS region: eu-west-1 (Ireland)

DataLake AWS - komponentit Palveluja otetaan käyttöön AWS Management Consolen avulla, joka on ainoa pakollinen AWS:n komponentti. Alla on esitelty niitä palveluita, joita tässä pilotissa käytetään. Järjestelmän hallinnointipalvelut IAM Identity and Access Management, käyttöoikeuksien hallinnointi Cognito, käyttäjäidentiteetin hallintapalvelu mobiilisovelluksille EC2 Elastic Compute Cloud, tietoturvallinen ja skaalautuva pilven ohjelmointialusta VPC Virtual Private Cloud, pilviresurssien eristyspalvelu Tallennuspalvelut, niiden hallinta ja tietokannat S3 Simple Storage Service, skaalautuva tallennustilapalvelu Storage gateway, oman IT-ympäristön integrointi AWS:ään RDS Relational Database Service, relaatiotietokannan käyttöönotto Sovellusten kehitys, koodin hallinta ja automatisointi. Lambda, tapahtumapohjainen informaationkäsittelypalvelu CodeCommit, koodin versionhallinta AWS Step Functions, sovellusten ja mikropalvelujen hallinta visuaalisin työkaluin EMR, Hadoop viitekehys hive-funktioiden käytölle ja HUE-käyttöliittymä Analyysi ja raportointi QuickSight, integroitu analyysien ja visualisoinnin työkalu

Siirron vaiheet Siirron prosessi Hallinta corporate data center Client console corporate On prem server FRENDS Frends integraatiototeutus, Por_ Mistä _AWS_ Mitä Rajapintatriggeröinti: I:\Datalake_OUT\Por_ Mistä _AWS_ Mitä https://pori327/frends/process SSL,VPN connection SSL connection Trigger: pori-emr-hivetables/file_prosessors.txt Landing tables (CSV Hive) Staging tables (Hive) Start SetHiveScriptParams RunHiveScriptOnEMR SetPsqlScriptParams RunPsqlScriptOnEMR Lambda functions AWS Step Functions SetHiveToPostgresParams CopyHiveTableToPostgres AWS Management Console (Yhdistetään uusi ja vanha data) SetPsqlScriptParams2 RunPsqlScriptOnEMR2 PostgreSQL instance Postgres tables PostgreSQL replica End

DataLake - roadmap X AWS:n käyttöönotto, perustoiminnallisuus, tallennusalueet, postgresql Erimuotoisen datan putkitus datalakeen ja postgresiin X CSV X XML Avoimen datan siirrot, tallennusrakenteet ja bucketit. Menetelmät! Ei-rakenteisen datan tallennusrakenteet S3:ssa Analytiikka- ja aikasarja-analyysien tuotteistus Hakukoneen (Cloud Search) käyttöönotto Oma sovelluskehitys AWS:ssä Haaveena OmaData-palvelu kansalaiselle