Kuinka paljon dataa on tarpeeksi?

Samankaltaiset tiedostot
LAS- ja ilmakuva-aineistojen käsittely ArcGIS:ssä

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

7.4 Variability management

SQL SERVER 2012 PARALLEL DATA WAREHOUSE APPLIANCE

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Uudella palvelinteknologialla otat palvelut käyttöön nopeammin. Micke Sjöblom Category Manager - HP Servers

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

HITSAUKSEN TUOTTAVUUSRATKAISUT

Ylläpitäjät, järjestelmäarkkitehdit ja muut, jotka huolehtivat VMwareinfrastruktuurin

JOHDATUS TEKOÄLYYN TEEMU ROOS

Dell Fluid Data TM solutions

Office 2013 ja SQL Server 2012 SP1 uudet BI toiminnallisuudet Marko Somppi/Invenco Oy

JOHDATUS TEKOÄLYYN TEEMU ROOS

Perinteisesti käytettävät tiedon (datan) tyypit

RAMBOLL WATER TEKOÄLYN HYÖDYNTÄMINEN JÄTEVEDENPUHDISTAMON OPEROINNISSA

Cisco Unified Computing System -ratkaisun hyödyt EMC- ja VMwareympäristöissä

IBM Iptorin pilven reunalla

JOHDATUS TEKOÄLYYN TEEMU ROOS

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

Tiedon analysoinnista pitkäaikaissäilytykseen

Tiedon salaaminen tallennusverkossa Luottokorttinumeroiden tokenisointi

Introduction to Machine Learning

Rajattomat tietoverkot ja niiden rooli pilvipalveluissa. Jukka Nurmi Teknologiajohtaja Cisco Finland

AKKREDITOITU TESTAUSLABORATORIO ACCREDITED TESTING LABORATORY WE CERTIFICATION OY OPERATOR LABORATORY

Visualisoi tapahtumat ja selvitä niiden kulku

EVERY CLOUD HAS A SILVER LINING - OHJELMISTOPOHJAINEN TALLENNUS SUSE ENTERPRISE STORAGEA HYÖDYNTÄEN Eero Lindqvist. Telia Finland

SFS/SR315 Tekoäly Tekoälyn standardisointi

PixInsight. Tampereen Ursa Jouni Raunio

Capacity utilization

Jatkuvuus on arkistoinnissa avainasia

SMART BUSINESS ARCHITECTURE

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tehosta toimintaasi oikealla tiedonhallinnalla Helsinki, TIVIAn tapahtuma Jussi Salmi

Työasemien hallinta Microsoft System Center Configuration Manager Jarno Mäki Head of Training Operations M.Eng, MCT, MCSE:Security, MCTS

JOHDATUS TEKOÄLYYN TEEMU ROOS

Visualisoinnin aamu 16.4 Tiedon visualisointi. Ari Suominen Tuote- ja ratkaisupäällikkö Microsoft

Kahden virtualisointiohjelmiston suorituskyvyn testaus (valmiin työn esittely)

Tieto ja sen mallinnus Fonectalla - Teemme tiedosta arvokasta. Aija Palomäki, TDWI jäsenkokous

Backup Exec 3600 Appliance

Tekoäly muuttaa arvoketjuja

Risto Kauppi, CEO. Rugged Tooling Subject to change

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Agora Center - Monitieteiset projektit

Maiju Mykkänen Susanna Sällinen

Älyvaatteet työympäristössä

Harha mallin arvioinnissa

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

Unified Fabric: palvelimien verkkoliitettävyys remontissa

TERRASOLID Terrasolidin ratkaisut UAVkartoitussovelluksiin Kimmo Soukki

Koira testissä vai Racci tuotannossa O10G/IAS10 Linuxilla

HARJOITUS- PAKETTI A

OUGF syysseminaari Back to Basics

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

SOA SIG SOA Tuotetoimittajan näkökulma

Scheduling of Genetic Analysis Workflows on Grid Environments (valmiin työn esittely) Arttu Voutilainen

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mammutti vai elefantti?

Pakettisynkronointitestauksen automaatio

WEBINAARI

TIETOJOHDETTU RAKENNUSPROJEKTI Niko Vironen Kehityspäällikkö Fira Group

Lämmitysjärjestelmät

Indoor Environment

Tekoäly terveydessä ja taloudessa Nykytila, haasteet ja mahdollisuudet. Elina Jeskanen Petrus Metsälä

Poraustyökierrot ja piirteiden tunnistus

Laskennallinen data-analyysi II

GeomaticsandInformationScienceofWuhanUniversity Vol.37No.4 Apr.2012 : (2012) :A (1, 22,210093) :, : ; ; ;Sort :P

Suorituskyvyn varmistaminen sovelluskehityksen eri vaiheissa Paavo Häkkinen, Presales Teamleader Compuware Finland

Autodesk Lisenssitiedosto Autodesk, Inc.

Mitä IHMEttä on MIXTURE -mallintaminen?

Tulevaisuuden työ nyt

PALVELUKULTTUURIN JA MINDSETIN KEHITTÄMINEN 3 STEP IT Step IT Group / Palvelukulttuuri / Artti Aurasmaa

Virtualisoinnilla käytettävyyttä ja joustavuutta liiketoimintakriittisille sovelluksille

Sovellusarkkitehtuurit

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Vapaan sivistystyön päivät , Jyväskylä Jan-Markus Holm

Portaaliteknologiat mahdollistavat ajattelutavan muutoksen

Tallennusverkkojen tulevaisuutta - FC over Ethernet / Data Center Ethernet

TURVALLISEN TEKNIIKAN SEMINAARI Laitteiden etähallinta tietoverkkojen välityksellä Jani Järvinen, tuotepäällikkö

Toimisto (5) HUOM. Komiteoiden ja seurantaryhmien kokoonpanot on esitetty SESKOn komitealuettelossa

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Ammatillinen opettajakorkeakoulu

Tibio Luottaa Lenovon konesaliteknologiaan

Koko ajan. monimutkaisemmaksi

Improving advisory services through technology. Challenges for agricultural advisory after 2020 Jussi Juhola Warsaw,

Dronejen vaatimukset viestintäyhteyksille

HP Change Rules of Networking

(b) Tunnista a-kohdassa saadusta riippuvuudesta virtausmekaniikassa yleisesti käytössä olevat dimensiottomat parametrit.

Läsnäolotiedot Syksy 2017 Kevät 2018 OPINTOJAKSO OP ARV PVM OPETTAJA

JOHDATUS TEKOÄLYYN TEEMU ROOS

Use of spatial data in the new production environment and in a data warehouse

DYNAMIC INFRASTRUCTURE - Uudet tavat suunnitella tehokkaita konesaleja

KODAK EIM & RIM VIParchive Ratkaisut

Luento 1 (verkkoluento 1) Tietokonejärjestelmä

KONENÄÖN MAHDOLLISUUDET KATUJEN JA TEIDEN OMAISUUDEN HALLINTAAN

FPGA-piirien käyttökohteet nyt ja tulevaisuudessa Tomi Norolampi

Tekoäly liiketoiminnassa. Tuomas Ritola CEO, selko.io

WWW load balancing. Onni Lampi. Bachelor s thesis Espoo Thesis supervisor: Lehtori Kalle Ruttik. Thesis advisor:

POWER analytiikka-alustana

TK Palvelinympäristö

Transkriptio:

Kuinka paljon dataa on tarpeeksi? Tiekartta hallitun datalammen rakennukseen Mikko Toivonen Manager, Systems Engineering Dell Technologies Finland

Tekoälyn (koneoppimisen) kolme pilaria Tekoälyalgoritmit Jo kehittyneet ja kokoajan kehitettävät tekoälyalgoritmit mahdollistavat koneiden suorittavan tehtäviä, jotka aikaisemmin oliva ihmisen yksinoikeus. Laskentateho Sadat ja tuhannet palvelimet ja laskennan kiihdyttimet mahdollistavat tekoälyalgoritmien ja suurien datamassojen prosessoinin. Datan määrä Datan saatavuus ja kyky tallentaa sitä järkevästi ja tehokkaasti ovat avainasemassa koneiden kouluttamisessa. 2 1

3

Kuinka paljon dataa on tarpeeksi?

1D Normaalijakautunut data n näytteiden lukumäärä X ~ N(μpop, σpop), data on normaalijakautunut Datan keskiarvon ( μ) keskihajonta ( σ) on σ pop n Bayesin Credible Interval on myös suhteessa edelliseen arvoon Tarkuuden kaksinkertaistaminen vaatii siis nelinkertaisen määrän datapisteitä

Curse of Dimensionality Vakiomäärä tasajakautuneen datan datapisteiden etäisyys kasvaa eksponentiaalisesti suhteessa datan dimensionaalisuuteen 1000 pistettä, 0 1 välillä, pisteiden etäisyys 1D: 0.001 3D: 0.1 10D: ~0.5 Datapisteet ovat harvassa, joten arvioiden luotettavuus laskee 1D 2D 3D

1000 pisteen keskimääräinen etäisyys [1] https://towardsdatascience.com/curse-of-dimensionality-2092410f3d27

Hughesin ilmiö Featureiden lukumäärä tulee ottaa huomioon Featureiden lukumäärä ei ole sama kuin datan dimensionaalisuus Esim. Kuvan dimensionaalisuus on pikseleiden lukumäärän ja värikanavien tulo featureita ei kuitenkaan ole näin montaa Featureiden todellinen lukumäärä voi olla vaikea arvioida, esim. kuvista [1] Hughes ilmiö [1] https://towardsdatascience.com/curse-of-dimensionality-2092410f3d27

ImageNet Hierarkkinen tietokanta kuvia Vuonna 2009, 3.2 miljoonaa kuvaa Nykyään yli 14 miljoonaa kuvaa (image-net.org) Keskimäärin 181 tuhatta pikseliä, pienennetty standardikokoon 256*256 AdaBoost:iin perustuva luokitin, tulokset 10-90% testi-koulutus -jaolla [1] Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database." 2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009. [2] https://en.wikipedia.org/wiki/imagenet

Ohjeita Datapisteitä vähintään 10x tulosdimension koko Esim. Tulosdimension koko on 3, jos kuvasta halutaan tuloksena {ikä, sukupuoli, hiusten väri}, mutta 30 kuvaa ei tule riittämään Riippuu tehtävästä: luokittelu vai regressio Helposti erotettavat luokat voivat vaatia vähemmän (mutta tämä on harvinaista) Featureiden lukumäärä pitää myös ottaa huomioon Enemmän on parempi!

Datan esikäsittely RAAKADATA Koulutukseen ei yleensä käytetä raakadataa Raakadata esikäsitellään ja siitä tuotetaan useita uusia kopioita Käsittely voidaan tehdä myös online, mutta kuville se on tehotonta HYPER- PARAMETRIT Kopiot voivat olla eri muodossa, pienempiä, tai muuten vain käsiteltyjä Kopioita ei tarvitse suojata samalla tasolla kuin raakadata, koska ne johdettavissa raakadatasta 12

Hajautetun koneoppimisen ympäristö CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC NETWORK CPU MEM NIC DATA PARAMETER SERVER STORAGE

Hajautetun koneoppimisen ympäristö Tallennuksen vaatimukset Skaalautuva Datan tulevaa määrää hankala ennustaa Joustava Datan nykyiset ja tulevat käyttötarkoitukset Datan eritasoiset suojausvaatimukset Tehokas Suurien datamassojen käsittely vaatii paljon kaistaa Käytettävyys

Dell EMC Isilon for AI High Performance Flexibility Extreme Scale Enterprise Features R E A D Y S O L U T I O N A C C E L E R AT I O N 15 Copyright 2017 Dell Inc.

Isilon Scale-Out arkkitehtuuri Head Node Management Network C4140 Compute Node 0 2xCPU + 4x Compute Node 1 2xCPU + 4x Compute Node 2 2xCPU + 4x Compute Node n 2xCPU + 4x V100 SXM2 Data Network Isilon F800 Storage Node 0 1xCPU + 15xSSD Storage Node 1 1xCPU + 15xSSD Storage Node 2 1xCPU + 15xSSD Storage Node m 1xCPU + 15xSSD 40GbE Storage Cluster Fabric 40GbE Storage SwitchCluster Fabric Switch

Flexibility makes AI an integral part of IT Tick Analytics ML Minimize cost and time to market with in-place AI Improve IT re-use and agility with ability to work with any compute or application Caffe2 17 Copyright 2017 Dell Inc.

All-Flash performance with Dell EMC Isilon 250k File IOPS per chassis 15 GB/s per chassis Up to 924 TB per chassis Performance Comparison VS Closest Competitor All Flash Accelerate model training and testing Improve CPU and utilization File IOPS Throughput Capacity 9x More* 18x More* 20x More* * Compared to closest competitor based on Dell EMC internal analysis, June 2018. Ad # G17000096 18 Copyright 2017 Dell Inc.

Advanced driver-assistance systems (ADAS) Test Vehicle Data: Video Ultrasonic Radar Vehicle Data Lidar And More GPS Data Enrichment & Labeling 2 3 Test Cases Test Results Analysis, Reporting & Management 4 Deep Learning Environment Ingest HiL/SiL Test Environments 1 Disk Load Station Sensor Sensor Sensor File-Object HiL Server Farm ECU ECU ECU Physical devices 5 Archive SiL Server Farm 19 Copyright 2019 Dell Inc.