Kuinka paljon dataa on tarpeeksi? Tiekartta hallitun datalammen rakennukseen Mikko Toivonen Manager, Systems Engineering Dell Technologies Finland
Tekoälyn (koneoppimisen) kolme pilaria Tekoälyalgoritmit Jo kehittyneet ja kokoajan kehitettävät tekoälyalgoritmit mahdollistavat koneiden suorittavan tehtäviä, jotka aikaisemmin oliva ihmisen yksinoikeus. Laskentateho Sadat ja tuhannet palvelimet ja laskennan kiihdyttimet mahdollistavat tekoälyalgoritmien ja suurien datamassojen prosessoinin. Datan määrä Datan saatavuus ja kyky tallentaa sitä järkevästi ja tehokkaasti ovat avainasemassa koneiden kouluttamisessa. 2 1
3
Kuinka paljon dataa on tarpeeksi?
1D Normaalijakautunut data n näytteiden lukumäärä X ~ N(μpop, σpop), data on normaalijakautunut Datan keskiarvon ( μ) keskihajonta ( σ) on σ pop n Bayesin Credible Interval on myös suhteessa edelliseen arvoon Tarkuuden kaksinkertaistaminen vaatii siis nelinkertaisen määrän datapisteitä
Curse of Dimensionality Vakiomäärä tasajakautuneen datan datapisteiden etäisyys kasvaa eksponentiaalisesti suhteessa datan dimensionaalisuuteen 1000 pistettä, 0 1 välillä, pisteiden etäisyys 1D: 0.001 3D: 0.1 10D: ~0.5 Datapisteet ovat harvassa, joten arvioiden luotettavuus laskee 1D 2D 3D
1000 pisteen keskimääräinen etäisyys [1] https://towardsdatascience.com/curse-of-dimensionality-2092410f3d27
Hughesin ilmiö Featureiden lukumäärä tulee ottaa huomioon Featureiden lukumäärä ei ole sama kuin datan dimensionaalisuus Esim. Kuvan dimensionaalisuus on pikseleiden lukumäärän ja värikanavien tulo featureita ei kuitenkaan ole näin montaa Featureiden todellinen lukumäärä voi olla vaikea arvioida, esim. kuvista [1] Hughes ilmiö [1] https://towardsdatascience.com/curse-of-dimensionality-2092410f3d27
ImageNet Hierarkkinen tietokanta kuvia Vuonna 2009, 3.2 miljoonaa kuvaa Nykyään yli 14 miljoonaa kuvaa (image-net.org) Keskimäärin 181 tuhatta pikseliä, pienennetty standardikokoon 256*256 AdaBoost:iin perustuva luokitin, tulokset 10-90% testi-koulutus -jaolla [1] Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database." 2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009. [2] https://en.wikipedia.org/wiki/imagenet
Ohjeita Datapisteitä vähintään 10x tulosdimension koko Esim. Tulosdimension koko on 3, jos kuvasta halutaan tuloksena {ikä, sukupuoli, hiusten väri}, mutta 30 kuvaa ei tule riittämään Riippuu tehtävästä: luokittelu vai regressio Helposti erotettavat luokat voivat vaatia vähemmän (mutta tämä on harvinaista) Featureiden lukumäärä pitää myös ottaa huomioon Enemmän on parempi!
Datan esikäsittely RAAKADATA Koulutukseen ei yleensä käytetä raakadataa Raakadata esikäsitellään ja siitä tuotetaan useita uusia kopioita Käsittely voidaan tehdä myös online, mutta kuville se on tehotonta HYPER- PARAMETRIT Kopiot voivat olla eri muodossa, pienempiä, tai muuten vain käsiteltyjä Kopioita ei tarvitse suojata samalla tasolla kuin raakadata, koska ne johdettavissa raakadatasta 12
Hajautetun koneoppimisen ympäristö CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC CPU MEM NIC NETWORK CPU MEM NIC DATA PARAMETER SERVER STORAGE
Hajautetun koneoppimisen ympäristö Tallennuksen vaatimukset Skaalautuva Datan tulevaa määrää hankala ennustaa Joustava Datan nykyiset ja tulevat käyttötarkoitukset Datan eritasoiset suojausvaatimukset Tehokas Suurien datamassojen käsittely vaatii paljon kaistaa Käytettävyys
Dell EMC Isilon for AI High Performance Flexibility Extreme Scale Enterprise Features R E A D Y S O L U T I O N A C C E L E R AT I O N 15 Copyright 2017 Dell Inc.
Isilon Scale-Out arkkitehtuuri Head Node Management Network C4140 Compute Node 0 2xCPU + 4x Compute Node 1 2xCPU + 4x Compute Node 2 2xCPU + 4x Compute Node n 2xCPU + 4x V100 SXM2 Data Network Isilon F800 Storage Node 0 1xCPU + 15xSSD Storage Node 1 1xCPU + 15xSSD Storage Node 2 1xCPU + 15xSSD Storage Node m 1xCPU + 15xSSD 40GbE Storage Cluster Fabric 40GbE Storage SwitchCluster Fabric Switch
Flexibility makes AI an integral part of IT Tick Analytics ML Minimize cost and time to market with in-place AI Improve IT re-use and agility with ability to work with any compute or application Caffe2 17 Copyright 2017 Dell Inc.
All-Flash performance with Dell EMC Isilon 250k File IOPS per chassis 15 GB/s per chassis Up to 924 TB per chassis Performance Comparison VS Closest Competitor All Flash Accelerate model training and testing Improve CPU and utilization File IOPS Throughput Capacity 9x More* 18x More* 20x More* * Compared to closest competitor based on Dell EMC internal analysis, June 2018. Ad # G17000096 18 Copyright 2017 Dell Inc.
Advanced driver-assistance systems (ADAS) Test Vehicle Data: Video Ultrasonic Radar Vehicle Data Lidar And More GPS Data Enrichment & Labeling 2 3 Test Cases Test Results Analysis, Reporting & Management 4 Deep Learning Environment Ingest HiL/SiL Test Environments 1 Disk Load Station Sensor Sensor Sensor File-Object HiL Server Farm ECU ECU ECU Physical devices 5 Archive SiL Server Farm 19 Copyright 2019 Dell Inc.