Tech Conference 28.-29.5.2015. On-Premises Data Mining. Peruskäsitteet. Pekka.Korhonen@sovelto.fi. Sovelto Oyj 28.5.2015.



Samankaltaiset tiedostot
Power BI Tech Conference Power BI. #TechConfFI. Johdanto

Office 2013 ja SQL Server 2012 SP1 uudet BI toiminnallisuudet Marko Somppi/Invenco Oy

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

7.4 Variability management

Efficiency change over time

Alternative DEA Models

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

Capacity Utilization

The CCR Model and Production Correspondence

Visualisoinnin aamu 16.4 Tiedon visualisointi. Ari Suominen Tuote- ja ratkaisupäällikkö Microsoft

CASE POSTI: KEHITYKSEN KÄRJESSÄ TALOUDEN SUUNNITTELUSSA KETTERÄSTI PALA KERRALLAAN

Internet of Things. Ideasta palveluksi

Technische Daten Technical data Tekniset tiedot Hawker perfect plus

KUSTANNUS- JA KANNATTAVUUSTIETOA NOPEAMMIN JA HAVAINNOLLISEMMIN SAS COST AND PROFITABILITY MANAGEMENT MIKKO VARILA BUSINESS ADVISOR

16. Allocation Models

Tarua vai totta: sähkön vähittäismarkkina ei toimi? Satu Viljainen Professori, sähkömarkkinat

HARJOITUS- PAKETTI A

7. Product-line architectures

CIO muutosjohtajana yli organisaatiorajojen

WP3 Decision Support Technologies

ProAgria. Opportunities For Success

Tekoälysovellusten vaatimukset datalle, tiedon hallinnan prosesseille ja johtamiselle

Innovative and responsible public procurement Urban Agenda kumppanuusryhmä. public-procurement

Use of spatial data in the new production environment and in a data warehouse

Prosessien kehittäminen. Prosessien parantaminen. Eri mallien vertailua. Useita eri malleja. Mitä kehitetään?

SQL SERVER 2012 PARALLEL DATA WAREHOUSE APPLIANCE

Internet of Things. Käänteentekeviä innovaatioita ja uusia liiketoimintamahdollisuuksia. Pekka Pykäläinen, Product & Solutions Manager Microsoft Oy

Gap-filling methods for CH 4 data

RAIN RAKENTAMISEN INTEGRAATIOKYVYKKYYS

Windows Phone. Module Descriptions. Opiframe Oy puh Espoo

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

SOA SIG SOA Tuotetoimittajan näkökulma

Collaborative & Co-Creative Design in the Semogen -projects

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Hand-out kooste

Results on the new polydrug use questions in the Finnish TDI data

Information on preparing Presentation

Improving advisory services through technology. Challenges for agricultural advisory after 2020 Jussi Juhola Warsaw,

Missä mennään BI? Mikko Kontio

Nopeutta ja Sulavuutta Analytiikkaan

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

Perinteisesti käytettävät tiedon (datan) tyypit

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Konesali ilman rajoja Kongressi A

Valtionhallinnon käyttäjäpäivä - IBM Cognosin tulevaisuuskatsaus ja nykypäivä

UUSIA TAPOJA SELVITTÄÄ ONLINE-SUOSION SYITÄ

PASS Helsinki T18. SQL Server klo 16:00

TIETOJOHDETTU RAKENNUSPROJEKTI Niko Vironen Kehityspäällikkö Fira Group

Other approaches to restrict multipliers

Tech Conference Enterprise datan hallinta. #TechConfFI

Atostek. KanTa-konseptin tuotteistaminen ja vienti ulkomaille

Making use of BIM in energy management

Viestintään tarvitaan tiedon jakamista tietotyöläisten kesken Ville Hurnonen

Kuvailulehti. Korkotuki, kannattavuus. Päivämäärä Tekijä(t) Rautiainen, Joonas. Julkaisun laji Opinnäytetyö. Julkaisun kieli Suomi

AVOIMET KOULUTUKSET. syksy 2017 WISTEC TRAINING OY ITÄMERENKATU 1, HELSINKI PUH (MA-PE KLO 9-17)

PYÖRÄILY OSANA HELSINGIN SEUDUN KESTÄVÄÄ KAUPUNKILIIKENNETTÄ

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

Health Intelligence - Parempaa informaatiota terveydenhuollon päätöksentekoon. Terveydenhuollon ATK päivät Sibelius Talo, Lahti

Markkinoinnin perusteet, verkkokurssi Juho-Petteri Huhtala Markkinoinnin laitos


WEBINAARI

AVOIMET KOULUTUKSET. K-ryhmän etuhinnoin syksy 2017

DIGITAL MARKETING LANDSCAPE. Maatalous-metsätieteellinen tiedekunta

KOMPETENSSIT. Koulutus Opiskelija Tuuttori. Business Information Technologies. NQF, Taso 6 - edellyttävä osaaminen

Tavaroiden ulkomaankauppatilastojen tulkinnan haasteet Timo Koskimäki

HITSAUKSEN TUOTTAVUUSRATKAISUT

Capacity utilization

Bachelor level exams by date in Otaniemi

Tech Conference Hybrid Cloud: On-premises ja Public Cloud yhdessä Heikki Bergius Senior-konsultti Sovelto.

Bachelor level exams by subject in Otaniemi

Sulava. Markku Suominen. Puhelin: Käyttöönotto Käyttö

AVOIMET KOULUTUKSET. kevät ja syksy 2017

Mistä kilpailukykyä kotimaiseen tuotantoon? Tuotannon ulkomaille siirtämisen haasteet

Lab A1.FARM_Hyper-V.v3

WAMS 2010,Ylivieska Monitoring service of energy efficiency in housing Jan Nyman,

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

VBE2 Työpaketit Jiri Hietanen / TTY

Tech Conference Office 365 tietoturvan heikoin #TechConfFI

Cloud, Convergence, Ubiquity ja muita uudissanoja - ICT toimialan näkymät 2011

C470E9AC686C

EUROOPAN PARLAMENTTI

Land-Use Model for the Helsinki Metropolitan Area

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

Asiakaspalautteen merkitys laboratoriovirheiden paljastamisessa. Taustaa

LANSEERAUS LÄHESTYY AIKATAULU OMINAISUUDET. Sähköinen jäsenkortti. Yksinkertainen tapa lähettää viestejä jäsenille

Basset: Learning the regulatory code of the accessible genome with deep convolutional neural networks. David R. Kelley

Kokoelmien arviointi

Mat Seminar on Optimization. Data Envelopment Analysis. Economies of Scope S ysteemianalyysin. Laboratorio. Teknillinen korkeakoulu

Ostamisen muutos muutti myynnin. Technopolis Business Breakfast

Kohdista kiinnostusalueen mukaan

Making diversity manageable. Miradore. Käytännön kokemuksia rahoituksen hakemisesta. Tiistai Technopolis Vapaudenaukio / Lappeenranta

Perusoikeusbarometri. Panu Artemjeff Erityisasiantuntija

Master's Programme in Life Science Technologies (LifeTech) Prof. Juho Rousu Director of the Life Science Technologies programme 3.1.

API:Hack Tournee 2014

HUMAN RESOURCE DEVELOPMENT PROJECT AT THE UNIVERSITY OF NAMIBIA LIBRARY

SQL. ! nykystandardi SQL3 eli SQL'99. ! CREATE TABLE, ALTER TABLE ja DROP TABLE. ! CREATE VIEW ja DROP VIEW. ! CREATE INDEX ja DROP INDEX

Transkriptio:

1 Tech Conference 28.-29.5.2015 On-Premises Data Mining Pekka.Korhonen@sovelto.fi #TechConfFI Peruskäsitteet 2

2 Microsoft BI komponentit Azure Machine Learning Stream Analytics HDInsight DocumentDB Blob/table storage VM SQL DB + RS Office 365 Power BI StreamInsigt Complex Event Processing Business Data Master Data Services Azure Data Sync Integration Services Data Quality Services Native Reporting Services Data Warehouse ColumnStore Indeksit Excel PowerPivot for Excel Power View Power Map Power Query Data Mining Add-in (Power BI for office365) Power BI Designer Datazen Dashboard Designer Analysis Services Multidimensional + Data Mining Analysis Services Tabular BISM Business Intelligence Semantic Model Datazen Server Power BI Appsit Datazen Appsit SharePoint server Performance Point Services PowerPivot for Sharepoint Power View Integrated Reporting Services Mihin tiedon louhintaa käytetään? (Myynnin) ennustaminen Kohdennettu mainonta Luottoluokitukset Luottopäätökset Ostoskorianalyysi Asiakassegmentointi Vakuutuspetosten tunnistaminen jne.

3 Mitä on Data Mining? Tietojen tilastollista analyysiä esim. regressioanalyysi, jossa tutkitaan selitettävän muuttujan vaikutusta selitettävään muuttujaan (paljonko koulutusmenojen osuus bkt:stä vaikuttaa lukutaidottomuuden vähenemiseen) Trendien ja mallien löytäminen datasta isosta datamassasta säännönmukaisen käyttäytymisen löytäminen on vaikeaa ilman tilastollista menetelmää Ennustaminen mallien perusteella SSAS Data Mining käsitteet Data Mining Struktuuri pakollinen, keskeinen komponentti voi sisältää useita data Mining malleja sisältää tasan yhden tapaus (case) -taulun jokainen malli siis käsittelee samaa dataa Case table sisältää tapausdatan, jolla malli opetetaan data voidaan jakaa training/test osaan Nested Tables mahdollistaa useamman taulun käytön Data Mining Model määrittelee louhinnassa käytettävän algoritmin

4 Käsitteet Attribuutti kenttä, joka kuvaa jotain asiaa ikä, sukupuoli, hinta, postinumero, myynti jne. diskreetti attribuutti (joukko arvoja: mies/nainen, 1/0) jatkuva attribuutti (myynti), voi käyttää aritmeettisia operaattoreita Tila, State on diskreeteillä attribuuteilla Case yksi taulu entiteetti, jota louhitaan Avaimet Case Key, yksilöi casen, usein Primary Key Nested key, EI ole Foreign Key, vaan esim. tuotteen nimi Input ja output inputien avulla ennustetaan Outputeja 7 Algoritmit Algoritmit voidaan tyypitellä, joista kukin soveltuu erityyppisen informaation löytämiseen Useimmiten samaan asiaan sovelletaan useampia algoritmeja, jotta voidaan verrata, mikä niistä toimii parhaiten Classification Ennustavat diskreettejä muuttujia (osti/ei ostanut) muista attribuuteista Microsoft Decision Trees, Microsoft Neural Network,Microsoft Naïve Bayes Regressio Ennustavat jatkuvia (continuous) muuttujia (myynti) Microsoft Time Series, Microsoft Linear Regressions, Microsoft Logistic Regression Segmentation / Clustering Jakaa datan ryhmiin joilla on saman tyyppiset ominaisuudet Microsoft Clustering Association Löytää korrelaatiot attribuuttien välillä Microsoft Association Sequence Löytää sekvenssiluonteista dataa (esim. web-klikkauspolkuja) Microsoft Sequence Clustering 8

5 Data Mining Algoritmit Data Mining Algoritmit

6 Data Mining Algoritmit Esimerkkejä Task Description Algorithms Market Basket Discover items sold together to create recommendations onthe-fly Association and to determine how product placement can directly Analysis contribute to your bottom line. Decision Trees Churn Analysis Market Analysis Forecasting Data Exploration Unsupervised Learning Anticipate customers who may be considering canceling their service and identify the benefits that will keep them from leaving. Define market segments by automatically grouping similar customers together. Use these segments to seek profitable customers. Predict sales and inventory amounts and learn how they are interrelated to foresee bottlenecks and improve performance. Analyze profitability across customers, or compare customers that prefer different brands of the same product to discover new opportunities. Identify previously unknown relationships between various elements of your business to inform your decisions. Decision Trees Linear Regression Logistic Regression Clustering Sequence Clustering Decision Trees Time Series Neural Network Neural Network Web Site Analysis Campaign Analysis Information Quality Text Analysis Understand how people use your Web site and group similar usage patterns to offer a better experience. Spend marketing funds more effectively by targeting the customers most likely to respond to a promotion. Identify and handle anomalies during data entry or data loading to improve the quality of information. Analyze feedback to find common themes and trends that concern your customers or employees, informing decisions with unstructured input. Sequence Clustering Decision Trees Naïve Bayes Clustering Linear Regression Logistic Regression Text Mining

7 Välineet Data Mining Add-in for Office Excel ja Visio toimivat Data Mining Clientina mahdollistaa AS palvelimeen tallennettujen mallien tutkimisen Uusien mallien luominen Excel-datasta tai ulkoisesta datalähteestä Vaatii yhteyden AS-instanssiin Table Tools Yksinkertainen Excel-tauludatan analysointi ilman mallin tekoa Analysis Services Multidimensional As-projekti, jossa on Data Source ja Data Source View Mining Structure Minig Model DMX-kyselyt malliin Esim. Excel Table Tools 14

8 Using the Data Mining Wizard Steps to complete the Data Mining Wizard: 1 Specify the definition method 2 Specify the data mining technique 3 Specify the Data Source View 4 Specify table types 5 Specify training data 6 Specify column content and data types Data Mining Designer

9 Data Mining Model Viewer Mining model viewers: Microsoft Tree Viewer Microsoft Cluster Viewer Microsoft Time Series Viewer Microsoft Naïve Bayes Viewer Sequence Cluster Viewer Microsoft Association Rules Viewer Microsoft Neural Network Viewer Data Mining Model Viewer

10 DMX Data Mining Expressions SELECT ([EnnusteAgg].[Region]) as [Model Used], ( 'T1000 Pacific') as [ModelRegion], (PredictTimeSeries([EnnusteAgg].[Avg Qty],5,REPLACE_MODEL_CASES)) as [Ennustetut lukumäärät] From [EnnusteAgg] PREDICTION JOIN OPENQUERY([Adventure Works DW2008R2], 'SELECT [ReportingDate], [Quantity] FROM (SELECT ReportingDate, ModelRegion, Quantity, Amount FROM dbo.vtimeseries WHERE (ModelRegion = N''T1000 Europe'')) [T1000 Europe Region] ') AS t ON [EnnusteAgg].[Reporting Date] = t.[reportingdate] AND [EnnusteAgg].[Avg Qty] = t.[quantity] Overview of Data Mining Validation Validate and Compare Mining Models Compare the results of the mining model to known data Display the accuracy of the models using accuracy charts

11 Accuracy Charts - Esim. Lift Chart Tech Conference 28.-29.5.2015 Kiitos pekka.korhonen@sovelto.fi # TechConfFI