1 Tech Conference 28.-29.5.2015 On-Premises Data Mining Pekka.Korhonen@sovelto.fi #TechConfFI Peruskäsitteet 2
2 Microsoft BI komponentit Azure Machine Learning Stream Analytics HDInsight DocumentDB Blob/table storage VM SQL DB + RS Office 365 Power BI StreamInsigt Complex Event Processing Business Data Master Data Services Azure Data Sync Integration Services Data Quality Services Native Reporting Services Data Warehouse ColumnStore Indeksit Excel PowerPivot for Excel Power View Power Map Power Query Data Mining Add-in (Power BI for office365) Power BI Designer Datazen Dashboard Designer Analysis Services Multidimensional + Data Mining Analysis Services Tabular BISM Business Intelligence Semantic Model Datazen Server Power BI Appsit Datazen Appsit SharePoint server Performance Point Services PowerPivot for Sharepoint Power View Integrated Reporting Services Mihin tiedon louhintaa käytetään? (Myynnin) ennustaminen Kohdennettu mainonta Luottoluokitukset Luottopäätökset Ostoskorianalyysi Asiakassegmentointi Vakuutuspetosten tunnistaminen jne.
3 Mitä on Data Mining? Tietojen tilastollista analyysiä esim. regressioanalyysi, jossa tutkitaan selitettävän muuttujan vaikutusta selitettävään muuttujaan (paljonko koulutusmenojen osuus bkt:stä vaikuttaa lukutaidottomuuden vähenemiseen) Trendien ja mallien löytäminen datasta isosta datamassasta säännönmukaisen käyttäytymisen löytäminen on vaikeaa ilman tilastollista menetelmää Ennustaminen mallien perusteella SSAS Data Mining käsitteet Data Mining Struktuuri pakollinen, keskeinen komponentti voi sisältää useita data Mining malleja sisältää tasan yhden tapaus (case) -taulun jokainen malli siis käsittelee samaa dataa Case table sisältää tapausdatan, jolla malli opetetaan data voidaan jakaa training/test osaan Nested Tables mahdollistaa useamman taulun käytön Data Mining Model määrittelee louhinnassa käytettävän algoritmin
4 Käsitteet Attribuutti kenttä, joka kuvaa jotain asiaa ikä, sukupuoli, hinta, postinumero, myynti jne. diskreetti attribuutti (joukko arvoja: mies/nainen, 1/0) jatkuva attribuutti (myynti), voi käyttää aritmeettisia operaattoreita Tila, State on diskreeteillä attribuuteilla Case yksi taulu entiteetti, jota louhitaan Avaimet Case Key, yksilöi casen, usein Primary Key Nested key, EI ole Foreign Key, vaan esim. tuotteen nimi Input ja output inputien avulla ennustetaan Outputeja 7 Algoritmit Algoritmit voidaan tyypitellä, joista kukin soveltuu erityyppisen informaation löytämiseen Useimmiten samaan asiaan sovelletaan useampia algoritmeja, jotta voidaan verrata, mikä niistä toimii parhaiten Classification Ennustavat diskreettejä muuttujia (osti/ei ostanut) muista attribuuteista Microsoft Decision Trees, Microsoft Neural Network,Microsoft Naïve Bayes Regressio Ennustavat jatkuvia (continuous) muuttujia (myynti) Microsoft Time Series, Microsoft Linear Regressions, Microsoft Logistic Regression Segmentation / Clustering Jakaa datan ryhmiin joilla on saman tyyppiset ominaisuudet Microsoft Clustering Association Löytää korrelaatiot attribuuttien välillä Microsoft Association Sequence Löytää sekvenssiluonteista dataa (esim. web-klikkauspolkuja) Microsoft Sequence Clustering 8
5 Data Mining Algoritmit Data Mining Algoritmit
6 Data Mining Algoritmit Esimerkkejä Task Description Algorithms Market Basket Discover items sold together to create recommendations onthe-fly Association and to determine how product placement can directly Analysis contribute to your bottom line. Decision Trees Churn Analysis Market Analysis Forecasting Data Exploration Unsupervised Learning Anticipate customers who may be considering canceling their service and identify the benefits that will keep them from leaving. Define market segments by automatically grouping similar customers together. Use these segments to seek profitable customers. Predict sales and inventory amounts and learn how they are interrelated to foresee bottlenecks and improve performance. Analyze profitability across customers, or compare customers that prefer different brands of the same product to discover new opportunities. Identify previously unknown relationships between various elements of your business to inform your decisions. Decision Trees Linear Regression Logistic Regression Clustering Sequence Clustering Decision Trees Time Series Neural Network Neural Network Web Site Analysis Campaign Analysis Information Quality Text Analysis Understand how people use your Web site and group similar usage patterns to offer a better experience. Spend marketing funds more effectively by targeting the customers most likely to respond to a promotion. Identify and handle anomalies during data entry or data loading to improve the quality of information. Analyze feedback to find common themes and trends that concern your customers or employees, informing decisions with unstructured input. Sequence Clustering Decision Trees Naïve Bayes Clustering Linear Regression Logistic Regression Text Mining
7 Välineet Data Mining Add-in for Office Excel ja Visio toimivat Data Mining Clientina mahdollistaa AS palvelimeen tallennettujen mallien tutkimisen Uusien mallien luominen Excel-datasta tai ulkoisesta datalähteestä Vaatii yhteyden AS-instanssiin Table Tools Yksinkertainen Excel-tauludatan analysointi ilman mallin tekoa Analysis Services Multidimensional As-projekti, jossa on Data Source ja Data Source View Mining Structure Minig Model DMX-kyselyt malliin Esim. Excel Table Tools 14
8 Using the Data Mining Wizard Steps to complete the Data Mining Wizard: 1 Specify the definition method 2 Specify the data mining technique 3 Specify the Data Source View 4 Specify table types 5 Specify training data 6 Specify column content and data types Data Mining Designer
9 Data Mining Model Viewer Mining model viewers: Microsoft Tree Viewer Microsoft Cluster Viewer Microsoft Time Series Viewer Microsoft Naïve Bayes Viewer Sequence Cluster Viewer Microsoft Association Rules Viewer Microsoft Neural Network Viewer Data Mining Model Viewer
10 DMX Data Mining Expressions SELECT ([EnnusteAgg].[Region]) as [Model Used], ( 'T1000 Pacific') as [ModelRegion], (PredictTimeSeries([EnnusteAgg].[Avg Qty],5,REPLACE_MODEL_CASES)) as [Ennustetut lukumäärät] From [EnnusteAgg] PREDICTION JOIN OPENQUERY([Adventure Works DW2008R2], 'SELECT [ReportingDate], [Quantity] FROM (SELECT ReportingDate, ModelRegion, Quantity, Amount FROM dbo.vtimeseries WHERE (ModelRegion = N''T1000 Europe'')) [T1000 Europe Region] ') AS t ON [EnnusteAgg].[Reporting Date] = t.[reportingdate] AND [EnnusteAgg].[Avg Qty] = t.[quantity] Overview of Data Mining Validation Validate and Compare Mining Models Compare the results of the mining model to known data Display the accuracy of the models using accuracy charts
11 Accuracy Charts - Esim. Lift Chart Tech Conference 28.-29.5.2015 Kiitos pekka.korhonen@sovelto.fi # TechConfFI