Po zaveden´ı dat ze zdrojov ´ych soubor ˚u do datab´aze je moˇzno pˇristoupit k test ˚um jed- notliv ´ych analytick ´ych metod. C´ılem n´asleduj´ıc´ıch experiment ˚u je porovnat efektivitu a vhodnost v ´ystup ˚u pro zpracov´an´ı zadan´eho typu dat.
Pro ´uˇcel testov´an´ı analytick ´ych sluˇzeb jsem zvolil soubor s daty kurzu Mikroekono- mie A. Tento soubor sest´av´a ze stejn ´ych sloupc ˚u jako soubor se zdrojov ´ymi daty. Soubor obsahuje 65013 z´aznam ˚u.
Tvorba projektu analytick´e sluˇzby je pro vˇsechny analyzovan´e soubory identick´a. Po zaloˇzen´ı nov´eho analytick´eho projektu je potˇreba urˇcit um´ıstˇen´ı zdrojov´ych dat (Data Sour- ces), resp. zdrojov´y pohled (Data Source Views) - k tomu ´uˇcelu slouˇz´ı pˇr´ısluˇsn´e poloˇzky pa- nelu Solution Explorer. Sloupec ”Cel ´y n´azev”jsem pouˇzil jako kl´ıˇc. Sloupec ”Kurz”je, d´ıky pˇredchoz´ımu rozdˇelen´ı z´aznam ˚u do zvl´aˇstn´ıch soubor ˚u podle hodnot sloupce ”Kurz”, zbyteˇcn ´y (vˇsechny z´aznamy tohoto sloupce jsou v r´amci jednoho souboru stejn´e).
Vˇsechny metody byly testov´any s parametry nastaven ´ymi na v ´ychoz´ı hodnoty. Pouˇzit´e sloupce a veˇsker´e ostatn´ı odliˇsnosti jsou vˇzdy zm´ınˇeny.
4.2.1 Test shlukovac´ıch metod
Shlukovac´ı metodu jsem pouˇzil pro anal ´yzu ˇcetnosti hodnot jednotliv ´ych sloupc ˚u. Jako vstupn´ı hodnoty jsem pouˇzil sloupce IP adresa, ˇCas (hodnota sloupce ˇCas byla diskreti- zov´ana), Akce a Informace. Jako kl´ıˇcov ´y, jsem pouˇzil sloupec Cel ´y n´azev. Predikce nebyla poˇzadov´ana nad ˇz´adn ´ym sloupcem.
Anal ´yza trvala 57 sekund.
Tato metoda d´av´a uˇzivateli k dispozici ˇctyˇri panely s grafick ´ymi v ´ystupy: Cluster Diagram, Cluster Profiles, Cluster Characteristics a Cluster Discrimination.
Panel diagramu shluk ˚u (viz obr. 3) n´am umoˇz ˇnuje vidˇet vztahy mezi jednotliv ´ymi shluky a s´ılu vazeb mezi nimi (s´ıla vazeb je pˇr´ımo ´umˇern´a intenzitˇe barvy spojovac´ı hrany). Barva uzl ˚u zn´azor ˇnuje procento z celkov´e populace, kter´e shluk zastupuje (rozliˇsov´an´ı barvou uzl ˚u se d´a zmˇenit na kter ´ykoliv ze vstupn´ıch atribut ˚u).
Panel s profily shluk ˚u (viz obr. 4) je z informaˇcn´ıho hlediska ze vˇsech nejpˇr´ınosnˇejˇs´ı. Vid´ıme zde zastoupen´ı hodnot parametr ˚u v jednotliv ´ych shluc´ıch. Prvn´ı sloupec oznaˇcuje vstupn´ı sloupec, druh ´y nejastˇeji se vyskytuj´ıc´ı hodnoty pro dan ´y sloupec a shluk. Zbyl´e sloupce zachycuj´ı pomˇery mezi hodnotami ve shluc´ıch.
Obr´azek 3: Diagram shluk ˚u (Cluster Diagram)
Vid´ıme, ˇze napˇr. nejˇcastˇeji prov´adˇen´e akce jsou: prohl´ıˇzen´ı ´uvodn´ı str´anky kurzu, z´apis do kurzu a prohl´ıˇzen´ı blogu. Drtiv´a vˇetˇsina pˇrihl´aˇsen´ı probˇehla pˇred 30.12.2008. Ze sloupce s IP adresami vid´ıme, ˇze nejˇcasˇeji prob´ıhalo pˇrihlaˇsov´an´ı z adres 85.71.147.124, 78.45.87.250 a 77.242.83.208.
Panel s charakteristikou shluk ˚u (viz obr. 5) n´am umoˇz ˇnuje proch´azet obsah jednot- liv ´ych shluk ˚u a zjistit, s jakou pravdˇepodobnost´ı nab ´yv´a z´aznam um´ıstˇen ´y v dan´em shluku urˇcit ´ych hodnot.
N´astroj pro vizualizaci v ´ysledk ˚u shlukovac´ı metody d´ale obsahuje panel cluster dis- crimination, kter ´y umoˇz ˇnuje porovn´avat dvojice zvolen ´ych shluk ˚u.
Shlukovac´ı metody n´am umoˇz ˇnuj´ı pouˇz´ıt dva typy algoritm ˚u, v ´ychoz´ı hodnota t´eto metody je nastavena na algoritmus ˇsk´alovateln´eho EM-shlukov´an´ı. Rozhodl jsem se proto d´ale otestovat algoritmus K-pr ˚umˇer ˚u (nastaven´ım parametru CLUSTERING METHOD na hodnotu 3). Jak je vidˇet z obr´azku 6, doˇslo v rozvrˇzen´ı k urˇcit ´ym zmˇen´am.
Obr´azek 4: Profily shluk ˚u (Cluster Profiles)
Prakticky vymizely shluky, kter´e by obsahovaly v´ıce neˇz dvˇe hodnoty - ve sloupci ˇCas se tak shluky m´enˇe pˇrekr ´yvaj´ı. Byly zde tak´e nalezeny dvˇe nov´e opakuj´ıc´ı se IP adresy (217.77.165.49 a 88.146.164.51).
D´ale zde byla vyselektov´an shluk skupiny uˇzivatel ˚u, kteˇr´ı se zaˇc´atkem semestru zapi- sovali do kurzu (cluster ˇc. 3 - z´aznamy z tohoto clusteru byly pravdˇepodobnˇe v pˇredchoz´ım pˇr´ıpadˇe zahrnuty do clusteru ˇc. 1). Nicm´enˇe i po aplikaci odliˇsn´e metody z ˚ustaly nˇekter´e shluky zcela stejn´e (viz n´asleduj´ıc´ı tabulku).
EM-shlukov´an´ı shlukov´an´ı K-mean
ˇc´ısla shluk ˚u 8 9
ˇc´ısla shluk ˚u 2 2
Obr´azek 5: Charakteristika shluk ˚u (Cluster Characteristics)
4.2.2 Test naivn´ı Bayesovy metody
Pro aplikaci naivn´ı Bayesovy metody jsem jako vstupn´ı sloupce zvolil ˇCas, Akce a IP ad- resa, sloupec Informace jsem pouˇzil jako predikovan ´y a sloupec Cel´y n´azev jako kl´ıˇcov ´y.
Anal ´yza trvala 48 sekund. Vizualizace v ´ysledk ˚u sest´av´a ze ˇctyˇr panel ˚u: ”Dependency network”, ”Attribute profile”, ”Attribute characteristics”, ”Attribute discrimination”.
Panel Dependency network obsahuje s´ıt’ z´avislost´ı. V ´ysledkem t´eto anal ´yzy byla z´avislost hodnoty atributu Informace na hodnote atributu Akce. Lze tedy pˇredpokl´adat, ˇze prediko- van ´y sloupec Informace nen´ı v ´yraznˇe z´avisl ´y na hodnot´ach zbyl ´ych sloupc ˚u.
Panel s profily atribut ˚u 7 zobrazuje hodnoty sloupce Informace a ty hodnoty sloupce Akce, kter´e je vyvol´avaj´ı. Nen´ı pˇrekvapiv´e, ˇze v kurzu Mikroekonomie A je nejv´ıce za- stoupena akce zobrazuj´ıc´ı ´uvodn´ı str´anku kurzu a k n´ı n´aleˇz´ı informace (tedy parametr akce) obsahuj´ıc´ı k ´od kurzu Mikroekonomie A.
Vzhledem k tomu, ˇze na sloupce Akce a Informace nen´ı moˇzn´e aplikovat diskretizaci, je grafick ´y v ´ystup naivn´ı Bayesovy metody pro toto mnoˇzstv´ı hodnot pomˇernˇe nevhodn ´y.
Obr´azek 6: Charakteristika shluk ˚u (Cluster Characteristics) po pouˇzit´ı algoritmu K-mean
Panel s charakteristikou atribut ˚u pro tuto anal ´yzu neobsahuje ˇz´adn´e informace a panel diskriminace atribut ˚u n´am umoˇz ˇnuje porovn´avat u dvojic parametr ˚u Informace pravdˇepodobnost, ˇze se objev´ı v z´aznamu s pˇr´ısluˇsnou hodnotou Akce.
Mimo fakt, ˇze hodnota sloupce Informace je z´avisl´a prim´arnˇe na hodnotˇe sloupce Akce (a tedy hodnoty sloupc ˚u ˇCas a IP adresa maj´ı celkem zanedbateln ´y vliv), nepˇrinesla anal ´yza naivn´ı Bayesovou metodou ˇz´adn´e zaj´ımav´e poznatky.
Obr´azek 7: Bayesova metoda - profily atribut ˚u
4.2.3 Test asocia ˇcn´ıch pravidel
Metodu asociaˇcn´ıch pravidel jsem vyzkouˇsel dvˇema zp ˚usoby. Poprv´e pro zjiˇstˇen´ı pravi- del z´avislosti mezi sloupci Akce (vstupn´ı) a Informace (predikovan ´y) - jako kl´ıˇc jsem opˇet pouˇzil sloupec Cel´y n´azev.
V ´ypoˇcet t´eto anal ´yzy trval 29 sekund. V ´ysledkem byl souhrn nalezen ´ych pravidel, ten je ve vizualizaˇcn´ım n´astroji zn´azornˇen v panelu Rules (viz obr. 8).
Tato anal ´yza nem´a, vzhledem k z´avislosti mezi sloupci, kter´a byla zjiˇstˇena v pˇredchoz´ı anal ´yze, v ´yznam pro hled´an´ı samotn ´ych pravidel. Nicm´enˇe m ˚uˇzeme d´ıky n´ı vysledovat nejˇcastˇeji se vyskytuj´ıc´ı akce a k nim pˇr´ısluˇsej´ıc´ı parametry. Pro tento ´uˇcel se hod´ı panel Dependency network (viz obr. 10), kter ´y zachycuje s´ıt’ z´avislost´ı Informac´ı na Akc´ıch. Z nˇej je zˇrejm´e napˇr. ˇze nejv´ıce navˇstˇevovan´e je diskuzn´ı f ´orum s ˇc´ıslem 1256. U tohoto f ´ora je z´arove ˇn nejvyˇsˇs´ı v ´yskyt poˇzadavk ˚u o zas´ıl´an´ı nov ´ych pˇr´ıspˇevk ˚u na e-mail.
D´ale je napˇr. patrn´e, ˇze u testu ˇc. 1889 je nadpr ˚umˇernˇe vysok ´y poˇcet akc´ı ”quiz view”(oznaˇcuje prohl´ıˇzen´ı podm´ınek testu) a ”quiz continue attempt”(oznaˇcuje opako-
Obr´azek 8: Asociaˇcn´ı pravidla - nalezen´a pravidla
van ´y pous o absolvov´an´ı testu) - z toho m ˚uˇzeme vyvodit, ˇze ˇslo pravdˇepodobnˇe o obt´ıˇzn ´y test.
U testu ˇc. 1885 je evidentnˇe nadpr ˚umˇern ´y poˇcet akc´ı ”quiz review”(oznaˇcuje prohl´ıˇzen´ı v ´ysledk ˚u absolvovan´eho testu) a ”quiz attempt”(oznaˇcuje vyhodnocen´ı testu), coˇz by mohlo znamenat, ˇze tento test byl absolvov´an velk ´ym poˇctem student ˚u kurzu a nav´ıc se pˇri jeho absolvov´an´ı student ˚um daˇrilo l´epe neˇz pr ˚umˇernˇe (chyb´ı zde vazba na akci ”quiz continue attempt”- ta se pro tento test evidentnˇe vyskytovala jen podpr ˚umˇernˇe).
Podruh´e jsem se pokusil pomoc´ı asociaˇcn´ıch pravidel zjistit z´avislost akc´ı na ˇcase. Sloupec ˇCas jse pouˇzil jako vstupn´ı, sloupec Akce jako predikovan ´y a sloupec Celkov´y n´azev jako kl´ıˇc. Protoˇze se d´a pˇredpokl´adat, ˇze kardinalita sloupce ˇCas bude velmi vy- sok´a (soubor obsahuje z´aznamy za necel ´y jeden rok), a v ´ysledky anal ´yzy by tak byly nepˇrehledn´e, rozhodl jsem se nad t´ımto sloupcem prov´est diskretizaci (akce nastaviteln´a pˇri tvorbˇe DM procesu).
Obr´azek 9: Asociaˇcn´ı pravidla - mnoˇzina nalezen ´ych prvk ˚u
Anal ´yza trvala 31 sekund. Z vizualizace v ´ysledk ˚u anal ´yzy (viz obr. 11) je zˇrejm´e, ˇze proces diskretizace rozdˇelil hodnoty sloupce ˇCas na 5 obdob´ı. Ze s´ıtˇe z´avislost´ı je evi- dentn´ı, ˇze napˇr. zat´ımco zobrazov´an´ı ´uvodn´ı str´anky kurzu prob´ıh´a po cel ´y rok, tak napˇr. prohl´ıˇzen´ı blog ˚u prob´ıh´a aˇz od konce ledna a odhlaˇsov´an´ı z kurzu prob´ıh´a aˇz na konci roku.
4.2.4 Test neuronov ´ych s´ıt´ı
Pro test metody neuronov ´ych s´ıt´ı jsem zvolil jako vstupn´ı parametry sloupce Akce, IP adresa a ˇCas (diskretizov´an). Predikov´an byl sloupec Akce a jako kl´ıˇc slouˇzil sloupec Cel´y n´azev. Anal ´yza probˇehla za 38 sekund. MS SQL Server vybral ze sloupce Akce pro pre- dikci hodnoty ”quiz view”a ”forum add post”. Pravdˇepodobnost uskuteˇcnˇen´ı tˇechto akc´ı pak prov´adˇel na z´akladˇe IP adresy, pˇr´ıpadnˇe ˇcasov´eho obdob´ı (viz obr. 12).
Obr´azek 10: Asociaˇcn´ı pravidla - s´ıt’ z´avislost´ı informac´ı na akc´ıch
Dvojice hodnot, jejichˇz pravdˇepodobnost je pomˇeˇrov´ana je moˇzno d´ale volit, nicm´enˇe ne vˇzdy je moˇzn´e pro vˇsechny dvojice pravdˇepodobnost dopoˇc´ıtat a zobrazit grafick ´y v ´ystup.
Tato metoda pro zadan ´y soubor dat nen´ı pˇr´ıliˇs vhodn´a. Pobl´em vid´ım opˇet v tom, ˇze nen´ı moˇzn´e prov´est diskretizaci ˇz´adn´eho sloupce kromˇe sloupce s ˇcasov ´ym ´udajem. V ´ystup je nav´ıc prezentov´an formou pomˇeˇrov´an´ı hodnot z dvojice sloupc ˚u, coˇz v pˇr´ıpadˇe, ˇze kardinalita obou tˇechto sloupc ˚u nen´ı mal´a, m´a ten efekt, ˇze vizualizace v ´ystupu t´eto analytick´e metody je znaˇcnˇe nepˇrehledn´a.
U obecn´e anal ´yzy takov´eho typu dat tedy tato metoda selh´av´a. Vhodn´a by byla v pˇr´ıpadˇe, ˇze bychom potˇrebovali analyzovat chov´an´ı jednoho nebo nˇekolika m´alo stu- dent ˚u (na z´akladˇe hodnoty sloupce Cel´y n´azev), pˇr´ıpadnˇe poˇc´ıtaˇc ˚u (na z´akladˇe IP adres). Pro tento pˇr´ıpad naopak nejsou pˇr´ıliˇs vhodn´e realtivnˇe obecnˇe zamˇeˇren´e metody, jako je shlukov´an´ı.
Obr´azek 11: Asociaˇcn´ı pravidla - s´ıt’ z´avislosti akc´ı na ˇcase
Dalˇs´ım vhodn ´ym uˇzit´ım by byla predikce sloupce s n´ızkou kardinalitou (v ide´aln´ım pˇr´ıpadˇe bin´arn´ı - napˇr. sloupec obsajuj´ıc´ı logickou hodnotu podle toho, zda dan ´y student na konci semestru ´uspˇeˇsnˇe ukonˇcil kurz, nebo nikoliv).
4.2.5 Test logistick ´e regrese
Logistick´a regrese je v SQL Serveru 2008 z technick´eho hlediska specifickou formou neu- ronov´e s´ıtˇe. Testem t´eto metody jsem se rozhodl analyzovat z´avislost sloupce Akce na ˇcase. Jako kl´ıˇc jsem tedy nastavil sloupec Cel´y n´azev, jako vstupn´ı ˇCas a jako predikovan ´y Akce.
Test se plnohodnotnˇe podaˇril aˇz napodruh´e. Napoprv´e selhal n´astroj pro vizuali- zaci - d ˚uvodem byl pˇr´ıliˇs vysok ´y poˇcet hodnot ve sloupci ˇCas. Podruh´e jsem tedy pˇred spuˇstˇen´ım anal ´yzy nechal prov´est diskretizaci sloupce ˇCas. D´ıky tomu se viuzualizace omezila na zobrazen´ı pˇeti ˇcasov ´ych obdob´ı. Anal ´yza trvala 31 sekund.
Obr´azek 12: Neuronov´e s´ıtˇe - pˇrehled preferenc´ı
Podobnˇe jako metoda neuronov ´ych s´ıt´ı umoˇz ˇnuje logistick´a regrese porovn´av´an´ı prav- dˇepodobnosti uskuteˇcnˇen´ı urˇcit´eho jevu. V naˇsem pˇr´ıpadˇe pravdˇepodobnost uskuteˇcnˇen´ı jedn´e, nebo druh´e zvolen´e akce v pr ˚ubˇehu jednotliv ´ych obdob´ı.
Pro demostraci jsem zvolil pomˇer mezi hodnotami ”course enrol”a ”course unenrol”- tedy pomˇer toho, jak se v jednotliv ´ych obdob´ıch liˇsilo pˇrihlaˇsov´an´ı, resp. odhlaˇsov´an´ı z kurzu Mikroekonomie A. Je na prvn´ı pohled patrn´e, ˇze pˇrihlaˇsov´an´ı do kurzu prob´ıhalo nejv´ıce v pr ˚ubˇehu mˇes´ıce ledna. V n´asleduj´ıc´ıch obdob´ıch pak prob´ıhalo jen odhlaˇsov´an´ı (pˇrihlaˇsov´an´ı na kurz bylo evidentnˇe ˇcasov´e omezeno).
4.2.6 Test sekven ˇcn´ıho shlukov ´an´ı
Metoda sekvenˇcn´ıho shlukov´an´ı slouˇz´ı k odhalen´ı n´avaznost´ı urˇcit ´ych prov´adˇen ´ych akc´ı. Pˇri tomto testu byly vstupn´ımi hodnotami sloupce ˇCas (opˇet diskretizov´an), IP adresa, In- formace a Akce. Kl´ıˇcov ´ym sloupcem byl sloupec Cel´y n´azev. Pro predikci jem nevyb´ıral
Obr´azek 13: Logistick´a regrese - pˇrehled preferenc´ı
ˇz´anou hodnotu - ˇslo mi pouze o nalezen´ı sekvenc´ı, ne predikci potenci´alnˇe n´asleduj´ıc´ıch akc´ı.
D´elka anal ´yzy byla 49 sekund. Algoritmus sekvenˇcn´ıho shlukov´an´ı vˇsak ve zdrojov´e datab´azi nenalezl ˇz´adn´e sekvence. M ˚uˇzeme tedy pˇredpokl´adat, ˇze studenti sv´e aktivity v syst´emu Moodle neprov´adˇeli v ˇz´adn´em zaznamenateln´em vzoru.
V ´ysledkem anal ´yzy bylo vytvoˇren´ı pouh ´ych tˇr´ı shluk ˚u (viz obr. 14), v porovn´an´ı s klasick ´ymi metodami shlukov´an´ı je informaˇcn´ı pˇr´ınos t´eto anal ´yzy jen minim´aln´ı.
4.2.7 Test metody rozhodovac´ıch strom ˚u
Pomoc´ı metody rozhodovac´ıch strom ˚u m ˚uˇzeme prov´adˇet dˇelen´ı vstupn´ı mnoˇziny dat na podmonoˇziny aplikac´ı s´erie krit´eri´ı. Testov´an´ı t´eto metody bylo pomˇernˇe dost proble- matick´e. S v ´ychoz´ım nastaven´ım algoritmu v podstatˇe nebylo moˇzn´e vytvoˇrit vˇetven´ı - vytvoˇren ´y strom sest´aval z jedin´eho uzlu.
Obr´azek 14: Sekvenˇcn´ı shlukov´an´ı - profily shluk ˚u
Probl´em jsem vyˇreˇsil nastaven´ım hodnot parametru COMPLEXITY PENALTY (n´ızk´a hodnota zvyˇsuje pravdˇepodobnost vˇetven´ı) na hodnotu 0.1 a parametru MINIMUM SUPPORT (ud´av´a minim´aln´ı poˇcet poloˇzek v uzlu stromu) na hodnotu 2 (ve v ´ychoz´ım stavu byla nastavena na 10) Pˇri testov´an´ı t´eto metody jsem jako vstupy pouˇzil sloupce Informace a IP adresa, jako l´ıˇc slouˇzil sloupec Cel´y n´azev a predikoval jsem sloupec Akce. Anal ´yza prob´ıhala 39 sekund.
Nicm´enˇe v ´ysledky ani tak nebyly pˇr´ıliˇs uspokojiv´e. Algoritmus vybral ty hodnoty sloupce Akce, kter´e mˇely v ´yznamn´e zastoupen´ı a na z´akladˇe k nim pˇr´ısluˇsej´ıc´ıch (resp. nepˇr´ısluˇsej´ıc´ıch) hodnot sloupce Informace prov´adˇel bin´arn´ı vˇetven´ı (viz obr. 15).
Nalezena byla pouh´a tˇri hodnot´ıc´ı krit´eria. Kaˇzd ´y uzel pak obsahuje ty akce, kter´e nab ´yvaj´ı hodnoty uveden´e v popisku uzlu. Takto proveden´a anal ´yza tedy nepˇrinesla ˇz´adn´e uˇziteˇcn´e informace. Je moˇzn´e, ˇze na vˇetˇs´ı mnoˇzinˇe dat by bylo moˇzn´e vˇetven´ı prov´adˇet sn´aze i pˇri v ´ychoz´ım nastaven´ı, pouˇzit´ı v ´yznamnˇe vˇetˇs´ı vstupn´ı datab´aze bohuˇzel
Obr´azek 15: Rozhodovac´ı strom
dostupn ´y hardware neumoˇz ˇnoval. Metodu rozhodovac´ıch strom ˚u by bylo jednoduˇsˇs´ı aplikovat na datab´azi obsahuj´ıc´ı pˇrev´aˇznˇe numerick´a data.
Bohuˇzel jsem nemohl otestovat funkˇcnost metody ˇcasov ´ych ˇrad a metody line´arn´ı regrese, protoˇze kromˇe ˇcasov´eho vstupu d´ale vyˇzaduj´ı dalˇs´ı vstup, kter ´y obshauje spojit´e hodnoty. V testovac´ı datab´azi se vˇsak ˇz´adn ´y sloupec obsahuj´ıc´ı takov´a data nevyskytuje.
5
Z ´av ˇer
Ve sv´e pr´aci jsem obecnˇe popsal jednotliv´e funkce programu MS SQL 2008, kter´e slouˇz´ı pro podporu Business Intelligence. Jedn´a se o integraˇcn´ı, analytick´e a reportovac´ı sluˇzby. Ve zvl´aˇstn´ı kapitole jsem popsal principy funkce, zp ˚usoby implementace a vhodn´a pouˇzit´ı jednotliv ´ych analytick ´ych sluˇzeb.
V ˇc´asti zab ´yvaj´ıc´ı se experimenty jsem demonstroval aplikaci integraˇcn´ıch a analy- tick ´ych sluˇzeb na zadan´a data a vyhodnotil vhodnost jednotliv ´ych zp ˚usob ˚u anal ´yzy.
Program MS SQL Server 2008 poskytuje znaˇcn´e mnoˇzstv´ı n´astroj ˚u pro integraci da- tov ´ych zdroj ˚u (napˇr. vytvoˇren´ı datab´aze z textov´eho souboru, souboru tabulkov´eho pro- cesoru, atd.), filtraci vstupn´ıch dat, jejich dodateˇcnou ´upravu, atd. Pouˇzit´ı integraˇcn´ıch sluˇzeb je pomˇernˇe intuitivn´ı. Pˇri pr´aci s programem nen´ı nezbytnˇe nutn´a znalost jazyka MS SQL, prakticky vˇsechny potˇrebn´e pˇr´ıkazy jsou generov´any automaticky.
Obsaˇzen´e analytick´e sluˇzby jsou mocn ´ym n´astrojem pro dolov´an´ı dat. Pomoc´ı nich je moˇzn´e nach´azet v datab´az´ıch vzory, kter´e umoˇznuj´ı n´asledn´e predikce.
Data, kter´a jsem obdrˇzel pro demostraci metod dolov´an´ı dat, kter´e MS SQL Server po- skytuje, jsem nejprve upravil pomoc´ı integrˇcn´ıch sluˇzeb a n´aslednˇe je nahr´al do datab´aze serveru.
N´aslednˇe jsem na nich otestoval funkˇcnost jednotliv ´ych metod. Ne vˇsechny se uk´azaly jako vhodn´e. Nejlepˇs´ı v ´ysledky poskytly metody shlukovac´ı a asociaˇcn´ı pravidla. Po- moc´ı tˇechto jsem zjistil napˇr. nejˇcastˇejˇs´ı hodnoty vstupn´ıch sloupc ˚u, pˇr´ıpadnˇe vztahy mezi nimi. Pomoc´ı metody neuronov ´ych s´ıt´ı a logistick´e regrese pak bylo moˇzno sledo- vat napˇr. chov´an´ı vybran ´ych uˇzivatel ˚u, pˇr´ıpadnˇe poˇc´ıtaˇc ˚u.
Naivn´ı Bayesova metoda a metoda rozhodovac´ıch strom ˚u se uk´azaly jako neefek- tivn´ı, metodu ˇcasov ´ych ˇrad a line´arn´ı regresi pak d´ıky charakteru vstupn´ıch dat nebylo moˇzno otestovat v ˚ubec.
V pr ˚ubˇehu pr´ace s MS SQL Serverem 2008 jsem se setkal s nˇekolika nepˇr´ıjemnostmi. Program obˇcas pˇrestal odpov´ıdat, zejm´ena pˇri n´ahledu na panel vizualizace v ´ysledk ˚u anal ´yzy a pˇri rozbalov´an´ı nab´ıdky dostupn ´ych server ˚u (pˇri tvorbˇe manaˇzer ˚u spojen´ı). D´ale mi pˇripadalo nevhodn´e vyhodnocov´an´ı chybn ´ych nastaven´ı projektu aˇz pˇri spuˇstˇen´ı anal ´yzy (omylem jsem nastavil diskretizaci pro sloupec obsahuj´ıc´ı text, progam pˇri anal ´yze zhavaroval, protoˇze diskretizace nad t´ımto typem dat nebyla moˇzn´a).
Domn´ıv´am se, ˇze MS SQL Server 2008 je v ´yborn ´ym prostˇredkem pro operace do- lov´an´ı dat, nicm´enˇe jeho metody nejsou univerz´aln´ı a nemus´ı b ´yt pro anal ´yzu dan´eho typu dat stejnˇe vhodn´e - je tedy potˇreba je pouˇz´ıvat uv´aˇzlivˇe.
6
Reference
[1] ˇREZANKOV ´A, Hana; H ´USEK, Duˇsan; SN ´AˇSEL, V´aclav. Shlukov´a anal´yza dat . 2. Praha : Professional Publishing, 2009. 218 s. ISBN 978-80-86946-81-8.
[2] Introduction to Information Retrieval [online]. 2008, 07-Apr-2009 [cit. 2010-04-26]. Do- stupn´e z WWW: < http://nlp.stanford.edu/IR-book/>.
[3] LACKO, L’uboslav. Business Intelligence v SQL Serveru 2005. 1. Brno : Computer Press, 2006. 391 s. ISBN 80-251-1110-5.
[4] BERKA, Petr. Dob´yv´an´ı znalost´ı z datab´az´ı. 1. Praha : Academia, 2003. 366 s. ISBN 80-200-1062-9.
[5] DE MANTARAS, Lopez. A Distance-Based Attribute Selection Measure for Decision Tree Induction. Machine Learning [online]. 1991, 6, [cit. 2010-04-26]. Dostupn ´y z WWW: <http://www.springerlink.com/content/hp3215h75t0054k2/fulltext.pdf>.
[6] FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Pad- hraic. From Data Mining to Knowledge Discovery in Databases. AI Ma- gazine [online]. 1997, 17, 3, [cit. 2010-03-08]. Dostupn ´y z WWW: <http://www.aaai.org/ojs/index.php/aimagazine/article/view/1230/1131>. [7] Microsoft. Microsoft Developer Network [online]. 2010 [cit. 2010-03-08]. Dostupn´e z
WWW: <http://msdn.microsoft.com/en-us/default.aspx>.
[8] MELOUN, Milan; MILITK ´Y, Jiˇr´ı; HILL, Martin. Poˇc´ıtaˇcov´a anal´yza v´ıcerozmˇern´ych dat v pˇr´ıkladech. 1. Praha : Academia, 2005. 449 s. ISBN 80-200-1335-0.
[9] Bayesian network In Wikipedia : the free encyclopedia [online]. St. Petersburg (Flo- rida) : Wikipedia Foundation, 2003, 2010 [cit. 2010-03-08]. Dostupn´e z WWW: <http://en.wikipedia.org/wiki/Bayesian network>.
[10] Markov chain In Wikipedia : the free encyclopedia [online]. St. Petersburg (Florida) : Wi- kipedia Foundation, 2002, http://en.wikipedia.org/wiki/Markov chain [cit. 2010- 03-08]. Dostupn´e z WWW: <http://en.wikipedia.org/wiki/Markov chain>. [11] VAN DER VAART, Aad W. Time series [online]. Amster-
dam : [s.n.], 1995-2001 [cit. 2010-05-02]. Dostupn´e z WWW: <http://www.researchgate.net/publication/40517175 Time Series>.
[12] AGRAWAL, Rakesh; IMIELINSKI, Tomasz; SWAMI, Arun Mining Association Ru- les between Sets of Items in Large Databases. IBM Almaden Research Center : 650 Harry Road, San Jose, CA 95120, 1993 [cit. 2010-05-02]. Dostupn´e z WWW: <http://rakesh.agrawal-family.com/papers/sigmod93assoc.pdf>
[13] LACKO, Luboslav. Datab´aze: datov´e sklady : OLAP a dolov´an´ı dat s pˇr´ıklady v Microsoft SQL Serveru a Oracle. 1. Brno : Computer Press, 2003. 469 s. ISBN 80-7226-969-0.
[14] Power, D.J. A Brief History of Decision Support Systems. DSSResources.COM, World Wide Web, http://DSSResources.COM/history/dsshistory.html, version 4.0, March 10, 2007.
[15] HURBEAN, Luminita. Business Intelligence: applications, trends, and strategies. Economic Sciences Series [online]. 2006, 1, [cit. 2010-05-02]. Dostupn ´y z WWW: <http://anale.feaa.uaic.ro/anale/resurse/46 Hurbean L - Business intelligence- applications, trends and strategies.pdf>.