Optimalizácia dátového skladu - Spoznávame BI: 9. časť

Mo­de­lo­va­nie dát dá­to­vé­ho skla­du je zvláš­tna dis­cip­lí­na, v rám­ci kto­rej de­nor­ma­li­zu­je­me štruk­tú­ry na lep­ší vý­kon, aby sme po­tom z tej­to de­nor­ma­li­zá­cie uro­bi­li nor­mu a z nej za­se vý­nim­ky. Všet­ko s cie­ľom spreh­ľad­niť, zrýc­hliť, skrát­ka zo všet­kých strá­nok zdo­ko­na­liť prís­tup k in­for­má­ciám. Aby sme z nich moh­li vy­ťa­žiť že­la­ný „stra­te­gic­ký prí­nos“, kto­rý po­mô­že zlep­šiť fun­go­va­nie náš­ho po­dni­ku a ľud­ské­ho ži­vo­ta vô­bec… Keď sme už te­da in­ves­to­va­li toľ­ko úsi­lia do zlep­šo­va­nia, aké po­tre­by a túž­by nás že­nú k ďal­šej op­ti­ma­li­zá­cii? 

Is­te, dá sa po­ve­dať, že na zdo­ko­na­ľo­va­nie je pries­tor vždy, otáz­kou však zos­tá­va, aký je po­mer in­ves­to­va­né­ho úsi­lia ku sku­toč­ným prí­no­som. Jed­no­duc­ho po­ve­da­né, či sa nám to op­la­tí. Z toh­to po­hľa­du si všim­ni­me dve ka­te­gó­rie zlep­še­nia, kto­ré dá­va­jú eko­no­mic­ký zmy­sel. 

Pr­vá z nich rea­gu­je na si­tuáciu, keď sa aj naj­mo­hut­nej­ší vý­poč­to­vý sys­tém stá­va dýc­ha­vič­ným, dru­há umož­ňu­je nec­hať si za­hrať za má­lo pe­ňa­zí viac mu­zi­ky.

spoznavameBI.jpg
Prík­lad krea­tív­nych in­dexov ako mi­ni­di­men­zia, di­men­zia a sub­di­men­zia v star sché­me


Keď sa si­lák za­dýc­ha
Rast vý­ko­nu po­čí­ta­čov je dnes sku­toč­ne oh­ro­mu­jú­ci, ale­bo ako čas­to po­ču­je­me, je dra­ma­tic­ký. To, čo bo­lo vče­ra špič­kou, je te­raz hod­né len zho­vie­va­vé­ho ús­me­vu. Zda­lo by sa, že sta­čí len chví­ľu po­čkať a ne­bu­de prob­lém po­ra­diť si s akým­koľ­vek ob­je­mom dát. Kým vy­mýš­ľa­me akú­koľ­vek in­te­li­gen­tnú op­ti­ma­li­zač­nú tec­hni­ku, vy­na­lo­ží­me viac úsi­lia a pe­ňa­zí, než ke­by sme si jed­no­duc­ho za­ob­sta­ra­li nie­koľ­kok­rát vý­kon­nej­ší har­dvér. Veď je­ho si­la sa ná­so­bí kaž­dý rok, kaž­dý deň, kaž­dú ho­di­nu...
Po­čí­ta­če sú sí­ce čo­raz vý­kon­nej­šie, je ich stá­le viac, sú dos­tup­nej­šie a do­ká­žu rie­šiť a po­dpo­ro­vať viac agend a čin­nos­tí, na kto­ré by sme pred­tým ani ne­po­mys­le­li, no vý­sled­kom toh­to ší­re­nia je ob­rov­ský a us­ta­vič­ne sa zrýc­hľu­jú­ci ná­rast veľ­kos­ti spra­cú­va­ných dát. Nie je to tak dáv­no, čo nas­tal zlom a roč­ná dá­to­vá pro­duk­cia po pr­výk­rát v his­tó­rii ce­los­ve­to­vo pre­vý­ši­la rast dos­tup­né­ho pries­to­ru na jej ulo­že­nie na dis­ko­vých pa­mä­tiach.

Dá­to­vé skla­dy bý­va­jú sku­toč­ne bu­do­va­né ako ro­bus­tné sys­té­my s re­zer­vou na spra­co­va­nie roz­siah­lych dát. Ča­som však nas­tá­va tak­mer zá­ko­ni­te oka­mih, keď zís­ka­nie po­treb­nej in­for­má­cie vy­ža­du­je vzhľa­dom na rast dá­to­vej zá­klad­ne ove­ľa viac ka­pa­ci­ty a ča­su, než je ak­cep­to­va­teľ­né.  Sys­tém sa za­hl­cu­je, ho­ci vý­stu­py sú stá­le ta­ké is­té. Dô­vo­dom je, že náj­sť pat­rič­né dá­ta mu te­raz dá po­dstat­ne viac prá­ce než pred­tým. Pric­hád­za roz­ča­ro­va­nie – ta­ký krás­ny a dra­hý sys­tém, a pred­sa nes­tí­ha!  Čo s tým? Po­sil­ne­nie har­dvé­ru je, sa­moz­rej­me, jed­na z ciest, ale do­ne­ko­neč­na to ur­či­te ne­pôj­de. Tak­že ne­zos­tá­va nič iné než op­ti­ma­li­zo­vať. Te­da za­ria­diť, aby sme sys­té­mu uľa­vi­li, ale aby sú­čas­ne „nes­tra­til tvár“.

Par­ti­tio­ni­zuj­me sme­lo!
Naš­ťas­tie tak ako už pred­tým v iných prí­pa­doch je aj tu po­ru­ke ele­gan­tná myš­lien­ka. Nap­riek to­mu, že dá­ta, z kto­rých ťa­há­me in­for­má­cie, stá­le ras­tú, ob­jem týc­hto „vy­ťa­že­ných“ in­for­má­cií je zhru­ba úpl­ne rov­na­ký. Ľudia skrát­ka tiež ma­jú len ur­či­tú ka­pa­ci­tu na ich spra­co­va­nie. A na­vy­še sa dá ľah­ko vy­po­zo­ro­vať, že sú tu veľ­ké roz­die­ly v po­čet­nos­ti prís­tu­pov k ur­či­tým dá­to­vým ob­las­tiam a po­lož­kám. Niek­to­ré dá­ta sú ťa­že­né dosť in­ten­zív­ne, iné skôr ná­hod­ne a exis­tu­jú aj ta­ké, na kto­ré sa ne­sia­ha prak­tic­ky vô­bec. Pri ďal­šom dôk­lad­nom po­zo­ro­va­ní zvy­čaj­ne zis­tí­me, že tých pr­vých je vý­raz­ná men­ši­na, za­tiaľ čo tie dru­hé tvo­ria väč­ši­nu. Tak­že sa po­nú­ka rie­še­nie roz­de­liť ich na men­šie čas­ti, kto­ré sa preh­ľa­da­jú mno­hok­rát, až rá­do­vo ­rých­lej­šie, pri­čom niek­to­ré z tých ma­lých čas­tí po­kry­jú väč­ši­nu po­žia­da­viek. Ho­vo­rí sa to­mu ­lo­gic­ký par­ti­tio­ning (lo­gic­ký pre­to, že je to nie­čo iné než fy­zic­ký par­ti­tio­ning na úrov­ni har­dvé­ru ale­bo ope­rač­né­ho sys­té­mu). 

V praxi bu­do­va­nia dá­to­vých skla­dov nie je otáz­kou či, ale ako ro­biť par­ti­tio­ning. Účel­né je roz­de­liť dá­ta do lo­gic­kých cel­kov, kto­ré bu­dú ulo­že­né napr. v nie­koľ­kých men­ších da­ta­bá­zo­vých ta­buľ­kách a s men­ší­mi in­dexmi, a to tak, aby jed­not­li­vé ma­lé cel­ky us­po­ko­ji­li väč­ši­nu do­py­tov. Nap­rík­lad od­de­liť úda­je o tr­žbách po jed­not­li­vých ro­koch, keď nás za­ují­ma­jú ana­lý­zy len za po­sled­né ob­do­bie. Tak ako vždy aj tu pla­tí „nie­čo za nie­čo“ – v tom­to prí­pa­de pres­ta­ne ak­tuál­ny par­ti­tio­ning vy­ho­vo­vať, ke­by sa ho­di­lo roz­de­le­nie dát po­dľa iné­ho kri­té­ria (nap­rík­lad po­dľa vý­rob­ných ra­dov pro­duk­tov).

Duál­na gra­nu­la­ri­ta
V op­ti­ma­li­zá­cii však mô­že­me ísť eš­te ďa­lej. Pre­to­že je zná­me, že 90 % ana­ly­tic­kých do­py­tov pra­cu­je s ag­re­go­va­ný­mi, a nie s de­tail­ný­mi dá­ta­mi, mô­že­me si súhr­nné uka­zo­va­te­le pred­po­čí­tať a ulo­žiť do sa­mos­tat­ných ta­bu­liek. Na zís­ka­nie in­for­má­cií, kto­ré ne­vy­ža­du­jú de­tail (a kto­rých je 90 %), pra­cu­je­me už len s tý­mi­to ag­re­gát­mi, čo je ove­ľa rých­lej­šie.

Do­kon­ca mô­že­me obe pred­chád­za­jú­ce me­tó­dy kom­bi­no­vať a uk­la­dať dá­ta pre rôz­ne ob­do­bia s rôz­nou gra­nu­la­ri­tou, te­da čer­stvé dá­ta v kom­plet­nom de­tai­le a sta­ré iba su­ma­ri­zo­va­né.

Obe me­tó­dy vy­ža­du­jú, sa­moz­rej­me, veľ­kú oboz­ret­nosť – jed­nak pla­tí, že to, čo raz ag­re­gu­je­me, po­dstat­ne me­nej ľah­ko (ak je to vô­bec mož­né) ro­zag­re­gu­je­me, tak­že sa mu­sí­me zmie­riť, že niek­to­rú tri­nás­tu kom­na­tu si mô­že­me nav­ždy uzav­rieť, ok­rem to­ho si mu­sí­me dá­vať po­zor pri zá­pi­se no­vých in­for­má­cií, aby sme správ­ne ak­tua­li­zo­va­li všet­ky úrov­ne gra­nu­la­ri­ty na všet­kých mies­tach, kde má­me prís­luš­né dá­ta ulo­že­né.

Buď­me krea­tív­ni!
A te­raz sa ko­neč­ne dos­tá­va­me k sľu­bo­va­nej mu­zi­ke za má­lo pe­ňa­zí. Me­tó­da, kto­rej up­lat­ne­ním mô­že­me má­lo stra­tiť a ve­ľa zís­kať, je up­lat­ne­nie krea­tív­nych in­dexov. Slo­vo in­dex sa tu po­uží­va v je­ho pô­vod­nom la­tin­skom vý­zna­me, ide te­da o zoz­nam. Tá­to me­tó­da vlas­tne nez­na­me­ná nič iné než to, že sa niek­to­ré po­lož­ky ocit­nú na in­dexe (te­da na zoz­na­me). Väč­ši­nou ide o zo­zna­my sub­jek­tov hod­ných zvláš­tnej po­zor­nos­ti (ako to os­tat­ne bo­lo v his­tó­rii čas­to), aj keď v da­nom prí­pa­de bý­va tá­to po­zor­nosť či už ne­ga­tív­na, ale­bo po­zi­tív­na. Prík­la­dom mô­žu byť zoz­na­my 10 naj­pre­dá­va­nej­ších vý­rob­kov, 100 naj­bo­nit­nej­ších zá­kaz­ní­kov, naj­dô­le­ži­tej­ších par­tne­rov, ale aj naj­ri­zi­ko­vej­ších klien­tov, nep­la­ti­čov atď. Tie­to zoz­na­my mož­no vy­tvá­rať a udr­žia­vať zvlášť. Pri do­py­to­va­ní a ana­lý­ze umož­ňu­jú dos­tať sa rých­lo k po­treb­ným dá­tam bez to­ho, aby sme mu­se­li preh­ľa­dá­vať a ana­ly­zo­vať ce­lú da­ta­bá­zu.

Ako ďa­lej?
Uve­de­né prík­la­dy pred­sta­vu­jú drob­né, ho­ci uži­toč­né me­tó­dy, kto­ré sa sna­žia vy­rov­nať s la­ví­no­vi­tým prí­va­lom spra­cú­va­ných in­for­má­cií. Tu­ší­me, že nám po­mô­žu, ale ich účin­nosť je ob­med­ze­ná. Aby však ma­ni­pu­lá­cia so stra­te­gic­ký­mi in­for­má­cia­mi vy­dr­ža­la s dyc­hom aj vte­dy, keď má če­liť in­for­mač­nej expló­zii, cí­ti­me, že je ne­vyh­nut­né uči­niť zá­sad­nej­šie, kon­cep­čnej­šie kro­ky. O tých si po­vie­me na­bu­dú­ce.

vladimir_kyjonka3.jpg Vla­di­mír Ky­jon­ka
Autor je BI Bu­si­ness Ad­vi­sor, SAS
vla­di­mir.ky­jon­ka@cze.sas.com

Zdroj: Infoware 3/2011



Ohodnoťte článok:
   
 

24 hodín

týždeň

mesiac

Najnovšie články

Kon­fi­gu­rá­cia vy­so­kej dos­tup­nos­ti / 1. časť
V našom článku načrtneme možnosti konfigurácie, ktoré umožňujú zabezpečiť vysokú dostupnosť služieb elektronickej pošty v prostredí Exchange Server 2010. čítať »
 
Prog­ra­mu­je­me gra­fic­ký en­gi­ne XXXIV.
V tejto časti seriálu vám v stručnosti predstavíme tzv. systémy častíc (particle systems). Kvalitne navrhnutými systémami častíc dokážeme veľmi rýchlo a elegantne zvýšiť dynamiku grafických aplikácií. čítať »
 
CON­TAI­NED da­ta­bá­zy
V našom predošlom článku sme sa venovali inštalovaniu SQL Denali v najaktuálnejšom CTP. Takisto sme opísali, ako si pripraviť testovacie prostredie spolu so vzorovými databázami. čítať »
 
Ko­niec ad­res­né­ho pries­to­ru IPv4 inter­ne­tu
Začiatkom februára nastáva veľký deň D pre súčasný internet. Každé zariadenie – či už na internete, alebo v lokálnej sieti – má jednoznačnú L3 adresu, a keďže sa vo svete presadil protokol IP, je to adresa IPv4, zapísaná v 4 oktetoch. čítať »
 
Op­ti­ma­li­zá­cia dá­to­vé­ho skla­du - Spoz­ná­va­me BI: 9. časť
Modelovanie dát dátového skladu je zvláštna disciplína, v rámci ktorej denormalizujeme štruktúry na lepší výkon, aby sme potom z tejto denormalizácie urobili normu a z nej zase výnimky. čítať »
 
Ro­zum­né fi­nan­co­va­nie v IT
Aj napriek oživeniu trhu je opatrnosť a rozumný prístup k použitiu finančných prostriedkov stále na mieste. čítať »
 
IT je vý­hod­nej­šie vy­uží­vať ako vlas­tniť
O lízing informačných technológií akoby na Slovensku ani nebol záujem. Predstavuje menej ako jedno percento z celkovej hodnoty prefinancovaných hnuteľných vecí čítať »
 
In­teg­rá­cia ko­mu­ni­kač­ných mé­dií
Podstatou každej komunikačnej technológie je odstránenie ­bariér. Telefónne systémy napríklad odstránili prekážku v podobe vzdialenosti medzi ľuďmi, čítať »
 
 
 
  Zdieľaj cez Facebook Zdieľaj cez Google+ Zdieľaj cez Twitter Zdieľaj cez LinkedIn Správy z RSS Správy na smartfóne Správy cez newsletter