Data Quality: Vojna dvoch svetov má svojho víťaza

Tí, kto­rí kva­li­tu svo­jich dát zve­ria nás­tro­jom Bu­si­ness Dis­co­ve­ry, po­ras­tú, u os­tat­ných to bu­de beh na dl­hé tra­te. A mož­no vô­bec neu­vi­dia cieľ.

Prob­lé­my s kva­li­tou dát rie­ši asi kaž­dý. Niek­to pre­ží­va v slad­kej ne­ve­do­mos­ti, ob­čas na­ra­zí na ne­ja­kú „nez­rov­na­losť" a pri­tom ne­tu­ší, že mu v da­ta­bá­zach ti­ká ča­so­va­ná bom­ba. Po­tom sú tu or­ga­ni­zá­cie, kto­ré zá­pa­sia s prob­lé­mom, ako spo­jiť dá­ta ulo­že­né v rôz­nych zdro­joch a mo­du­loch. Iní sa za­se in­ten­zív­ne ve­nu­jú čis­te­niu dát v sna­he do­siah­nuť ich kva­li­tu eš­te pred na­sa­de­ním rie­še­ní BI. In­ves­to­va­li ob­rov­ské množ­stvo ener­gie, pe­ňa­zí a ča­su do bu­do­va­nia dá­to­vých skla­dov či roz­ví­ja­nia tech­no­ló­gií SQL. Te­raz sa nes­tí­ha­jú ču­do­vať, že mí­ňa­jú cieľ. Tie­to tra­dič­né nás­tro­je to­tiž ne­do­ká­žu dá­ta spo­ľah­li­vo a de­fi­ni­tív­ne vy­čis­tiť.

Po­dob­né pro­jek­ty sú sí­ce am­bi­cióz­ne, ale spra­vid­la sa k ús­peš­né­mu kon­cu, t. j. kva­lit­ným a spo­ľah­li­vým dá­tam, ne­dop­ra­cu­jú. Tre­ba za tým vi­dieť skôr sna­hu veľ­kých fi­riem za­bez­pe­čiť si dl­ho­do­bé a dra­hé zá­kaz­ky.

Na dá­to­vé skla­dy rad­šej za­bud­ni­te

Bu­si­ness Dis­co­ve­ry sa uka­zu­je ako sku­toč­ne efek­tív­ny spô­sob, ako spo­ľah­li­vo od­ha­liť a v prie­be­hu dní či týž­dňov vy­rie­šiť prob­lé­my s kva­li­tou dát. Tie to­tiž vďa­ka lo­gic­ké­mu, tzv. aso­cia­tív­ne­mu spo­je­niu sú­vis­los­tí me­dzi dá­ta­mi od­ha­lia ich sku­toč­nú kon­dí­ciu aj v ob­las­tiach, kto­ré by sme tra­dič­ný­mi tech­no­ló­gia­mi SQL neod­ha­li­li. Tú po­mô­žu zlep­šiť a za se­bou ne­cha­jú spo­ľah­li­vé dá­ta, o kto­ré sa dá oprieť. A ide to aj bez bu­do­va­nia dra­hých dá­to­vých skla­dov a ro­kov čis­te­nia fi­rem­ných dát.

Tie­to vskut­ku ino­va­tív­ne rie­še­nia umož­nia jed­no­du­chým kli­ka­ním filtro­vať a čis­tiť väz­by me­dzi dá­ta­mi a od­ha­liť tie chyb­né. Pri za­vá­dza­ní sys­té­mu sa tak mô­že­te za­me­rať na ob­las­ti, kto­ré „ho­ria". Na­vy­še to pra­cov­ní­kov mo­ti­vu­je k sve­do­mi­té­mu vy­pĺňa­niu in­for­má­cií, čo pred­tým ve­do­me či ne­ve­do­me ig­no­ro­va­li.

Up­ra­to­va­nie vop­red sa pre­ce­ňu­je

Pri čis­te­ní dát je dô­le­ži­té nie­len AKO, ale aj KE­DY. Mno­ho tra­dič­ných IT do­dá­va­te­ľov tvr­dí, že prv ako na­sa­dia rie­še­nie bu­si­ness in­telli­gen­ce (BI), je ne­vyh­nut­né mať „up­ra­ta­né" dá­ta. Ten­to prís­tup je pre­ce­ňo­va­ný a von­kon­com nie je ne­vyh­nut­ný. Pri up­lat­ne­ní fi­lo­zo­fie bu­si­ness dis­co­ve­ry sa v praxi os­ved­ču­je pra­vý opak: Na­sa­diť BI čím skôr, „na­tiah­nuť" dá­ta, prie­bež­ne ich čis­tiť a po­tom reál­ne vy­hod­no­co­vať. Tým ušet­rí­te dra­ho­cen­ný čas a úsi­lie.

S tým­to prís­tu­pom má­te dá­ta v prie­be­hu krát­ke­ho ča­su up­ra­ta­né a zá­ro­veň mô­že­te pro­fi­to­vať z kva­lit­né­ho rie­še­nia BI. Nap­ro­ti to­mu pri tra­dič­nej ces­te, vás to bu­de stáť de­siat­ky ti­síc eur, ro­ky „ner­vov" a na vý­sle­dok sa ťaž­ko dá spo­lie­hať, keď­že sa vám stá­le bu­dú niek­de ob­ja­vo­vať no­vé prob­lé­my.

Fir­my ne­tu­šia o nek­va­lit­ných dá­tach

V praxi sa čas­to stre­tá­va­me s klien­tmi, kto­rí až po na­po­je­ní svo­jich dát na rie­še­nie bu­si­ness dis­co­ve­ry zis­ťu­jú, aký ma­jú vo svo­jich da­ta­bá­zach ne­po­ria­dok. Čas­to v ne­mom úža­se rá­ta­jú chý­ba­jú­ce, neúpl­né, dup­li­cit­né, nes­práv­ne úda­je či dá­ta, kto­ré ne­ma­jú vy­tvo­re­né väz­by. Mô­že byť za tým po­hodl­nosť ale­bo ne­ve­do­mosť za­mes­tnan­cov, chy­bu však mô­že spô­so­biť aj sys­tém, v kto­rom sú dá­ta ulo­že­né.

K tým­to od­chýl­kam čas­to do­chá­dza pri ma­nuál­nom za­dá­va­ní dát. Na jed­nom z pro­jek­tov, pri kto­rom sme rie­ši­li re­por­ting v rám­ci hol­din­gu, sa v re­por­te zra­zu ob­ja­vi­li ne­ča­ka­ne vy­so­ké vý­no­sy za­hra­nič­nej po­boč­ky. Ana­lý­za od­ha­li­la, že úč­tov­níč­ka nes­práv­ne na­ha­dzo­va­la kurz a vždy pred po­ra­dou ho ruč­ne up­ra­vo­va­la. Ta­ká­to „po­moc" nie je nič vý­ni­moč­né a mô­že byť ces­tou do pek­la.

Excel náš kaž­do­den­ný

Naj­väč­ší zdroj omy­lov je ma­nuál­ne zos­ta­vo­va­nie re­por­tov v Exce­li. Ten sa vy­uží­va hoj­ne aj nad za­ve­de­ný­mi (naj­mä tra­dič­ný­mi) nás­troj­mi BI. Je­ho od­strá­ne­nie na ces­te ku kva­li­te dát je je­den z pr­vých kro­kov.

Ne­raz si pra­cov­ní­ci vô­bec neu­ve­do­mu­jú svo­je chy­by, kto­ré sa spra­vid­la naz­bie­ra­jú ne­zá­vis­le od se­ba. Mô­žu tak na­rásť do hro­zi­vých roz­me­rov. Len na ilus­trá­ciu, zme­na fo­re­cas­tu v ne­me­no­va­nej ban­ke spo­čí­va­la v pre­pí­sa­ní su­my v po­líč­kach Exce­lu, čas­to bez poz­nám­ky a ne­ria­de­ným spô­so­bom. Vý­sled­kom tak­to up­ra­vo­va­ných re­por­tov sú omy­ly v hod­no­tách sto­viek ti­síc eur. Ma­nuál­ne úp­ra­vy sú čas­to ne­vyh­nut­né, ale ma­li by sa di­ať ria­de­ným, nie ži­vel­ným spô­so­bom.

Spá­ja­nie via­ce­rých dá­to­vých zdro­jov už nie je prob­lém

Čas­to sa stre­tá­va­me s ne­kon­zis­ten­ciou dát na­prieč jed­not­li­vý­mi zdroj­mi. Mno­ho fi­riem vy­uží­va via­ce­ro mo­du­lov v rám­ci svoj­ho IT - úč­tov­níc­tvo, CRM, evi­den­ciu vý­ko­nov, lo­gis­ti­ku a iné. Ok­rem to­ho je tu vša­dep­rí­tom­ný Excel. Dá­ta nav­zá­jom ne­do­ká­žu pre­po­jiť, keď­že ich zdro­je bo­li vy­tvá­ra­né in­di­vi­duál­ne a neexis­tu­je cen­trál­ny čí­sel­ník, kto­rý by ich spá­jal. Aby sa na dá­ta da­lo po­ze­rať jed­not­ne, tre­ba ich spo­jiť na jed­nom mies­te. Ten­to prís­tup sa dá ús­peš­ne vy­užiť aj pri mig­rá­cii dát me­dzi sys­té­ma­mi.

Vo sve­te he­te­ro­gén­nych in­for­má­cií je to sku­toč­ná vý­zva, ale len ak sa to ro­bí tra­dič­nou ces­tou. Vte­dy je pot­reb­né dá­to­vé zdro­je roz­lo­žiť a nás­led­ne pos­ta­viť na jed­not­nú úro­veň. Prob­lé­mom však je neus­tá­le sa me­nia­ca štruk­tú­ra. Tá spô­so­bu­je, že po zme­nách tre­ba dá­ta zno­vu spá­jať a čis­tiť vzťa­hy me­dzi ni­mi. Keď­že ži­vot fi­riem je dy­na­mic­ký, nie sta­tic­ký, tro­chu to pri­po­mí­na báj­ne­ho Si­zy­fa a je­ho bal­van, kto­rý ho za­kaž­dým pre­val­cu­je.

S vy­uži­tím prís­tu­pu bu­si­ness dis­co­ve­ry do­ká­že­te spo­jiť všet­ky sú­vi­sia­ce dá­ta z rôz­nych dá­to­vých zdro­jov a v pod­sta­te ich tak in­teg­ro­vať bez to­ho, aby ste ich mu­se­li zla­ďo­vať na úrov­ni da­ta­bá­zy. Ta­ké­to rie­še­nie mož­no up­lat­niť v prie­be­hu dní až týž­dňov, ne­ho­vo­riac o fi­nan­čných be­ne­fi­toch.

Anič­ka nie je va­nič­ka

Iný prob­lém, s kto­rým sa čas­to stre­tá­va­me na úrov­ni re­por­tov a ana­lýz, je ne­jed­not­nosť v poj­moch. Stá­va sa to, keď o tom is­tom prob­lé­me ho­vo­ria ľu­dia z ob­cho­du, fi­nan­cií, pre­vádz­ky a kaž­dý si pod mar­žou, vý­kon­mi či tr­žba­mi pred­sta­vu­je nie­čo iné. Doh­ľad nad kva­li­tou v tom­to prí­pa­de spo­čí­va v zla­ďo­va­ní a va­li­dá­cii re­por­tov a v nich ob­siah­nu­tých uka­zo­va­te­ľov (KPIs). Jed­na vec je vy­čis­tiť dá­ta z tech­nic­kej strán­ky a dru­há je ho­vo­riť rov­na­kým ma­na­žér­skym ja­zy­kom.

Prís­tup bu­si­ness dis­co­ve­ry za­hŕňa aj auto­ma­tic­ký da­ta go­ver­nan­ce nad všet­kým, čo vstú­pi do sys­té­mu, až do mo­men­tu, keď od­tiaľ vy­stú­pi. Vi­dí­me te­da, od­kiaľ dá­ta priš­li, ako bo­li tran­sfor­mo­va­né, pre­po­čí­ta­va­né a ako sa pou­ží­va­jú v re­por­toch. Tak­to vie­me veľ­mi jed­no­du­cho na pár klik­nu­tí zis­tiť, či sa nap­rík­lad po­jem mar­ža v rôz­nych sys­té­moch nev­ní­ma ináč, či má rov­na­ký vzo­rec, či sa ne­pou­ží­va pod rôz­ny­mi náz­va­mi.

Big Brot­her v me­ta­dá­tach

Nad kva­li­tou re­por­tov bdie „Big Brot­her" v po­do­be nás­tro­jov go­ver­nan­ce das­hboard a mo­ni­to­rin­gu. Tie do­ká­žu na zá­kla­de nas­ta­ve­ných vzťa­hov ale­bo pre­dik­čných ana­lýz auto­ma­tic­ky od­ha­liť od­chýl­ku od nor­má­lu a upo­zor­niť na ňu. Klik­nu­tím na prob­le­ma­tic­ký zá­znam veľ­mi rých­lo zis­tí­te, kde prob­lém vzni­kol, a mô­že­te sa k ne­mu prek­li­kať až na úro­veň dá­to­vé­ho zdro­ja. Čo je na tých­to auto­ma­tic­kých upo­zor­ne­niach dô­le­ži­té, je dy­na­mic­ký poh­ľad na kva­li­tu dát, kto­rú tak mož­no udr­žia­vať aj prie­bež­ne.

Pri tvor­be re­por­tov je kri­tic­ké za­de­fi­no­vať si ma­naž­ment me­ta­ta­dát. Pri tra­dič­nej ar­chi­tek­tú­re to nie je nič jed­no­du­ché, spra­vid­la sa o to sta­rá špe­cial­ista, kto­rý si vy­pý­ta sluš­ný ho­no­rár. S bu­si­ness dis­co­ve­ry ste však v po­zí­cii, keď je de­fi­no­va­nie me­ta­dát auto­ma­tic­ké, sa­moz­rej­me, tre­ba ich správ­ne inter­pre­to­vať. To je však pou­ží­va­teľ­sky veľ­mi po­hodl­né a zro­zu­mi­teľ­né.

Ino­vá­cie ma­jú od­ľah­čiť biz­nis

Prís­tup bu­si­ness dis­co­ve­ry do­ká­zal zdan­li­vo ná­roč­nú té­mu, ako je dá­to­vá kva­li­ta veľ­kých ob­je­mov he­te­ro­gén­nych dát, prib­lí­žiť bež­né­mu pou­ží­va­te­ľo­vi. Kva­lit­né dá­ta sú tak na do­sah aj pre „bež­né­ho člo­ve­ka", kto­rý s vhod­ným nás­tro­jom do­ká­že sa­mos­tat­ne ana­ly­zo­vať a kon­tro­lo­vať ich kva­li­tu. Ta­ký­to sys­tém ria­de­nia kva­li­ty dát od­ľah­ču­je or­ga­ni­zá­cie, kto­ré tak nie sú od­ká­za­né na dra­hých exter­ných špe­cia­lis­tov, resp. s ich po­mo­cou do­ká­žu do­siah­nuť vý­raz­ne viac.

Martin Kostic_EMARK.JPG Mar­tin Kos­tič, ria­di­teľ spo­loč­nos­ti EMARK, kos­tic@emark.skOhodnoťte článok:
   
 

24 hodín

týždeň

mesiac

Najnovšie články

Roz­ho­vor: Pre zá­kaz­ní­ka je kľú­čo­vé, keď server­ov­é rie­še­nia do­ká­žu rásť spo­lu s ním a s je­ho ak­tuál­ny­mi po­žia­dav­ka­mi
ĽUBOŠ ŠENKERY pôsobí od decembra 2007 ako produktový manažér pre oblasť štandardných serverov v spoločnosti HP. Venuje sa projektom predaja serverov HP ProLiant na slovenskom trhu. čítať »
 
Ná­kup tech­no­ló­gií v pod­ni­koch
V priebehu augusta 2014 uskutočnila redakcia Infoware v spolupráci so spoločnosťou GRENKELEASING, s.r.o., prieskum o nákupe technológií v podnikoch. čítať »
 
Re­por­táž: VMware vFO­RUM 2014
Softvérovo definovaný podnik, investičné a technologické stratégie, ako si môžu firmy udržiavať konkurencieschopnosť v ére mobilných riešení a cloudu, zotavenie po havárii komponentov IT infraštruktúry... To boli len niektoré z tém podujatia VMware vFORUM 2014, ktoré sa konalo v Prahe. čítať »
 
Tla­čo­vé za­ria­de­nia pre ma­lé, stred­né a veľ­ké fir­my
Zariadenia pre tlač dokumentov v podnikovom prostredí ako aj procesy ich využívania sa priebežne optimalizujú. čítať »
 
Ana­lý­za tr­hu – tla­čiar­ne, ko­pír­ky a mul­ti­fun­kčné za­ria­de­nia
Digitalizácia dokumentov a procesov s nimi súvisiacich spôsobila revolúciu v ukladaní, zdieľaní a výmene dokumentov. čítať »
 
TCO: Nao­zaj vie­te, aká je ce­na pre­vádz­ky IT?
Riešenia v oblaku priniesli viac jasna. Kým v minulosti bolo vyhodnocovanie celkových nákladov na vlastníctvo informačných technológií zložitým porovnávaním množstva položiek, cloud vyhodnocovanie viacerých možností jednoznačne zjednodušuje. čítať »
 
TCO vs. ROI ale­bo Je pre­vádz­ka IT iba nák­la­do­vá po­lož­ka?
Prevádzka IT sa typicky považuje za nákladovú položku. Je to však skutočne tak? Sú náklady jediné kritérium, podľa ktorého vieme rozhodnúť, ktorý model, služba, systém, riešenie je lepšie? čítať »
 
Da­ta­cen­ter Cla­ri­ty LC – tran­spa­ren­tnosť infra­štruk­tú­ry dá­to­vých cen-tier
Spoločnosť Siemens rozšírila portfólio pre dátové centrá o riešenie Datacenter Clarity LC. Ide o systém DCIM (Data Center Infrastructure Management), ktorý umožňuje prepojenie IT manažmentu s facility manažmentom. čítať »
 
 
 
  Zdieľaj cez Facebook Zdieľaj cez Google+ Zdieľaj cez Twitter Zdieľaj cez LinkedIn Správy z RSS Správy na smartfóne Správy cez newsletter