BIG DATA

Big data v službách biznisu

Veľ­ké spo­loč­nos­ti ako Goog­le ale­bo Lin­ke­dIn ma­jú pos­ta­ve­ný ce­lý ob­chod­ný mo­del na ob­cho­do­va­ní s dá­ta­mi. Dô­le­ži­tej­šie ako ten­to fakt však je, že kaž­dá spo­loč­nosť mô­že vy­užiť dá­ta ge­ne­ro­va­né svo­jou pre­vádz­kou na svoj pros­pech a pos­ky­to­vať ich tre­tím stra­nám za pop­la­tok.

Spo­loč­nos­ti za­čí­na­jú ob­ja­vo­vať no­vé zdro­je príj­mov v pos­ky­to­va­ní svo­jich dát, tvr­dí For­bes. [1]

Sa­moz­rej­me, sú fir­my, kto­ré vy­čnie­va­jú spo­me­dzi os­tat­ných, po­kiaľ ide o množ­stvo dát, ku kto­rým pris­tu­pu­jú. Sú to naj­mä te­le­ko­mu­ni­kač­ní ope­rá­to­ri, kto­rí ma­jú prís­tup k veľ­ké­mu množ­stvu dát ge­ne­ro­va­ných pou­ží­va­teľ­mi svo­jich slu­žieb. Cez inter­net dnes pou­ží­va­te­lia od­osie­la­jú ob­rov­ské množ­stvá dát, kto­ré mô­že te­le­ko­mu­ni­kač­ná fir­ma ana­ly­zo­vať a v prí­pa­de, že sú dá­ta ano­ny­mi­zo­va­né, aj pos­ky­to­vať tre­tím stra­nám. Nap­rík­lad in­for­má­cie o nav­ští­ve­ných strán­kach ale­bo hľa­da­ných slo­vách vo vy­hľa­dá­va­čoch sú cen­ný ar­ti­kel, kto­rý mô­že pos­ky­to­va­teľ od­chy­tiť. Na­vy­še vďa­ka zá­klad­ňo­vým sta­ni­ciam BTS ma­jú mo­bil­ní ope­rá­to­ri in­for­má­cie o lo­ka­li­te, v kto­rej sa na­chá­dza­jú ich pou­ží­va­te­lia, a dis­po­nu­jú ana­lý­zou po­hy­bu mo­bil­ných te­le­fó­nov, kto­rá má veľ­kú hod­no­tu.

Nie kaž­dá or­ga­ni­zá­cia však má zdro­je a know-how na reali­zá­ciu pro­jek­tov spra­cú­va­jú­cich veľ­ké množ­stvá dát. Na­vy­še Ha­doop ako kaž­dý iný open sour­ce sof­tvér neop­lý­va prá­ve fun­kcia­mi vy­ža­do­va­ný­mi dneš­ný­mi or­ga­ni­zá­cia­mi. Me­dzi ta­ké pa­tria ad­mi­nis­trač­né a mo­ni­to­ro­va­cie roz­hra­nie, in­teg­rá­cia do LDAP, prí­ve­ti­vé vý­vo­jo­vé pros­tre­die ale­bo inter­ope­ra­bi­li­ta jed­not­li­vých kom­po­nen­tov. Nap­rík­lad ta­ký Nutch pod­po­ru­je Hba­se do ver­zie 0.90.6, ale ten za­sa ne­be­ží na Ha­doop v dru­hej ver­zii. Pre pod­ni­ky sa pre­to od­po­rú­ča rie­še­nie big da­ta za­lo­že­né na niek­to­rej z ko­mer­čných dis­tri­bú­cií Ha­doo­pu. Tie po­nú­ka­jú prá­ve chý­ba­jú­ce kom­po­nen­ty, ale aj kri­tic­kú sof­tvé­ro­vú pod­po­ru, neo­ce­ni­teľ­nú pri na­sa­dzo­va­ní sof­tvé­ru, kto­rý je jed­ným z naj­rý­chlej­šie sa vy­ví­ja­jú­cich na sve­te.

Aby ma­li dá­ta hod­no­tu, tre­ba ich ana­ly­zo­vať a dos­tať z nich uži­toč­né in­for­má­cie, kto­ré ne­mu­sia byť na­vo­nok zrej­mé. Pre­dik­tív­ne ana­ly­tic­ké nás­tro­je sú už v sú­čas­nos­ti veľ­mi dob­re in­teg­ro­va­né so sys­té­ma­mi big da­ta a jed­not­li­vé vý­poč­ty mô­žu bež­ať tak, že väč­ši­na al­go­rit­mov sa vy­ko­ná­va pria­mo na sys­té­me big da­ta. Od­pa­dá tak nut­nosť pre­su­nu dát na vlast­ný vý­po­čet sme­rom k ana­ly­tic­ké­mu nás­tro­ju, čo vý­poč­ty znač­ne zrý­chľu­je a od­stra­ňu­je aj čas­to ne­vyh­nut­né vzor­ko­va­nie dát. Z hľa­dis­ka ob­je­mu už te­da nie je ne­vyh­nut­né pra­co­vať iba nad pod­mno­ži­nou dát, kto­ré ob­sa­hu­je sys­tém.

Len ťaž­ko si vie­me pred­sta­viť bež­ných pod­ni­ko­vých pou­ží­va­te­ľov pra­cu­jú­cich so sys­té­ma­mi big da­ta skrz níz­koú­rov­ňo­vé prog­ra­mo­va­nie, dos­tup­né nap­rík­lad nad infra­štruk­tú­rou Ha­doop. Vďa­ka rých­le­mu nap­re­do­va­niu tech­no­ló­gií bol umož­ne­ný prís­tup k dá­tam (po­kiaľ ma­jú štruk­tú­ro­va­ný cha­rak­ter) cez štan­dard­ný OD­BC dri­ver pos­ky­tu­jú­ci dá­ta cez bež­ný ja­zyk SQL spĺňa­jú­ci štan­dar­dy AN­SI. Tak­to mož­no vy­užiť klas­ter Ha­doop aj na ro­lu da­ta­bá­zo­vé­ho server­a bež­ný­mi ap­li­ká­cia­mi z ob­las­ti re­por­tin­gu, bu­si­ness in­telli­gen­ce a po­dob­ne. Aj cel­ko­vá in­teg­rá­cia so sú­čas­ný­mi sys­té­ma­mi je tak ove­ľa jed­no­duch­šia a rých­lej­šia.

Big da­ta má naj­väč­ší po­ten­ciál prá­ve v ob­las­tiach, kde sa na­chá­dza­jú zdro­je dát, kto­ré vie­me nav­zá­jom pre­po­jiť tak, aby z nich bo­la vy­ge­ne­ro­va­ná no­vá hod­not­ná in­for­má­cia. Nap­rík­lad zá­ujem o služ­by skom­bi­no­va­ný s in­for­má­ciou o lo­ka­li­te je pred­pok­la­dom na vhod­nú po­nu­ku. Nie na­dar­mo dneš­né smar­tfó­ny od nás po­ža­du­jú pos­ky­to­va­nie po­lo­hy. Vďa­ka nej nás ve­dia pria­mo os­lo­viť webo­vé strán­ky s po­nu­ka­mi ale­bo zľa­va­mi v lo­ka­li­te, v kto­rej sa prá­ve na­chá­dza­me. Hl­bšou ana­lý­zou ta­ký­to sys­tém aj zis­tí, či na da­nom mies­te bý­va­me, pra­cu­je­me ale­bo sme len na náv­šte­ve, a to prá­ve vďa­ka stro­jo­vé­mu uče­niu (ma­chi­ne lear­ning).

[1] http://www.for­bes.com/si­tes/cen­tu­ry­link/2014/01/ 07/top-four-big-da­ta-trends-for-bu­si­nes­ses-in-2014/2/

[2] http://news.cnet.com/8301-21546_3-20032014-10253464.html

Autor je IBM Software Sa­les Client Tech­ni­cal Spe­cia­list

Zdroj: IW 1-2/2014


Ohodnoťte článok:
   
 

24 hodín

týždeň

mesiac

Najnovšie články

Ako ušet­riť IT nák­la­dy po­mo­cou tech­no­ló­gie big da­ta
V dnešnej informačnej dobe nás dáta sprevádzajú na každom kroku a stávame sa svedkami obrovskej dátovej explózie. čítať »
 
FlexPod Se­lect har­dvé­ro­vá plat­for­ma pre Ha­doop
S príchodom nových technologických možností, ako sú sociálne siete, mobilné zariadenia, kamery a rôzne senzory pripojiteľné k dátovej sieti, sa mnohé firmy a inštitúcie stali schopnými generovať obrovské objemy dát, ktoré potenciálne obsahujú zaujímavú informáciu, ale nie sú priamo vyhodnotiteľné človekom ani bežnými výpočtovými prostriedkami, resp. len v obmedzenej miere. čítať »
 
Ino­vo­va­né šab­ló­ny pre ap­li­ká­cie Win­dows 8.1
Okrem základnej šablóny „prázdnej“ aplikácie majú vývojári a dizajnéri k dispozícii tri sofistikované šablóny Grid App, Split App a Hub App. Sú koncipované tak, aby čo najviac pokryli typické scenáre aplikácií Windows 8.1 s používateľským rozhraním Modern UI. Samozrejmá je optimalizácia aplikácií vytvorených podľa týchto šablón na dotykové ovládanie. čítať »
 
Prog­ra­mu­je­me pre An­droid / Úvod
Pri sledovaní našich seriálov o Linuxe a OpenGL ste si určite všimli, že nami zadané úlohy sme riešili v rámci OS Linux. No a práve linuxové jadro (kernel) je základom OS Android. čítať »
 
DNS – kon­tro­la syn­tak­tic­kých zá­pi­sov a spus­te­nie sys­té­mu
V predošlej časti sme rozdelili našu sieť na vonkajšiu a vnútornú, vytvorili podľa toho dva pohľady (views) a nakoniec upravili konfiguračný súbor named.conf . Tým sme v podstate ukončili konfiguráciu DNS a dnes pristúpime k odladeniu a spusteniu nášho systému. čítať »
 
Le­no­vo Yoga Tab­let 10
Tento tablet rieši dva zásadné problémy, s ktorými sa stretávajú používatelia: ako s tabletom pohodlne pracovať bez dodatočného držiaka a ako s ním na batériu pracovať naozaj dlho. Používateľ s tabletom Yoga môže pracovať v troch režimoch - Hold, Tilt alebo Stand. čítať »
 
Koe­fi­cient kva­li­ty – účin­ný nás­troj na zvý­še­nie efek­ti­vi­ty
U nás vo firme sme čelili viacerým problémom, týkajúcim sa výkonu, kvality a vedenia vývojového oddelenia. Firma vnímala vývojársky tím ako jedno zo slabších oddelení a panoval všeobecný názor, že „devel" produkuje obrovské množstvo chýb a nestíha veci načas. čítať »
 
Kon­zul­tač­né služ­by v IT
Vo väčšine firiem nemožno zvládnuť rozvoj IT infraštruktúry na požadovanom stupni komplexnosti silami interných zamestnancov. Manažment si uvedomuje výhody investovania do externého poradenstva. čítať »
 
 
 
  Zdieľaj cez Facebook Zdieľaj cez Google+ Zdieľaj cez Twitter Zdieľaj cez LinkedIn Správy z RSS Správy na smartfóne Správy cez newsletter