Ako úspešne využiť deduplikáciu dát a na čo sa treba pýtať?

deduplication_data.jpg Po­dob­ne ako pri iných rie­še­niach spo­koj­nosť s na­sa­de­ním de­dup­li­ká­cie zá­vi­sí od ro­zum­né­ho zvá­že­nia po­trieb a vý­be­ru vhod­né­ho pro­duk­tu. Ten­to člá­nok sa za­me­ria­va na naj­dô­le­ži­tej­šie as­pek­ty, kto­ré tre­ba vziať do úva­hy pri vý­be­re.

Zjed­no­du­še­ne po­ve­da­né, de­dup­li­ká­cia dát, zná­ma aj pod náz­va­mi in­te­li­gen­tná kom­pre­sia, resp. sing­le-in­stan­ce da­ta sto­ra­ge, je od­stra­ňo­va­nie kó­pií iden­tic­kých blo­kov dát a ich nah­ra­dzo­va­nie jed­no­du­chý­mi re­fe­ren­cia­mi na je­di­ný blok, čím sa mô­že do­siah­nuť vý­znam­ná ús­po­ra dis­ko­vé­ho pries­to­ru či zní­že­nie za­ťa­že­nia sie­ťo­vej infra­štruk­tú­ry pri pre­no­se dát napr. po­čas zá­lo­ho­va­nia a ob­no­vy. Sche­ma­tic­ky tú­to ope­rá­ciu vy­jad­ru­je ob­rá­zok č. 1.

ded-Obrazok1.jpg

Obr. 1 Sche­ma­tic­ké zná­zor­ne­nie ús­po­ry dis­ko­vé­ho pries­to­ru do­siah­nu­tej de­dup­li­ká­ciou opa­ku­jú­cich sa blo­kov v dá­tach

Opod­stat­ne­nosť ta­ké­ho­to prís­tu­pu je mno­ho­ra­ká. Pred­stav­te si fi­rem­ný e-mai­lo­vý server. Ak niek­to poš­le svo­jim ko­le­gom e-mail s príl­ohou s veľ­kos­ťou 1 MB, zra­zu sa tá­to príl­oha ob­ja­ví v mai­lo­vých schrán­kach všet­kých ad­re­sá­tov a pries­tor na jej ucho­vá­va­nie bu­de prís­luš­ný ná­so­bok 1 MB. A te­raz si pred­stav­te ce­lo­fi­rem­né ko­mu­ni­ká­cie. Po­dob­nú si­tuáciu vy­tvá­ra vir­tua­li­zo­va­né pros­tre­die. Ope­rač­né sys­té­my mno­hých VM sú prak­tic­ky iden­tic­ké, mož­no s vý­nim­kou nie­koľ­kých men­ších zmien v kon­fi­gu­rač­ných sú­bo­roch a in­šta­lo­va­nom sof­tvé­ri. Z poh­ľa­du dis­ko­vé­ho pries­to­ru však sys­té­mo­vý disk VM pred­sta­vu­je je­den sú­bor. Zmys­lupl­ná de­dup­li­ká­cia pre­to mu­sí po­rov­ná­vať men­šie blo­ky dát, kto­ré sa ne­mu­sia ne­vyh­nut­ne zho­do­vať s ce­lý­mi sú­bor­mi. Zá­lo­ho­va­nie sys­té­mo­vých dis­kov ta­kých­to vir­tuál­nych ma­šín ty­pic­ky po­ve­die k hro­ma­de­niu veľ­ké­ho množ­stva dup­li­cit­ných dát, te­da k zby­toč­né­mu za­ťa­žo­va­niu sie­ťo­vej infra­štruk­tú­ry a veľ­kým nák­la­dom na se­kun­dár­ne zá­lož­né po­le.

Pos­tu­py de­dup­li­ká­cie dát preš­li rok­mi vý­vo­ja a do­zrie­va­nia. Dnes už prak­tic­ky kaž­dý vý­rob­ca dis­ko­vých po­lí a zá­lo­ho­va­cích rie­še­ní pos­ky­tu­je ne­ja­ké mož­nos­ti de­dup­li­ká­cie dát. Jed­not­li­vé al­go­rit­my sú však oby­čaj­ne uzav­re­té a vý­znam­ne sa od­li­šu­jú, čo pri­ná­ša ich rôz­nu pou­ži­teľ­nosť v kon­krét­nych sce­ná­roch. Pre­to tre­ba pred roz­hod­nu­tím sa pre kon­krét­ne rie­še­nie dôk­lad­ne zvá­žiť je­ho vlas­tnos­ti a vhod­nosť. Ob­jas­ní­me to na nie­koľ­kých poh­ľa­doch do me­cha­niz­mov de­dup­li­ká­cie.

Zá­klad­ný krok akej­koľ­vek de­dup­li­ká­cie je voľ­ba vhod­né­ho roz­de­le­nia dát na blo­ky, kto­ré sa bu­dú nás­led­ne po­rov­ná­vať. V naj­jed­no­duch­šom prí­pa­de to mô­žu byť pria­mo sú­bo­ry. Ten­to prís­tup sa bež­ne vy­uží­val pri zá­lo­ho­va­cích rie­še­nia a zvy­čaj­ne sa ozna­ču­je ter­mí­nom sing­le-in­stan­ce sto­ra­ge (SIS). Mo­der­nej­šie prís­tu­py vy­uží­va­jú men­šie blo­ky dát, kto­ré mô­žu vy­plý­vať pria­mo z di­zaj­nu úlo­žis­ka dát (ako napr. fixné 4 kB blo­ky sú­bo­ro­vé­ho sys­té­mu WAFL) ale­bo sú vy­tvá­ra­né po­hyb­li­vým adap­to­va­teľ­ným ok­nom, kto­ré dá­va pries­tor na hľa­da­nie op­ti­mál­ne­ho roz­de­le­nia dát, ale je zá­ro­veň naj­ná­roč­nej­šie na pro­ce­so­ro­vý čas.

Vzá­jom­né po­rov­ná­va­nie blo­kov dát sa ro­bí po­mo­cou ha­šo­va­cích kó­dov. Ten­to prís­tup umož­ňu­je ge­ne­ro­va­nie men­ších dá­to­vých štruk­túr vy­jad­ru­jú­cich va­ria­bi­li­tu pô­vod­ných blo­kov dát, čo zni­žu­je ná­ro­ky na vý­poč­to­vý vý­kon po­rov­ná­va­nia. Kaž­dá ha­šo­va­cia fun­kcia však má ur­či­tú prav­de­po­dob­nosť ge­ne­ro­va­nia iden­tic­ké­ho ha­šo­va­cie­ho kó­du pre dva rôz­ne blo­ky dát. Tá­to prav­de­po­dob­nosť kle­sá s na­ras­ta­jú­cou dĺžkou ha­šo­va­cie­ho kó­du, a te­da aj vý­poč­to­vou ná­roč­nos­ťou. Nik­dy však nie je nu­lo­vá. Niek­to­rí vý­rob­co­via mi­ni­ma­li­zu­jú mož­nosť poš­ko­de­nia dát de­dup­li­ká­ciou dvoj­stup­ňo­vým po­rov­ná­va­ním ha­šo­va­cích kó­dov. V pr­vom kro­ku sa vy­ge­ne­ru­jú jed­no­duch­šie kó­dy, na zá­kla­de kto­rých sa nás­led­ne po­rov­ná­va­jú dlh­šie ha­šo­va­cie kó­dy iba pri vy­bra­ných blo­koch dát. Ab­so­lút­nu zá­ru­ku za­cho­va­nia dát však mô­že pos­kyt­núť je­di­ne po­rov­na­nie blo­kov dát po bi­toch.

Po­rov­ná­va­nie blo­kov dát mož­no ro­biť me­tó­dou in-li­ne ale­bo post-pro­cess. Vý­ber prís­luš­nej me­tó­dy má vý­znam­ný do­sah na za­ťa­že­nie CPU za­ria­de­nia vy­ko­ná­va­jú­ce­ho de­dup­li­ká­ciu. Tre­ba pre­to zvá­žiť mož­nos­ti ak­tuál­nej infra­štruk­tú­ry. Väč­ši­na in-li­ne rie­še­ní vy­uží­va de­dup­li­ká­ciu zá­lo­ho­va­ných dát, kto­rá sa us­ku­toč­ňu­je pred ich ulo­že­ním na zá­lo­ho­va­com server­i. Ten­to prís­tup však ne­pos­ky­tu­je mož­nosť ús­po­ry mies­ta (nák­la­dov) na pri­már­nej pro­duk­čnej lo­ka­li­te.

ded-Obrazok2.jpg

Obr. 2 Od­had teo­re­tic­kej ús­po­ry dis­ko­vé­ho pries­to­ru pre rôz­ne ty­py dát na zá­kla­de šta­tis­tic­ké­ho po­me­ru zhod­ných blo­kov

Dô­le­ži­tý as­pekt da­né­ho rie­še­nia je aj schop­nosť de­dup­li­ko­vať pria­mo ulo­že­né dá­ta. V tom­to prí­pa­de pe­rio­dic­ký pro­ces kon­tro­lu­je ha­šo­va­cie kó­dy no­vých a zme­ne­ných sú­bo­rov. V tej­to sú­vis­los­ti roz­li­šu­je­me zdro­jo­vú de­dup­li­ká­ciu a cie­ľo­vú de­dup­li­ká­ciu. Zdro­jo­vá de­dup­li­ká­cia šet­rí mies­to pria­mo na pri­már­nej pro­duk­čnej lo­ka­li­te. Tre­ba sa však opý­tať, ako sa da­ný sys­tém za­cho­vá pri mo­di­fi­ko­va­ní de­dup­li­ko­va­né­ho sú­bo­ru. Mno­hí vý­rob­co­via pou­ží­va­jú prís­tup co­py-on-wri­te, kto­rý vy­ža­du­je do­da­toč­né dis­ko­vé ope­rá­cie v po­rov­na­ní s jed­no­du­chým pre­pi­som dát. Cie­ľo­vá de­dup­li­ká­cia zna­me­ná rie­še­nie im­ple­men­to­va­né na se­kun­dár­nom úlo­žis­ku, ty­pic­ky zá­lož­né po­le ale­bo rie­še­nie DR.

Na zá­ver mož­no uviesť, že de­dup­li­ká­cia je tech­no­ló­gia no­vej ge­ne­rá­cie IT rie­še­ní, kto­ré po­nú­ka­jú veľ­ké mož­nos­ti ús­po­ry nák­la­dov na dis­ko­vý pries­tor, ale aj skrá­te­nia zá­lo­ho­va­cích a ob­no­vo­va­cích ope­rá­cií (RTO, RPO). Tre­ba však sta­ros­tli­vo zhod­no­tiť mies­ta vo va­šej infra­štruk­tú­re, kde by ta­ký­to prí­nos bol zmys­lupl­ný, a vy­brať vhod­né rie­še­nie, kto­ré­ho pa­ra­met­re do­ká­žu us­po­ko­jiť va­še po­žia­dav­ky.

Sta­nis­lav Stra­šík, Sys­tems En­gi­neer, ALEF Dis­tri­bu­tion SK, s. r. o., e-mail: Sta­nis­lav.Stra­sik@alef.com

Zdroj: IW 3-4/2014



Ohodnoťte článok:
   
 

24 hodín

týždeň

mesiac

Najnovšie články

Bez­peč­nosť a dos­tup­nosť dát: Nie je cloud ako cloud
Či už poskytujete služby, alebo predávate tovar, ste malá či veľká spoločnosť, bezpečnosť a dostupnosť vašich dát je veľmi dôležitá, v niektorých prípadoch až kriticky dôležitá. Práve vo chvíli, keď si začnete klásť otázky na túto tému a začnete pátrať po riešeniach, objavíte čaro cloudu. čítať »
 
Tren­dy v pod­ni­ko­vých in­for­mač­ných sys­té­moch ERP v ro­ku 2014
Tento rok sa v oblasti podnikových informačných systémov ERP ponesie v znamení niekoľkých výrazných trendov. Zvýšená pozornosť sa bude venovať používateľskej prívetivosti a mobilite, pokračovať bude nárast popularity dvojvrstvovej stratégie ERP. čítať »
 
Cis­co Ca­ta­lyst 2960-X v pros­tre­dí SP
Požiadavky na triple-play služby s gigabitovými prístupovými rýchlosťami sa stávajú realitou, vyžadujú však investíciu do hardvéru prístupovej vrstvy. čítať »
 
Ako efek­tív­ne vy­uží­vať svo­je zdro­je
V poslednom čase sa stretávame s pojmom cloud čoraz častejšie a pred pár mesiacmi bolo na stránkach INFOWARE porovnanie globálnych poskytovateľov cloudových služieb. čítať »
 
 
 
  Zdieľaj cez Facebook Zdieľaj cez Google+ Zdieľaj cez Twitter Zdieľaj cez LinkedIn Správy z RSS Správy na smartfóne Správy cez newsletter