Big data otvárajú cestu sumarizácii a triedeniu e-mailov

Den­ne sa na sve­te poš­le viac ako 150 mi­liárd e-mai­lo­vých správ zo zhru­ba 3,5 mi­liar­dy úč­tov. Kaž­dý z nás je tak prav­de­po­dob­ne za­hl­te­ný rôz­ne dô­le­ži­tý­mi sprá­va­mi a me­dzi ni­mi sa mô­žu ľah­ko stra­tiť tie naj­dô­le­ži­tej­šie. To mô­že byť kri­tic­ké naj­mä u pra­cov­ní­kov na naj­vyš­ších po­zí­ciách a e-mail v ta­kých­to prí­pa­doch ne­mož­né po­va­žo­vať za spo­ľah­li­vú ces­tu k pre­no­su in­for­má­cií.

Tím iz­rael­ských ved­cov však pra­cu­je na rie­še­ní toh­to prob­lé­mu za vy­uži­tia tech­no­ló­gií big da­ta, kto­rý­mi sa sna­ží e-mai­ly nie­len roz­trie­diť pod­ľa ich dô­le­ži­tos­ti, ale aj su­ma­ri­zo­vať tak, aby si ich prí­jem­ca mo­hol ove­ľa rých­lej­šie pre­hliad­nuť, čo sa ho­dí naj­mä na mo­bil­ných prís­tro­joch. Pro­jekt, na kto­rom sa pra­cu­je na uni­ver­zi­te v iz­rael­skej Be'er - She­va, je za­me­ra­ný na al­go­rit­mic­kú su­ma­ri­zá­ciu blo­kov textu a iden­ti­fi­ká­ciu naj­dô­le­ži­tej­ších ele­men­tov. Ma­lo by tak vznik­núť aké­si „pre­view", kto­ré na pr­vý poh­ľad umož­ní ad­re­sá­to­vi iden­ti­fi­ko­vať ob­sah a dô­le­ži­tosť. Ide o to, zre­du­ko­vať dl­hé e-mai­ly zhru­ba na 100 - 200 slov pri za­cho­va­ní to­ho naj­dô­le­ži­tej­šie­ho.

V tvor­be zhr­nu­tia je bu­dúc­nosť

Vy­uží­va­né sú na to prá­ve nás­tro­je na prá­cu s veľ­ký­mi ob­je­ma­mi dát a s prís­luš­ný­mi ana­lý­za­mi. V tí­me sú exper­ti, kto­rí s po­dob­ný­mi al­go­rit­ma­mi pra­cu­jú už od čias, keď eš­te buzzword big da­ta ani neexis­to­val a ho­vo­ri­lo sa naj­mä o web-mi­nin­gu a text-mi­nin­gu.

Pro­jekt, kto­rý by mal byť schop­ný vy­hod­no­co­vať a trie­diť e-mai­ly s ur­či­tou úrov­ňou in­te­li­gen­cie, by bo­lo mož­né vy­užiť aj na boj pro­ti zlo­či­nu. Na inter­ne­te sú de­siat­ky ti­síc zlo­či­nec­kých a te­ro­ris­tic­kých or­ga­ni­zá­cií, kto­ré svo­ju ko­mu­ni­ká­ciu viac či me­nej účin­ne mas­ku­jú. Pro­jekt po­čí­ta s tým, že by de­te­go­val ur­či­té frá­zy, pod­ľa kto­rých by mo­hol auto­ma­tic­ky upo­zor­ňo­vať na prí­pad­nú ko­mu­ni­ká­ciu tých­to sku­pín.

Ta­kis­to je mož­nosť su­ma­ri­zá­cie uži­toč­ná naj­mä pre agen­tú­ry, kto­ré mu­sia sle­do­vať veľ­ké množ­stvo zdro­jov in­for­má­cií, tak­že schop­nosť zmys­lupl­ne zhr­núť aký­koľ­vek text do 100-200 slov mô­že pri­niesť vý­raz­nú ús­po­ru ča­su nie­len ma­na­žé­rom spo­mí­na­ným v úvo­de. Hlav­nou vý­zvou je do­ká­zať roz­lí­šiť, čo mož­no v texte ig­no­ro­vať a čo má vý­znam, pre­to­že to sa mô­že lí­šiť od kon­krét­ne­ho kon­textu a ne­dá sa to vždy pau­ša­li­zo­vať.

Ot­vá­ra sa znač­ný po­ten­ciál

Pro­jekt v sú­čas­nos­ti pra­cu­je s texta­mi pí­sa­ný­mi v an­glič­ti­ne, pre­to­že sú­čas­ný web je pri­már­ne an­glic­ký a exis­tu­jú už po­mer­ne vý­kon­né nás­tro­je schop­né pre­viesť ľu­bo­voľ­ný ja­zyk do an­glič­ti­ny v ro­zum­nej po­do­be. No roz­pra­co­va­né sú aj ďal­šie ja­zy­ky, spo­je­né s geog­ra­fic­kým mies­tom vý­vo­ja, ako sú heb­rej­či­na a arab­či­na, a teo­re­tic­ky by ma­lo byť mož­né pri dos­ta­toč­nom poč­te vzo­riek su­ma­ri­zo­vať text v ľu­bo­voľ­nom ja­zy­ku.

Al­go­rit­mus kon­krét­ne ske­nu­je ve­ty a naj­prv po­čí­ta met­ri­ky, ako sú poč­ty slov a vzťa­hy me­dzi slo­va­mi vo ve­te. Nás­led­ne ve­tám pri­de­lí vá­hu a sna­ží sa ur­či­te tie dô­le­ži­tej­šie. Al­go­rit­mus be­rie do úva­hy aj zhr­nu­tia vy­tvo­re­né ľuď­mi a po­ze­rá sa na for­mu pou­ží­va­ných slov a fráz, čo mu má po­môcť v auto­ma­tic­kej su­ma­ri­zá­cii textov.

Ke­by sa tech­no­ló­gia, kto­rá sa tes­tu­je za­tiaľ len na aka­de­mic­kej pô­de, os­ved­či­la, ne­mož­no vy­lú­čiť, že by sa čos­ko­ro moh­la dos­tať aj do ko­mer­čné­ho na­sa­de­nia a ob­ja­viť sa v bež­ných e-mai­lo­vých služ­bách. Tie os­tat­ne už nie­koľ­ko ro­kov za­ží­va­jú ino­vač­né vá­kuum, pre­to­že ich pos­ky­to­va­te­lia ne­ma­jú veľ­mi čo zlep­šo­vať. Na me­tó­du su­ma­ri­zá­cie textu už ved­ci po­da­li pa­ten­to­vú prih­láš­ku a plá­nu­jú ju li­cen­co­vať ko­mer­čným or­ga­ni­zá­ciám, ak o ňu pre­ja­via zá­ujem.

Ne­mož­no ani vy­lú­čiť, že na po­dob­ných al­go­rit­moch pra­cu­jú aj ta­ké fir­my ako Goog­le, ale je jas­né, že tie si chcú svo­je ús­pe­chy ne­chať pod po­kriev­kou. Nap­rík­lad Yahoo už ten­to rok v mar­ci kú­pi­lo tech­no­ló­giu na su­ma­ri­zá­ciu textov od iných vý­vo­já­rov, čo zna­čí, že je o tú­to fun­kciu zá­ujem, a pre­to mož­no pred­pok­la­dať, že sa jej naj­skôr doč­ká­me v Yahoo Mai­le. Všeo­bec­ne bu­de v tých­to nás­tro­joch stá­le čo zdo­ko­na­ľo­vať, ko­men­tá­to­ri sa však zho­du­jú v tom, že auto­ma­tic­ká tvor­ba zhr­nu­tia textov má v dneš­nom sve­te pl­nom in­for­má­cií svo­je dô­le­ži­té mies­to.

Zdroj: ICT ma­na­žer


Ohodnoťte článok:
   
 

24 hodín

týždeň

mesiac

Najnovšie články

Ob­le­če­nie s aero­gé­lom vás ochrá­ni pred extrém­ne níz­ky­mi tep­lo­ta­mi. Aj -200 °C
Patríte k milovníkom zimných športov, ktorých od vykonávania obľúbenej činnosti neodradí ani drsné počasie? Potom vás istotne zaujme nový druh oblečenia, vybavený špeciálnou aerogélovou vrstvou. čítať »
 
GoP­ro uká­zal ďal­šie úžas­né vi­deo na­to­če­né je­ho no­vým dro­nom Kar­ma
Spoločnosť GoPro vydala video so zábermi zachytenými pomocou jej ohláseného nového dronu Karma. Americký freestylový lyžiar Bobby Brown a jeho priatelia ho vyskúšali v Aspene v Colorade. čítať »
 
Kin­gston zís­ka­va ak­vi­zí­ciou tech­no­ló­gie USB a ak­tí­va Iron­Key
Kingston Digital, Inc., dcérska spoločnosť Kingston Technology Company, Inc., najväčšieho nezávislého výrobcu pamäťových produktov na svete, oznámila, že akvizíciou získala technológie USB a aktíva spoločnosti IronKey zo skupiny Imation Corp. (NYSE: IMN). čítať »
 
Goog­le Car­dboard sa pre­me­ní na čo­si so­fis­ti­ko­va­nej­šie
Ak ste doteraz nad virtuálnou realitou v podobe kartónovej škatule Google Cardboard iba posmešne krútili hlavou, možno vás poteší správa, že spoločnosť plánuje na poli virtuality urobiť ďalší krok. čítať »
 
Po­zor na vý­ber káb­la USB-C. Nes­práv­ny to­tiž mô­že zni­čiť va­še za­ria­de­nie
Jedna z najväčších technologických noviniek uplynulého roka bol konektor USB Type-C. Prináša totiž prísľub, že sa môže stať jedinou vecou, ktorú použijeme na pripojenie našich zariadení, počnúc od monitorov cez telefóny až po počítače. čítať »
 
Fu­jit­su us­ku­toč­ni­lo bez­drô­to­vý pre­nos re­kor­dnou rých­los­ťou 56 Gb/s
Spoločnosť Fujitsu a Tokijský technologický inštitút dosiahli spojeným úsilím nový rekord v rýchlosti bezdrôtového prenosu. čítať »
 
No­vý mo­dem NA­SA bu­de pre­ná­šať dá­ta 100-krát rých­lej­šie než rá­dio­vé sig­ná­ly
NASA v rámci projektu Laser Communications Relay Demonstration (LCRD) vyvíja prvý modem, ktorý bude obsahovať optickú technológiu, umožňujúcu výrazne rýchlejšiu komunikáciu medzi kozmickou loďou a pozemnou stanicou. čítať »
 
Vi­deo s oku­liar­mi Ho­lo­Lens: tak­to bu­de­me sle­do­vať špor­to­vé zá­pa­sy
Cez víkend mali Američania veľký sviatok. V nedeľu sa na kalifornskom štadióne uskutočnilo finále jubilejného 50. Super Bowlu. čítať »
 
 
 
  Zdieľaj cez Facebook Zdieľaj cez Google+ Zdieľaj cez Twitter Zdieľaj cez LinkedIn Správy z RSS Správy na smartfóne Správy cez newsletter