marți, 14 octombrie 2014

Cat de mult inseamna Big Data?

Există în această perioadă o controversă destul de mare la adresa subiectului „big data”. Asemenea tuturor tehnologiilor aflate la început, valoarea reprezintă o mare necunoscută. În timp ce unii sunt dispuși să acorde valori astronomice, alții pur și simplu ignoră subiectul. 

De ce e atât de important subiectul e limpede. Companii precum Google, Amazon, Facebook Twitter s.a.m.d. au depozite imense de date. O mare parte din activitatea lor(dacă nu cumva toată) este dependentă de aceste depozite. Și-atunci, totuși, cum le evaluăm? Mai mult, având în vedere creșterea exponențială a informațiilor din aceste depozite, putem deduce că în același mod crește și valoarea companiilor respective?

Să începem totuși cu începutul și să înțelegem „cu ce se mănâncă” big data. Un exemplu furnizat de Financial Times mi se pare destul de ilustrativ atât pentru a înțelege domeniul, cât și pentru posibilele aplicații. În SUA, companiile obligă viitorii angajați să facă teste de urină pentru detectarea drogurilor. Cei care au acces la cifrele de vânzări ale companiilor producătoare de teste anti-drog pot, practic în timp real, să identifice dinamica pieței muncii din SUA. Piața muncii e un barometru excelent al economiei și, acționând înainte de publicarea datelor oficiale, poți beneficia de avantaje imense. 

După cum se observă, big data nu este un subiect direct legat de marile companii tehnologice ale prezentului. Subiectul este deja prezent în viața noastră. Hypermarket-urile au depozite imense de date din care pot fi extrase informații referitoare la preferințele publicului. Ei utilizează aceste date pentru a-și optimiza stocurile. Algoritmi inteligenți fac „forecasting”(prognoză) asupra cererilor viitoare și, în acest fel, evită pierderi cauzate de sub sau supra aprovizionare.

Discuția este lungă, exemplele la tot pasul, însă, ceea ce ne interesează cu adevărat este valoarea reală a acestor informații. Dacă ele au valoare, atunci companiilor listate li se poate ajusta valoarea și în funcție de (in)existența acestui parametru. 

The Second Machine Age”, cartea profesorilor Erik Brynjolfsson și Andrew McAfee  poate fi considerată un antidot al pesimismului. Cei doi autori privesc extrem de optimist viitorul, tocmai prin prisma subiectului în cauză. Creșterea exponențială a tehnologiei, a dispozitivelor și a cantității de informații este văzută de aceștia ca o oportunitate extraordinară care încă nu este valorificată corect de către piață. Mai mult, ei compară revoluția digitală cu alte invenții care au schimbat radical modul de viață al oamenilor precum electricitatea sau motorul cu aburi. 

Trecând peste optimismul excesiv, personal cred că, pentru a putea aprecia corect, ar trebui să vedem care sunt aplicabilitățile imediate ale tehnologiilor în cauză. Într-adevăr, exemplele par concludente, dar ar fi cazul să înțelegem dacă un hypermarket vinde într-adevăr mai mult acum decât în urmă cu 20-30 de ani. Sau dacă Amazon și-a crescut vânzările ca urmare a unei strategii „big data” sau datorită creșterii gamei de mărfuri din magazin. Și ar mai fi o întrebare destul de interesantă: ce valoare au datele vechi și cât costă menținerea lor. Majoritatea exemplelor din big-data operează pe seturi de date recente, foarte puține extinzându-se la mai mult de 1-2 ani. Pot avea azi vreo relevanță(în termen de business) cele mai căutate expresii din anul 2000? Sau paginile cu cele mai multe like-uri de acum trei ani? Chiar dacă răspunsul este afirmativ, cred că păstrarea lor(care devine cumva obligatorie odată ce au fost colectate) vine cu costuri pe măsură. 

Personal, fără a mă situa într-o tabără, am câteva observații. În primul rând, în ceea ce privește puterea de calcul, legea lui Moore nu mai este de actualitate. Producătorii de microprocesoare par a fi atins limitele tehnologiei, primordiale devenind alte aspecte, precum optimizarea consumului de energie electrică sau a setului de instrucțiuni. Interesant e că această plafonare a tehnologiei nu atrage după sine o îngreunare a „mineritului” prin diversele depozite de date. Cu alte cuvinte, creșterea exponențială a datelor colectate nu este împiedicată de stagnarea tehnologică. Din contră, universalizarea dispozitivelor mobile atrage după sine o nouă avalanșă de date alături de noi dimensiuni ale parametrilor(spre exemplu, elementele de localizare reprezintă o nouă dimensiune adăugată parametrilor interogabili). 

Dacă am compara dimensiunea datelor colectate la începuturile companiei Google și le-am raporta la numărul de utilizatori și numărul de servicii oferite de companie am fi în fața unei valori infime față de prezent. Nu am date care să susțină afirmația anterioară, este doar o ipoteză de-a mea bazată pe capacitățile tehnologice de-atunci. În aceste condiții rezultă că eforturile de menținere a unui client au crescut ca urmare a utilizării strategiilor amintite. Cum efort înseamnă costuri rezultă că, în ciuda optimizării promise, big data, în sine, este o cheltuială și una care nu poate fi ignorată. 

Imediat după acest raționament vine întrebarea fundamentală: mai poți supraviețui pe piață fără big data? Dacă răspunsul este negativ, revenim la prima parte a articolului și suntem obligați să ne întrebăm asupra cantității de date pe care trebuie să o achiziționezi. Cantitate atât ca dimensiune temporală, cât și ca granularitate. Și, desigur, ne punem întrebarea asupra costurilor, adică asupra valorii acelor date.

Discuția e lungă și, cred eu, fără răspuns. Pe vremea când eu spuneam că Facebook e o formă fără fond, o companie fără valoare(lucru pe care-l consider în continuare), Aswath Damodaran observa că în ceea ce privește rețelele sociale, indicatorul folosit de piață pentru evaluarea afacerii este numărul de utilizatori. Cu toate că nu sunt de acord cu această evaluare - considerând-o rudimentară - piața i-a dat dreptate lui Damodaran: Facebook aproape și-a dublat prețul. Ceea ce vreau să subliniez aici e faptul că un individ inteligent are posibilitatea să găsească parametri sustenabili fără a strânge depozite imense de date.  Nu-mi dau seama dacă vreunul din fondurile de investiții care-și bazează puternic cercetările pe depozitele de date a reușit să intuiască o asemenea evoluție. E o întrebare.

Concluziile articolului de față sunt mai degrabă nebuloase. Personal prefer să mă uit și la costurile asociate tehnologiei actuale și să nu sar cu capul în perete. Aceasta nu exclude posibilitatea ca eu să greșesc. Însă, ca orice tehnologie, și aceasta va avea(sau are) un apogeu și, în general, e bine să te uiți cu atenție la ceea ce cumperi. Deja sunt fonduri de investiții care achiziționează cu fervoare date sperând într-o apreciere a valorii lor. Chiar dacă aș putea avea de pierdut în termeni de profit viitor, prefer să rămân cu picioarele pe pământ și să înțeleg mai întâi ceea ce cumpăr. A achiziționa date(generic) e ca și cum ai achiziționa irațional mașini fără a te interesa vechimea, marca sau starea de funcționare. 

N-ar trebui să uităm că avem o mare necunoscută în ceea ce privește subiectul de față: aplicabilitatea. Desigur, în față sunt scoase exemplele relevante. Întrebarea care se pune este aceea legată de numărul eșecurilor rezultate din strategii greșite. Neînțelegerea datelor de intrare se poate transforma într-un dezastru. Și, de cele mai multe ori, analizele se bazează pe ipoteze cu un grad incert de adevăr. Și, în aceste condiții, este posibil ca mulți dintre „savanții” din spatele big data să fie în realitate niște astrologi ratați. E o ipoteză!

Un comentariu:

  1. @Dan: intr-o prima faza, conceptul "Big Data" a esuat ca si new big thing, motiv pentru care IoT (Internet of Thing) este atat de promovat astazi; se spera ca acesta va relansa Big Data prin oferirea posibilitatii de captare si prelucrare a unui volum infinit mai mare de date de la tot felul de devices.

    RăspundețiȘtergere