Hjem trender Hvordan hadoop er med på å løse big data-problemet

Hvordan hadoop er med på å løse big data-problemet

Innholdsfortegnelse:

Anonim

Big data er … vel … stor i størrelse! Nøyaktig hvor mye data som kan klassifiseres som big data er ikke veldig tydelig, så la oss ikke feste deg fast i den debatten. For et lite selskap som er vant til å håndtere data i gigabyte, ville 10 TB data være STOR. For selskaper som Facebook og Yahoo er petabytes imidlertid store.


Bare på størrelse med store data, gjør det umulig (eller i det minste kostnadsforbudende) å lagre dem i tradisjonell lagring som databaser eller vanlige filere. Vi snakker om kostnader for å lagre gigabyte med data. Å bruke tradisjonelle lagringsfilere kan koste mye penger å lagre store data.


Her skal vi se på big data, utfordringene og hvordan Hadoop kan bidra til å løse dem. Først opp, store datas største utfordringer.


Big Data er ustrukturert eller halvstrukturert

Mye big data er ustrukturert. For eksempel kan data fra klikkstrømloggen se ut:


tidsstempel, bruker_id, side, henvisning_side


Mangel på struktur gjør at relasjonsdatabaser ikke er godt egnet til å lagre store data. I tillegg kan ikke mange databaser takle lagring av milliarder av rader med data.

Det er ingen vits i å lagre store data hvis vi ikke kan behandle dem

Lagring av big data er en del av spillet. Vi må behandle den for å utvinne intelligensen ut av den. Tradisjonelle lagringssystemer er ganske "stumme" i den forstand at de bare lagrer biter. De tilbyr ingen prosessorkraft.


Den tradisjonelle databehandlingsmodellen har data lagret i en lagringsklynge, som blir kopiert over til en beregningsklynge for behandling. Resultatene blir skrevet tilbake til lagringsklyngen.


Denne modellen fungerer imidlertid ikke helt for big data fordi det kan være for tidkrevende eller umulig å kopiere så mye data ut til en kalkulator. Så hva er svaret?


En løsning er å behandle big data på plass, for eksempel i en lagringsklynge som fungerer som en beregnet klynge.


Så som vi har sett ovenfor, trosser big data tradisjonell lagring. Så hvordan håndterer vi big data?

Hvordan Hadoop løser Big Data-problemet

Hadoop er bygget for å kjøre på en klynge av maskiner

La oss starte med et eksempel. La oss si at vi trenger å lagre mange bilder. Vi starter med en enkelt disk. Når vi overskrider en enkelt disk, kan det hende vi bruker noen få disker som er stablet på en maskin. Når vi maksimerer ut alle diskene på en enkelt maskin, må vi skaffe en haug med maskiner, hver med en haug med disker.


Dette er nøyaktig hvordan Hadoop er bygget. Hadoop er designet for å kjøre på en klynge maskiner fra start.



Hadoop-klynger skalerer horisontalt

Mer lagring og beregningskraft kan oppnås ved å legge til flere noder i en Hadoop-klynge. Dette eliminerer behovet for å kjøpe mer og kraftigere og dyrere maskinvare.


Hadoop kan håndtere ustrukturerte / semistrukturerte data

Hadoop håndhever ikke et skjema for dataene den lagrer. Den kan håndtere vilkårlige tekst og binære data. Så Hadoop kan fordøye alle ustrukturerte data enkelt.


Hadoop-klynger gir lagring og databehandling

Vi så hvordan det å ha separate lagrings- og prosessklynger ikke passer best for big data. Hadoop-klynger gir imidlertid lagring og distribuert databehandling alt i ett.

Business Case for Hadoop

Hadoop gir lagring for store data til rimelige priser

Det kan være dyrt å lagre store data ved bruk av tradisjonell lagring. Hadoop er bygd rundt råvaremaskinvare, slik at den kan gi ganske stor lagring til en rimelig pris. Hadoop har blitt brukt i feltet i petabyte skala.


En studie av Cloudera antydet at foretak vanligvis bruker rundt 25 000 til 50 000 dollar per terabyte per år. Med Hadoop synker denne prisen til noen tusen dollar per terabyte per år. Etter hvert som maskinvare blir billigere og billigere, fortsetter disse kostnadene å synke.


Hadoop gir mulighet for innhenting av nye eller flere data

Noen ganger fanger ikke organisasjoner en type data fordi det var for kostbart å lagre dem. Siden Hadoop gir lagring til en fornuftig pris, kan denne typen data fanges opp og lagres.


Et eksempel kan være klikklogger på nettstedet. Fordi volumet av disse loggene kan være veldig høyt, fanget ikke mange organisasjoner disse. Nå med Hadoop er det mulig å fange og lagre loggene.


Med Hadoop kan du lagre data lenger

For å administrere volumet av lagrede data, renser selskaper med jevne mellomrom eldre data. For eksempel var det bare logger de siste tre månedene som kunne lagres, mens eldre logger ble slettet. Med Hadoop er det mulig å lagre de historiske dataene lenger. Dette gjør at ny analyse kan gjøres på eldre historiske data.


Ta for eksempel klikklogger fra et nettsted. For noen år siden ble disse loggene lagret i en kort periode for å beregne statistikk som populære sider. Nå med Hadoop er det mulig å lagre disse klikkloggene over lengre tid.


Hadoop gir skalerbar analyse

Det er ikke noe poeng i å lagre alle disse dataene hvis vi ikke kan analysere dem. Hadoop gir ikke bare distribuert lagring, men også distribuert behandling, noe som betyr at vi kan knuse et stort volum data parallelt. Det beregnede rammeverket til Hadoop kalles MapReduce. MapReduce har blitt bevist etter omfanget av petabytes.


Hadoop gir rik analyse

Native MapReduce støtter Java som et primært programmeringsspråk. Andre språk som Ruby, Python og R kan også brukes.


Å skrive egendefinert MapReduce-kode er selvfølgelig ikke den eneste måten å analysere data i Hadoop. Kartnedsettelse på høyere nivå er tilgjengelig. For eksempel tar et verktøy som heter Pig engelsk som datastrømsspråk og oversetter dem til MapReduce. Et annet verktøy, Hive, tar SQL-spørringer og kjører dem ved hjelp av MapReduce.


Business intelligence-verktøy (BI) kan gi enda høyere analysenivå. Det er verktøy for denne typen analyser også.


Dette innholdet er hentet fra "Hadoop Illuminated" av Mark Kerzner og Sujee Maniyam. Det er gjort tilgjengelig via Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

Hvordan hadoop er med på å løse big data-problemet