Hva $ @! er hadoop?

2025

Innholdsfortegnelse:

Hvor kom Hadoop fra?
Hvordan fungerer Hadoop?
Hva gjør Hadoop?

Alle snakker om Hadoop, den varme nye teknologien som er høyt verdsatt blant utviklere og som kanskje forandrer verden (igjen). Men hva er det likevel? Er det et programmeringsspråk? En database? Et prosesseringssystem? En indisk te koselig?

Det brede svaret: Hadoop er alle disse tingene (bortsett fra te koselig), og mer. Det er et programvarebibliotek som gir et programmeringsrammeverk for billig, nyttig prosessering av et annet moderne buzzword: big data.

Hvor kom Hadoop fra?

Apache Hadoop er en del av Foundation Project fra Apache Software Foundation, en ideell organisasjon som har som oppgave å "tilby programvare for allmennheten." Som sådan er Hadoop-biblioteket gratis open source-programvare tilgjengelig for alle utviklere.

Den underliggende teknologien som styrker Hadoop ble faktisk oppfunnet av Google. På de første dagene trengte den ikke-gigantiske søkemotoren en måte å indeksere de enorme datamengdene de samlet inn fra Internett, og gjøre det til meningsfulle, relevante resultater for brukerne. Med ingenting tilgjengelig på markedet som kunne oppfylle kravene deres, bygde Google sin egen plattform.

Disse innovasjonene ble utgitt i et åpen kildekode-prosjekt kalt Nutch, som Hadoop senere brukte som grunnmur. I hovedsak bruker Hadoop kraften fra Google til big data på en måte som er overkommelig for selskaper i alle størrelser.

Hvordan fungerer Hadoop?

Som nevnt tidligere, Hadoop er ikke en ting - det er mange ting. Programvarebiblioteket som er Hadoop, består av fire primære deler (moduler), og en rekke tilleggsløsninger (som databaser og programmeringsspråk) som forbedrer dens virkelige bruk. De fire modulene er:

Hadoop Common: Dette er samlingen av fellesverktøy (det vanlige biblioteket) som støtter Hadoop-moduler.

Hadoop Distribuert filsystem (HDFS): Et robust distribuert filsystem uten begrensninger på lagrede data (noe som betyr at data kan være strukturert eller ustrukturert og skjematisk, der mange DFS-er bare vil lagre strukturerte data) som gir tilgang til høy gjennomstrømning med redundans ( HDFS gjør det mulig å lagre data på flere maskiner - så hvis en maskin feiler, opprettholdes tilgjengeligheten gjennom de andre maskinene).

Hadoop YARN: Dette rammeverket er ansvarlig for stillingsplanlegging og klynge ressursstyring; den sørger for at dataene er spredt tilstrekkelig over flere maskiner for å opprettholde redundans. YARN er modulen som gjør Hadoop til en rimelig og kostnadseffektiv måte å behandle big data på.

Hadoop MapReduce: Dette YARN-baserte systemet, bygget på Google-teknologi, utfører parallell behandling av store datasett (strukturert og ustrukturert). MapReduce kan også finnes i de fleste av dagens store databehandlingsrammer, inkludert MPP- og NoSQL-databaser.

Alle disse modulene jobber sammen genererer distribuert prosessering for store datasett. Hadoop-rammeverket bruker enkle programmeringsmodeller som er replikert på tvers av datamaskiner, noe som betyr at systemet kan skalere opp fra enkle servere til tusenvis av maskiner for økt prosessorkraft, i stedet for å stole på maskinvare alene.

Maskinvare som kan håndtere mengden prosessorkraft som kreves for å jobbe med store data, er mildt sagt dyr. Dette er den sanne innovasjonen av Hadoop: muligheten til å bryte ned enorme mengder prosessorkraft på flere, mindre maskiner, hver med sin egen lokaliserte beregning og lagring, sammen med innebygd redundans på applikasjonsnivå for å forhindre feil.

Hva gjør Hadoop?

Enkelt sagt gjør Hadoop big data tilgjengelig og brukbar for alle.

Før Hadoop gjorde selskaper som brukte big data det meste med relasjonsdatabaser og enterprise data warehouse (som bruker enorme mengder dyr maskinvare). Selv om disse verktøyene er flotte for å behandle strukturerte data - som er data som allerede er sortert og organisert på en håndterbar måte - var kapasiteten til å behandle ustrukturerte data ekstremt begrenset, så mye at de praktisk talt ikke eksisterte. For å være brukbare måtte data først struktureres slik at de passet pent inn i tabeller.

Hadoop-rammene endrer dette kravet, og gjør det billig. Med Hadoop kan enorme datamengder fra 10 til 100 gigabyte og over, både strukturert og ustrukturert, behandles ved hjelp av vanlige servere (vare).

Hadoop bringer potensielle big data applikasjoner for bedrifter i alle størrelser, i alle bransjer. Rammeverket med åpen kildekode gjør det mulig for finansbedrifter å lage sofistikerte modeller for porteføljeevaluering og risikoanalyse, eller online forhandlere for å finjustere søkesvarene sine og peke kunder mot produkter de mer sannsynlig vil kjøpe.

Med Hadoop er mulighetene virkelig ubegrensede.

Hva $ @! er hadoop?

Innholdsfortegnelse:

Hvor kom Hadoop fra?

Hvordan fungerer Hadoop?

Hva gjør Hadoop?

Redaktørens valg

Hva er en god praksis? - definisjon fra techopedia

Hva er sertifiseringsinstans (ca)? - definisjon fra techopedia

Hva er en biochip? - definisjon fra techopedia

Hva er et binært søk? - definisjon fra techopedia

Redaktørens valg

Hva er to-lags internett? - definisjon fra techopedia

Hva er retningsbestemt lyd? - definisjon fra techopedia

Hva er applikasjonsstrømming? - definisjon fra techopedia

Hva er bussnett? - definisjon fra techopedia

Redaktørens valg

Hva er retningsbestemmelser i c? - definisjon fra techopedia

Hva er disponere? - definisjon fra techopedia

Hva er tidlig binding? - definisjon fra techopedia

Hva er dllimport-attributtet? - definisjon fra techopedia

Redaktørens valg

Hva er en datastyringsplattform (dmp)? - definisjon fra techopedia

Hva er en sjef for erfaringssjef (cxo)? - definisjon fra techopedia

Hva er big data som en tjeneste (bdaas)? - definisjon fra techopedia

Hva er en fiberkanal arbitrert loop (fc-al)? - definisjon fra techopedia

Redaktørens valg

Hva er en anbefalingsmotor? - definisjon fra techopedia

Hva er bildefrekvens? - definisjon fra techopedia

Hva er redis? - definisjon fra techopedia

Hva er rotårsaksanalyse (rca)? - definisjon fra techopedia

Populære kategorier