Q:
Hvordan kan jeg lære å bruke Hadoop til å analysere big data?
EN:Apache-programvaresettet kjent som Hadoop blir en veldig populær ressurs for å håndtere store datasett. Denne typen programvare for datahåndteringsprogramvare ble bygget for å hjelpe til å samle data på spesifikke måter, basert på design som kan gjøre noen slags dataprosjekter mer effektive. Når det er sagt, er Hadoop bare ett av mange verktøy for å håndtere store datasett.
En av de første og mest grunnleggende måtene å lære om big data-analyse med Hadoop er å forstå noen av toppnivåkomponentene i Hadoop og hva den gjør. Disse inkluderer en Hadoop YARN "resource management platform" som kan brukes på visse typer nettverksoppsett, samt et Hadoop MapReduce sett med funksjoner som gjelder store datasett. Det er også et Hadoop distribuert filsystem (HDFS), som hjelper deg med å lagre data på tvers av distribuerte systemer, slik at de raskt og effektivt kan indekseres eller hentes.
Utover dette kan de som ønsker å bli mer kjent med Hadoop, se på individuelle publiserte ressurser for fagpersoner som forklarer programvaren på et relatabelt nivå. Dette eksemplet fra Chris Stucchio på en personlig blogg gir et utmerket sett med poeng om Hadoop og dataskala. En av de grunnleggende takeaways er at Hadoop kan brukes mer enn nødvendig, og kanskje ikke er den beste løsningen for et enkelt prosjekt. Gjennomgang av denne typen ressurser vil hjelpe fagfolk til å bli mer kjent med detaljene om å bruke Hadoop i et gitt scenario. Stucchio gir også metaforer for å relatere Hadoops funksjoner til spesifikke fysiske oppgaver. Her er eksemplet å telle antall bøker i et bibliotek, mens en Hadoop-funksjon kan dele dette biblioteket opp i seksjoner, og gi individuelle tellinger som er blandet i ett samlet dataresultat.
En mer dyptgående måte som fagfolk kan lære mer om Hadoop og dens anvendelse på big data er gjennom spesifikke treningsressurser og programmer. For eksempel har online læringsselskapet Cloudera, en fremtredende leverandør av eksterne opplæringsøkter, en rekke interessante alternativer rundt Hadoop-bruk og lignende typer datahåndtering.