Hjem trender Hvordan kan eksisterende datalagermiljøer best skaleres for å imøtekomme behovene til big data-analyse?

Hvordan kan eksisterende datalagermiljøer best skaleres for å imøtekomme behovene til big data-analyse?

Anonim

Q:

Hvordan kan eksisterende datalagermiljøer best skaleres for å imøtekomme behovene til big data-analyse?

EN:

Individuelle datavarehusprosjekter må vurderes fra sak til sak. Generelt sett er det en kjerneprosess for å finne ut hva som må gjøres når vi prøver å utvide en eksisterende datavarehusdesign for å håndtere big data-analyse. IT-fagfolk kan kalle dette "skalering opp" eller "skalering ut."

Webinar: Big Iron, Meet Big Data: Liberating Mainframe Data with Hadoop & Spark

Registrer her

Skalering innebærer generelt å se på å få tilstrekkelig prosessorkraft, få en tilstrekkelig mengde minne og imøtekomme kraftigere serveraktiviteter for å håndtere alle større datasett som virksomheten vil behandle. I motsetning til det, kan skalering ut innebære å samle klynger med serverhardware og nettverke dem sammen for å korrigere big data.

Noen IT-eksperter har antydet at den vanligste metoden med Apache Hadoop og andre populære big data-verktøy og plattformer er å skalere ut og klynge maskinvare for å oppnå de ønskede effektene. Andre påpeker imidlertid at med dagens teknologi kan et datavarehus skalere opp ved hjelp av en anskaffelsesstrategi som tilfører ressurser til en server, for eksempel ved å få et større antall prosesseringskjerner sammen med en større mengde RAM.

Uansett om de skalerer opp eller skalerer ut, trenger datavarehus ytterligere fysiske maskinvareeiendeler for å kunne håndtere større arbeidsmengder. De trenger også ekstra menneskelig administrasjon, noe som betyr mer trening for interne team. Mye planlegging må ut i prosjektet for å bestemme hva slags stress og press de større dataarbeidene vil ha på et eksisterende legacy-system for å skreddersy det til et nytt big data-økosystem. Et stort problem er lagring av flaskehalser, som krever oppgradering til lagringssentre og andre typer flaskehalser som kan hobbe et begynnende system hvis ikke de ikke blir adressert.

Hvordan kan eksisterende datalagermiljøer best skaleres for å imøtekomme behovene til big data-analyse?