Hjem Audio Hadoop-analyse: ikke så lett på tvers av flere datakilder

Hadoop-analyse: ikke så lett på tvers av flere datakilder

Innholdsfortegnelse:

Anonim

Hadoop er et flott sted å laste ned data for analysebehandling eller for å modellere større volumer av en enkelt datakilde som ikke er mulig med eksisterende systemer. Ettersom selskaper tar med data fra mange kilder til Hadoop, er det imidlertid en økende etterspørsel etter analyse av data på tvers av forskjellige kilder, noe som kan være ekstremt vanskelig å oppnå. Dette innlegget er det første i en tredelt serie som forklarer problemstillingene organisasjoner står overfor, når de prøver å analysere forskjellige datakilder og typer innen Hadoop, og hvordan de kan løse disse utfordringene. Dagens innlegg fokuserer på problemene som oppstår når du kombinerer flere interne kilder. De neste to innleggene forklarer hvorfor disse problemene øker i kompleksitet, når eksterne datakilder blir lagt til, og hvordan nye tilnærminger hjelper til med å løse dem.

Data fra forskjellige kilder som er vanskelig å koble til og kartlegge

Data fra forskjellige kilder har forskjellige strukturer som gjør det vanskelig å koble sammen og kartlegge datatyper sammen, til og med data fra interne kilder. Det kan være spesielt vanskelig å kombinere data hvis kunder har flere kontonummer eller en organisasjon har kjøpt eller fusjonert med andre selskaper. I løpet av de siste årene har noen organisasjoner forsøkt å bruke dataoppdagelse eller datavitenskapelige applikasjoner for å analysere data fra flere kilder som er lagret i Hadoop. Denne tilnærmingen er problematisk fordi den innebærer mye gjetting: brukere må bestemme hvilke utenlandske nøkler de skal bruke for å koble til forskjellige datakilder og gjøre antagelser når de lager overlegg for datamodeller. Disse gjetningene er vanskelige å teste og ofte feil når de brukes i målestokk, noe som fører til feil dataanalyse og mistillit til kildene.

Hadoop-eksperter forsøk på å slå sammen data sammen

Derfor har organisasjoner som ønsker å analysere data på tvers av datakilder, benyttet seg av å ansette Hadoop-eksperter for å lage tilpassede, kildespesifikke skript for å slå sammen datasett sammen. Disse Hadoop-ekspertene er vanligvis ikke dataintegrasjons- eller enhetsoppløsningseksperter, men de gjør det beste de kan for å imøtekomme organisasjonens umiddelbare behov. Disse ekspertene bruker vanligvis gris eller Java for å skrive harde og raske regler som bestemmer hvordan man kombinerer strukturerte data fra spesifikke kilder, for eksempel samsvarende poster basert på et kontonummer. Når et script for to kilder er skrevet, må det første skriptet kastes og et nytt manus designet for å kombinere tre spesifikke kilder, hvis en tredje kilde må legges til. Det samme skjer hvis en annen kilde legges til og så videre. Ikke bare er denne tilnærmingen ineffektiv, men den mislykkes også når den brukes i skala, håndterer kantsaker dårlig, kan resultere i et stort antall dupliserte poster, og slår ofte sammen mange poster som ikke bør kombineres.

Hadoop-analyse: ikke så lett på tvers av flere datakilder