Hadoop-analyse: ikke så lett på tvers av flere datakilder

2025

Innholdsfortegnelse:

Data fra forskjellige kilder som er vanskelig å koble til og kartlegge
Hadoop-eksperter forsøk på å slå sammen data sammen

Hadoop er et flott sted å laste ned data for analysebehandling eller for å modellere større volumer av en enkelt datakilde som ikke er mulig med eksisterende systemer. Ettersom selskaper tar med data fra mange kilder til Hadoop, er det imidlertid en økende etterspørsel etter analyse av data på tvers av forskjellige kilder, noe som kan være ekstremt vanskelig å oppnå. Dette innlegget er det første i en tredelt serie som forklarer problemstillingene organisasjoner står overfor, når de prøver å analysere forskjellige datakilder og typer innen Hadoop, og hvordan de kan løse disse utfordringene. Dagens innlegg fokuserer på problemene som oppstår når du kombinerer flere interne kilder. De neste to innleggene forklarer hvorfor disse problemene øker i kompleksitet, når eksterne datakilder blir lagt til, og hvordan nye tilnærminger hjelper til med å løse dem.

Data fra forskjellige kilder som er vanskelig å koble til og kartlegge

Data fra forskjellige kilder har forskjellige strukturer som gjør det vanskelig å koble sammen og kartlegge datatyper sammen, til og med data fra interne kilder. Det kan være spesielt vanskelig å kombinere data hvis kunder har flere kontonummer eller en organisasjon har kjøpt eller fusjonert med andre selskaper. I løpet av de siste årene har noen organisasjoner forsøkt å bruke dataoppdagelse eller datavitenskapelige applikasjoner for å analysere data fra flere kilder som er lagret i Hadoop. Denne tilnærmingen er problematisk fordi den innebærer mye gjetting: brukere må bestemme hvilke utenlandske nøkler de skal bruke for å koble til forskjellige datakilder og gjøre antagelser når de lager overlegg for datamodeller. Disse gjetningene er vanskelige å teste og ofte feil når de brukes i målestokk, noe som fører til feil dataanalyse og mistillit til kildene.

Hadoop-eksperter forsøk på å slå sammen data sammen

Derfor har organisasjoner som ønsker å analysere data på tvers av datakilder, benyttet seg av å ansette Hadoop-eksperter for å lage tilpassede, kildespesifikke skript for å slå sammen datasett sammen. Disse Hadoop-ekspertene er vanligvis ikke dataintegrasjons- eller enhetsoppløsningseksperter, men de gjør det beste de kan for å imøtekomme organisasjonens umiddelbare behov. Disse ekspertene bruker vanligvis gris eller Java for å skrive harde og raske regler som bestemmer hvordan man kombinerer strukturerte data fra spesifikke kilder, for eksempel samsvarende poster basert på et kontonummer. Når et script for to kilder er skrevet, må det første skriptet kastes og et nytt manus designet for å kombinere tre spesifikke kilder, hvis en tredje kilde må legges til. Det samme skjer hvis en annen kilde legges til og så videre. Ikke bare er denne tilnærmingen ineffektiv, men den mislykkes også når den brukes i skala, håndterer kantsaker dårlig, kan resultere i et stort antall dupliserte poster, og slår ofte sammen mange poster som ikke bør kombineres.

Hadoop-analyse: ikke så lett på tvers av flere datakilder

Innholdsfortegnelse:

Data fra forskjellige kilder som er vanskelig å koble til og kartlegge

Hadoop-eksperter forsøk på å slå sammen data sammen

Nettbrett: hvorfor får ikke flere produsenter det riktig?

Vi spurte kvinner innen teknologi: hvorfor er det ikke flere av deg?

Hva er flere instruksjoner, flere data (mimd)? - definisjon fra techopedia

Redaktørens valg

Hva er programmerbart skrivebeskyttet minne (prom)? - definisjon fra techopedia

Hva er øyetiden hengetid? - definisjon fra techopedia

Hva er fremtidshemmelig https? - definisjon fra techopedia

Hva er en destinasjonsside? - definisjon fra techopedia

Redaktørens valg

Hva er azurblått stoffkontroll? - definisjon fra techopedia

Hva er azurblå tjenesteplattform? - definisjon fra techopedia

Hva er applikasjonsskala? - definisjon fra techopedia

Hva er cisco unified datasystem (cucs)? - definisjon fra techopedia

Redaktørens valg

Hva er et filhåndtak? - definisjon fra techopedia

Hva er skraping av data? - definisjon fra techopedia

Hva er 64-bit? - definisjon fra techopedia

Hva er esports? - definisjon fra techopedia

Redaktørens valg

Hva er en båndbredde hog? - definisjon fra techopedia

Hva er back-hack? - definisjon fra techopedia

Hva er en båndbreddeknuser? - definisjon fra techopedia

Hva er et bygningsnettverk (forbud)? - definisjon fra techopedia

Redaktørens valg

Hva er en virtuell ruter? - definisjon fra techopedia

Hva er et ubundet nettverkselement (une)? - definisjon fra techopedia

Hva er et nettstedfilter? - definisjon fra techopedia

Hva er en ubundet nettverkselementer-plattform (une-p)? - definisjon fra techopedia

Populære kategorier