Q:
Kan det noen gang være for mye data i big data?
EN:Svaret på spørsmålet er et rungende JA. Det kan absolutt være for mye data i et big data-prosjekt.
Det er mange måter dette kan skje, og forskjellige grunner til at fagpersoner trenger å begrense og sammenstille data på en rekke måter for å få riktige resultater. (Les 10 store myter om big data.)
Generelt snakker eksperter om å skille "signalet" fra "støyen" i en modell. Med andre ord, i et hav av big data blir relevante innsynsdata vanskelig å målrette. I noen tilfeller leter du etter en nål i en høystakk.
Anta for eksempel at et selskap prøver å bruke big data for å generere spesifikk innsikt i et segment av et kundegrunnlag, og deres kjøp over en bestemt tidsramme. (Les Hva gjør big data?)
Å ta inn en enorm mengde dataeiendeler kan føre til inntak av tilfeldige data som ikke er relevante, eller det kan til og med gi en skjevhet som skjevdataene i en eller annen retning.
Det bremser også prosessen dramatisk, da datasystemer må bryte med større og større datasett.
I så mange forskjellige typer prosjekter er det svært viktig for dataingeniører å samle dataene til begrensede og spesifikke datasett - i tilfellet over, ville det bare være dataene for det segmentet av kunder som studeres, bare dataene for den tiden ramme som studeres, og en tilnærming som luker ut ytterligere identifikatorer eller bakgrunnsinformasjon som kan forvirre ting eller bremse systemer. (ReadJob-rolle: Data Engineer.)
For mer, la oss se på hvordan dette fungerer i grensen til maskinlæring. (Les maskinlæring 101.)
Maskinlæringseksperter snakker om noe som kalles "overfitting" der en altfor kompleks modell fører til mindre effektive resultater når maskinlæringsprogrammet slås løs på nye produksjonsdata.
Overfitting skjer når et komplekst sett med datapunkter samsvarer med et opplæringssett for godt, og ikke lar programmet tilpasse seg til nye data.
Nå teknisk sett er overmontering ikke forårsaket av eksistensen av for mange dataprøver, men av kroningen av for mange datapunkter. Men du kan hevde at det å ha for mye data kan være en medvirkende årsak til denne typen problemer. Å håndtere dimensjonenes forbannelse innebærer noen av de samme teknikkene som ble gjort i tidligere big data-prosjekter da fagfolk prøvde å finne ut hva de mater IT-systemer.
Hovedpoenget er at big data kan være enormt nyttige for selskaper, eller det kan bli en stor utfordring. Et aspekt av dette er om selskapet har riktige data i spill. Eksperter vet at det ikke er tilrådelig å bare dumpe alle dataene i en hopper og komme med innsikt på den måten - i nye cloud-native og sofistikerte datasystemer er det et forsøk på å kontrollere og administrere og sammenstille data for å bli mer nøyaktig og effektiv bruk av data-eiendeler.