Data, store og små: hvor er den virkelige verdien?

2026

Innholdsfortegnelse:

Hvordan Big Data brukes
Hvor er den virkelige verdien?
Noen ganger gir små data en større (og mindre kostbar) innvirkning

Big data er et teppeord som brukes til å referere til håndtering av store datamengder. Vi forstår alle at jo større datamengde, jo mer kompleks blir det. Tradisjonelle databaseløsninger klarer ofte ikke å håndtere store datamengder riktig på grunn av deres kompleksitet og størrelse. Derfor er det en utfordrende oppgave å håndtere store datamengder og trekke ut virkelig innsikt. Det samme "verdi" -konseptet gjelder også for små data.

Hvordan Big Data brukes

Konvensjonelle databaseløsninger basert på RDBMS-konseptet kan administrere transaksjonsdata veldig bra og brukes mye i forskjellige applikasjoner. Men når det gjelder håndtering av et stort sett med data (data som er arkivert og er i terabyte eller petabyte), mislykkes ofte disse databaseløsningene. Disse datasettene er for store, og for det meste passer de ikke inn i arkitekturen til tradisjonelle databaser. I disse dager har big data blitt en kostnadseffektiv tilnærming til å håndtere større datasett. Fra et organisatorisk synspunkt kan bruken av big data deles inn i følgende kategorier, der big data's reelle verdi ligger:

Analytisk bruk

Analytikere av big data har avslørt mange viktige skjulte aspekter ved data som er for kostbare å behandle. Hvis vi for eksempel må sjekke trendinteressen til studenter for et bestemt nytt emne, kan vi gjøre dette ved å analysere daglige fremmøtteopptegnelser og andre sosiale og geografiske fakta. Disse fakta er fanget opp i databasen. Hvis vi ikke får tilgang til disse dataene på en effektiv måte, kan vi ikke se resultatene.

Aktiver nye produkter

I den siste tiden har mange nye webbedrifter, som Facebook, begynt å bruke big data som en løsning for å lansere nye produkter. Vi vet alle hvor populær Facebook er - den har vellykket forberedt en høy ytelse brukeropplevelse ved bruk av big data.

Hvor er den virkelige verdien?

Ulike big data-løsninger er forskjellige i tilnærmingen de lagrer data i, men til slutt lagrer de alle data i en flat filstruktur. Generelt består Hadoop av filsystemet og noen abstraksjoner av operativsystemnivå. Dette inkluderer en MapReduce-motor og Hadoop Distribution File System (HDFS). En enkel Hadoop-klynge inkluderer en hovednode og flere arbeiderknuter. Hovednoden består av følgende:

Task Tracker
Jobbsporeren
Navn Node
Dataknute

Arbeidernoden består av følgende:

Task Tracker
Dataknute

Noen implementeringer har bare datanoden. Datanoden er det faktiske området der dataene ligger. HDFS lagrer store filer (i området terabyte til petabyte) fordelt på flere maskiner. Påliteligheten til data på hver node oppnås ved å gjenskape dataene på tvers av alle vertene. Dermed er dataene tilgjengelige selv når en av nodene er nede. Dette hjelper deg med å oppnå raskere svar mot spørsmål. Dette konseptet er veldig nyttig når det gjelder store applikasjoner som Facebook. Som bruker får vi svar på chat-forespørselen vår, for eksempel nesten umiddelbart. Tenk på et scenario der en bruker må vente lenge mens han chatter. Hvis meldingen og det påfølgende svaret ikke blir levert umiddelbart, hvor mange vil faktisk bruke disse chatteverktøyene?

Hvis dataene ikke blir kopiert på tvers av klyngene, vil det ikke være mulig å ha en tiltalende implementering. Hadoop distribuerer dataene på tvers av maskiner i en større klynge, og lagrer filer som en sekvens av blokker. Disse blokkene har samme størrelse bortsett fra den siste blokken. Størrelsen på blokken og replikasjonsfaktoren kan tilpasses etter behov. Filer i HDFS følger strengt en gang tilnærming og kan derfor bare skrives eller redigeres av en bruker om gangen. Avgjørelser angående replikering av blokker tas med navnet noden. Navneknuten mottar rapporter og pulsresponser fra hver av dataknodene. Pulssvarene sikrer tilgjengeligheten av den tilsvarende datanoden. Rapporten inneholder detaljene om blokkene på datanoden.

En annen implementering av store data, Cassandra, bruker også et lignende distribusjonskonsept. Cassandra distribuerer data basert på geografisk beliggenhet. I Cassandra blir derfor dataene segregerte basert på den geografiske plasseringen av databruken.

Noen ganger gir små data en større (og mindre kostbar) innvirkning

I henhold til Rufus Pollock fra Open Knowledge Foundation er det ikke noe poeng i å lage hype rundt big data mens små data fremdeles er stedet der den virkelige verdien ligger.

Som navnet antyder, er små data et sett med data målrettet fra et større sett med data. Små data har til hensikt å skifte fokus fra databruk, og de tar også sikte på å motvirke trenden med å bevege seg mot big data. Den lille datatilnærmingen hjelper deg med å samle inn data basert på spesifikke krav ved å bruke mindre krefter. Som et resultat er det den mer effektive forretningspraksisen mens du implementerer forretningsinformasjon.

I kjernen dreier begrepet små data seg om virksomheter som krever resultater som krever ytterligere handlinger. Disse resultatene må hentes raskt, og den påfølgende handlingen bør også utføres omgående. Dermed kan vi eliminere de typer systemer som vanligvis brukes i big data-analyse.

Generelt, hvis vi vurderer noen av de spesifikke systemene som er nødvendige for innsamling av big data, kan et selskap investere i å sette opp mye serverlagring, bruke sofistikerte high-end-servere og de nyeste data mining-applikasjonene for å håndtere forskjellige biter av data, inkludert datoer og tidspunkter for brukerhandlinger, demografisk informasjon og annen informasjon. Hele dette datasettet flytter til et sentralt datavarehus, der komplekse algoritmer brukes til å sortere og behandle dataene som skal vises i form av detaljerte rapporter.

Vi vet alle at disse løsningene har kommet mange virksomheter til gode med tanke på skalerbarhet og tilgjengelighet; det er organisasjoner som synes at å bruke disse tilnærmingene krever betydelig innsats. Det er også sant at i noen tilfeller oppnås lignende resultater ved bruk av en mindre robust data mining-strategi.

Små data gir organisasjoner en måte å slå seg tilbake fra en besettelse av de nyeste og nyeste teknologiene som støtter mer sofistikerte forretningsprosesser. Selskaper som reklamerer for små data, hevder at det er viktig fra forretningssynet å bruke ressursene sine på en effektiv måte, slik at overutgifter til teknologi i en viss grad kan unngås.

Vi har diskutert mye om big data og small data realities, men vi må forstå at valg av riktig plattform (big data eller small data) for riktig bruk er den viktigste delen av hele øvelsen. Og sannheten er at selv om big data kan gi mange fordeler, er det ikke alltid best.