Innholdsfortegnelse:
Definisjon - Hva betyr Apache Pig?
Apache Pig er en plattform som brukes til å analysere store datasett. Det består av et høyt nivå språk for å uttrykke dataanalyseprogrammer, sammen med infrastrukturen for å evaluere disse programmene. Et av de viktigste trekk ved Pig er at dens struktur reagerer på betydelig parallellisering.
Pig opererer på Hadoop-plattformen, skriver data til og leser data fra Hadoop Distribuert File System (HDFS) og utfører behandling ved hjelp av en eller flere MapReduce-jobber. Apache Pig er tilgjengelig som åpen kildekode.
Apache Pig er også kjent som Pig Programming Language eller Hadoop Pig.
Techopedia forklarer Apache Pig
Apache Pig har to deler: Latin gris og Pig engine. Pig Latin-språket er et skriptspråk som gjør det mulig for brukere å illustrere måten dataflyt fra en eller flere innganger må leses og behandles, og stedet der må lagres.
Noen av de viktigste egenskapene til Pig Latin er som følger:
- Lett å programmere: Intrikate oppgaver som består av forskjellige sammenkoblede datatransformasjoner er tydelig kodet som datastrømssekvenser. Dette gjør dem enkle å skrive, forstå og vedlikeholde.
- Optimaliseringsmuligheter: Måten oppgavene er kodet på, gjør at systemet kan optimalisere automatisk utførelse. Dette lar brukeren ta hensyn til semantikk i stedet for effektivitet.
- Utvidbarhet: Brukere har lov til å lage sine egne funksjoner for utførelse av spesielle formål. Pig-motoren er ansvarlig for utførelsen av dataflyten skrevet på Pig Latin. Akkurat som en standard relasjonsdatabasestyringssystem (RDBMS) -design, består Apache Pig av en parser, optimizer og typechecker, i tillegg til operatører som utfører databehandling. Gris inkluderer ikke transaksjoner, en datakatalog eller muligheten til direkte å håndtere datalagring eller bruke utførelsesrammen.
