Innholdsfortegnelse:
Definisjon - Hva betyr Apache Avro?
Apache Avro er en dataserialiserings- og ekstern prosedyresamtaleramme som er utviklet innen Apache Hadoop-prosjektet, der den gir både et serialiseringsformat for å få vedvarende data og et trådformat for å gi kommunikasjon mellom Hadoop-noder, samt koble klientprogrammer til Hadoop tjenester.
Avro bruker JSON-formatet for å definere protokoller og datatyper, i tillegg til å serialisere data til et kompakt binært format.
Techopedia forklarer Apache Avro
Apache Avro er et rammeverk for stor dataserialisering som produserer data i et kompakt binært format som ikke krever kodegenerering eller proxy-objekter.
Den brukes som en dataserialiseringskomponent for Apache Hadoop. Avro jobber med konseptet med skjemaer. Når Avro-data blir lest, er skjemaet som ble brukt under skrivingen av de spesifikke dataene alltid til stede.
Dette tillater hvert datasett uten per-verdi-kostnader, noe som gjør serienummeringen både rask og relativt liten i størrelse. Og siden data og skjemaet deres er fullstendig selvbeskrivende, gjør dette det enkelt å bruke med dynamiske skriptspråk.
Når Avro-dataene er lagret i en bestemt fil, lagres skjemaet også sammen med dem for senere å bli behandlet av et annet program. Så hvis et program som leser dataene forventer et annet skjema, kan dette lett løses siden begge skjemaene er til stede.
Avro gir:
Et kompakt og raskt binært dataformat
Rike datastrukturer
En containerfil for lagring av vedvarende data
Ekstern prosedyre samtale (RPC)
Integrasjon med dynamiske språk
Generering av kode er ikke et krav for å lese eller skrive datafiler eller for å bruke eller implementere RPC-protokoller.
