Innholdsfortegnelse:
Apache Hadoop har vært grunnlaget for big data-applikasjoner i lang tid nå, og regnes som den grunnleggende dataplattformen for alle store datarelaterte tilbud. Imidlertid øker databasen og beregningen i minnet popularitet på grunn av raskere ytelse og raske resultater. Apache Spark er et nytt rammeverk som bruker muligheter i minnet til å levere rask prosessering (nesten 100 ganger raskere enn Hadoop). Så blir Spark-produktet stadig mer brukt i en verden av big data, og hovedsakelig for raskere prosessering.
Webinar: Forslagets makt: Hvordan en datakatalog gir analytikere Registrer her |
Hva er Apache Spark?
Apache Spark er en åpen kildekode for behandling av enorme datamengder (big data) med hastighet og enkelhet. Det er egnet for analytiske applikasjoner basert på big data. Gnist kan brukes med et Hadoop-miljø, frittstående eller i skyen. Den ble utviklet ved University of California og ble deretter tilbudt Apache Software Foundation. Dermed tilhører det open source-samfunnet og kan være veldig kostnadseffektivt, noe som ytterligere lar amatørutviklere jobbe med letthet. (For å lære mer om Hadoops open source, se Hva er påvirkningen av åpen kildekode på Apache Hadoop økosystem?)
Hovedhensikten med Spark er at den tilbyr utviklere med et applikasjonsrammeverk som fungerer rundt en sentrert datastruktur. Gnist er også ekstremt kraftig og har den medfødte evnen til raskt å behandle enorme datamengder på kort tid, og dermed tilby ekstremt god ytelse. Dette gjør det mye raskere enn det som sies å være den nærmeste konkurrenten, Hadoop.