Innholdsfortegnelse:
SQL on Hadoop er en gruppe analytiske applikasjonsverktøy som kombinerer SQL-stil spørring og prosessering av data med de nyeste Hadoop data rammeelementene. Fremveksten av SQL på Hadoop er en viktig utvikling for prosessering av store data fordi den lar bredere grupper av mennesker lykkes med å arbeide med Hadoop databehandlingsrammeverk ved å kjøre SQL-spørringer på de enorme volumene av store data som Hadoop behandler. Det er klart, Hadoop-rammene var tidligere ikke så tilgjengelige for folk, spesielt med tanke på spørsmålsfunksjonene. Basert på utviklingen har flere verktøy vært i arbeidene som lover å forbedre produktiviteten til virksomheter når det gjelder behandling og analyse av big data med kvalitet og hastighet. Det er heller ikke nødvendig å investere mye i å lære verktøyet, slik tradisjonell kunnskap om SQL burde gjøre.
Definisjon av SQL på Hadoop
SQL on Hadoop er en gruppe applikasjoner som lar deg kjøre SQL-stil spørsmål på big data som er vert for Hadoop databehandlingsrammeverk. Det er klart, dataforespørsel, henting og analyse har blitt enklere med tillegg av SQL på Hadoop. Siden SQL opprinnelig var designet for relasjonsdatabaser, måtte den modifiseres i henhold til Hadoop 1-modellen som omfatter MapReduce og Hadoop Distribuerte filsystem (HDFS), og Hadoop 2-modellen som ikke har MapReduce og HDFS.
En av de tidligste forsøkene på å kombinere SQL med Hadoop resulterte i opprettelsen av Hive-datavarehuset med HiveQL-programvaren som kan oversette SQL-stil-spørsmål til MapReduce-jobber. Etter det ble flere applikasjoner utviklet som kunne gjøre lignende jobber. Fremtredende blant de senere verktøyene er Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) og Tez (Hive on Tez).