Hjem Audio Hva er hadoop nøyaktig? en kynikeres teori

Hva er hadoop nøyaktig? en kynikeres teori

Innholdsfortegnelse:

Anonim

Alt som ser for godt ut til å være sant, er vanligvis. Slik kan være tilfelle med Apache Hadoop, det mye ballyhooed open source-prosjektet som alle fortsetter å snakke om. Så hva er akkurat denne tingen? Godt spørsmål!

Ekspertene tvilsomme

Analytiker Mark Madsen fra Third Nature spikret den fast til veggen for en stund tilbake i et lite stykke på InsideAnalysis.com: "What Hadoop Is. What Hadoop Isn't." Som noen som vet hvordan man utformer løsninger i den virkelige verden, og faktisk distribuerer dem, bør ikke rådene hans ignoreres.


Men det strømmer en dypere strøm her, og tiden er nær å avdekke røttene til denne fascinerende floraen, for å se om vi ikke kan få et perspektiv på hva som skjer på mer et makronivå. Tross alt sier leverandører stadig at det er en stor avtale, og det er så mange deltakere.

Ansett kommitterne! (?)

Tre selskaper eier i dag størstedelen av Hadoops nye marked: Cloudera, Hortonworks og MapR. På en nylig, ganske omstridt briefing via Boulder BI Brain Trust (#BBBT), ga Jim Walker fra Hortonworks denne nysgjerrige kommentaren:


"Du kan ikke fremme teknologien hvis du ikke ansetter pendlerne!"


Kom igjen?


Høres ikke dette ut som noe Senator Palpatine kan si i en Star Wars-film?


Senator Palpatine: "Ansett pendlere!"

Minion i nærheten: "Men, men, herre! Tenk på barna!"


For lekmannen der ute bare prøver å få til ting, er pendlere mennesker som er dedikert til et bestemt åpen kildekode-prosjekt. Apache Foundation har strenge protokoller der prosjektene deres går videre, noe som ofte er en god ting.


Når det er sagt, garanterer Walker kommentar undersøkelse. Et spiss spørsmål (med fare for å trylle frem lekedagens dager) ville være: Er det et løfte eller en trussel? Sier han at Hortonworks kanskje bare tar ballen og drar hjem?

Samarbeid eller konkurranse?

Den interessante, hvis paradoksale vinkelen her, er at det er angivelig at de fleste av pendlerne på Hadoop-teamet (omtrent 30 i alt) er fra Hortonworks og Cloudera - som er konkurrenter. Dette er et veldig nysgjerrig tilfelle av konkurranse.


Så hva er det? Her er en utdannet gjetning: Hadoop skylder i stor grad sin berømmelse til en smart plan utformet av en gruppe av Silicon Valley-risikokapitalister og ingeniører som i hovedsak prøver å sikre sine spill mot Oracle.


Den generelle ideen er å frø markedet med et grunnlag av kode som kan forbedres og styrkes av en filleflate av utviklere som ideelt sett over tid vil lage alle slags dataadministrasjonsverktøy, inkludert databaseprodukter. VC-ene kan investere og utbetale en dag. Men det er noen alvorlige utfordringer i spillet.


Som alle monolitiske foretak, befinner Oracle seg ofte i krysset til mange mindre aktører. Og hvem vil ikke bare ha et stykke av de innbydende inntektene? Bare i det siste kvartalet booket Oracle ~ 9 milliarder dollar. Men å utfordre Big Red og slå dem er to veldig forskjellige realiteter.

Gratis webcast: Hva er Hadoop og hvor skal den?

Bli med Eric Kavanagh, Robin Bloor og Techopedia for en diskusjon om hvordan Hadoop er veldig forskjellig fra Linux eller SOA, og hvorfor fremtiden i stor grad forblir uskrevet.

Problemer med pakking

Saken med Hadoop, i seg selv, er at det ikke er en pakket løsning på noen måte. Snarere er det en kompleks samling av moduler som gjør det mulig for programmerere av høy kvalitet å utnytte massive parallelle prosesseringsalgoritmer til å gjøre veldig spesifikke ting. Men det er ikke noe fancy brukergrensesnitt, og manualene er brutale.


Legg til den utfordringen dette kritiske hinderet: du trenger også forretningsfolk som i det minste har en generell forståelse av hva det kan gjøre. Disse menneskene må kunne trylle frem ideer om hvordan det kan brukes, og deretter kommunisere til utviklerne, som deretter må produsere, teste, implementere og støtte applikasjoner.


Orkestrering av denne dansen er hvordan Cloudera og Hortonworks tjener mye av pengene sine. Problemet er at de fleste løsningene som er laget via denne metoden er unike, og fokuserer vanligvis på operative systemer i motsetning til analytiske. Oversettelse? Slike ting egner seg ikke egentlig til pakket programvareprodukter.

Emballasjelønnsomhet!

Noe som bringer oss tilbake til Oracle. Larry Ellison og guttene lager høyet til å selge databaseteknologi, maskinvare, tjenester og (vent på det …) pakket programvare. Cloudera har tilsynelatende funnet ut av dette, derav deres fokus på Impala. Men Hortonworks?


Modellen deres ser ut til å etterligne mer fra RedHat, folkene som bygde en milliard dollar-virksomhet på toppen av Linux-operativsystemet. Nary, en stor leverandør i bedriftsprogramvarebransjen, skriver ikke for Linux, OS som IBM ledet Microsoft av med pass. Men Hadoop er ingen Linux, ikke på lang sikt.


Dr. Geoffrey Malafsky, en tidligere nanoteknolog for den amerikanske marinen, nå en dataforsker med Phasic Systems og PSIKORS Institute, destillerer Hadoop-verdiproposisjonen slik:

    "Hadoop er flott for søk, veldig stor trendanalyse for stokastiske resultater, og sannsynligvis noe veldig billig smart parallell prosessering av ting som min ekskone pleide å gjøre: kvantemekanisk bølgefunksjonsberegning av faststoff- og kjemiske reaksjoner. Denne virkelige vitenskapen er avhengig på superdatamaskiner og flyttet noe til parallell prosessering, men det er en hard endring av programmeringsmåte. Unge, smarte, energiske doktorgradsstudenter vil være de som får dette til å skje. applikasjoner."

Du vil merke at det ikke høres ut som datavarehus, forretningsinformasjon, dataintegrasjon eller til og med big data. Det høres ut som superdatamaskiner. Og av en eller annen interessant grunn har verdenene til høy ytelse databehandling og forretningsintelligens aldri virkelig kollidert eller sammenkalt på noen meningsfull måte.

Long Road Ahead for Hortonworks and Cloudera

Og her er de virkelig dårlige nyhetene for Hortonworks og muligens Cloudera. De store leverandørene som IBM og SAP og Oracle og Teradata - for å si dette mildt og for å sitere Dire Straits: "Dem folk er ikke dumme!" For tre og flere år siden rullet alle ut seriøse Hadoop-strategier.


Sentralt i disse planene er hva slags ting forretningsbrukere forventer: grafiske brukergrensesnitt, dra-og-slipp-funksjonalitet, modellerings- og oppdagelsesverktøy, arbeidsflyt, styring, sikkerhet; kort sagt, alle bitene og brikkene som gjør bedriftsprogramvare brukbar. Og selvfølgelig har disse store leverandørene enorme installasjonsbaser.


For å være sikker, har Cloudera og Hortonworks begge hatt god virksomhet, men bare en liten brøkdel av hva de store aktørene får hvert år. Gjør regnestykket på hvor mye utfordrerne belaster kundene sine, sammenlignet med hvor mye overheaden sannsynligvis er, og bildet er ikke så rosenrødt. Gitt, det er på nivå med kurset med programvareproblemer i tidlig fase, men likevel …

Fremtiden til Hadoop?

Så kanskje vi ser den klassiske bølgen av anskaffelser, som vi hadde tilbake i aughtene, da IBM kjøpte Cognos, Oracle fikk Hyperion og SAP nappet BusinessObjects? Kanskje, men de nye barna på denne blokken eier ikke Hadoop; de bare låner det. Og så lovende som YARN og Tez kan være, det virker som om utgivelsessyklusene henger etter hva de tunge møtene produserer.


Akkurat her om dagen kommenterte en industriinnsider at politikken på Apache kan være en alvorlig flaskehals. Dette er ikke veldig overraskende, spesielt når du vurderer de involverte dollarene - det er stor motivasjon for innovatører å slå dem rike. Og har noen lagt merke til hvordan Chrome ser ut til å ha overgått Firefox i funksjonalitet og operabilitet i det siste? Stengt kilde, noen?


En ting er sikkert: dette spillet vil bli spilt på noen interessante måter. Ja, pattedyrene (les: små leverandører) kan ofte overskride dinosaurene. men det er fremdeles alligatorer og krokodiller over hele verden; og hvis du snubler over en uvitende, kan du kanskje oppdage hvor skarpe tennene kan være. Noen få kroker sammen kan til og med ta ned en elefant eller to.

Hva er hadoop nøyaktig? en kynikeres teori