Hadoop leverantörer lyssnar: Hortonworks blir pragmatiskt

Detta är Hadoop tioårsdag (och Hortonworks femte), är det inte förvånande att både plattform och företag har vuxit en hel del – och naturligtvis fortfarande har en del att växa upp att göra.

Plattformen själv har kommit långt. Från Hadoop tidigaste dagar, när det definierades som helt enkelt lagring (HDFS) och beräkna (MapReduce), har idag plattform dussintals kärna och konkurrerande komponenter med öppen källkod som behandlar många av hushålls egenskaper som hör ihop med databaser, från verksamhetsstyrning till säkerhet, dataskydd och datastyrning.

Och Hortonworks har kommit långt från enda produkt ren öppen källkod företag.

Big data övergår från en av de mest hypade och förväntade tech trenderna från senare år i en av de största utmaningarna att det nu försöker att brottas och sele. Vi undersöker den teknik och bästa praxis för att dra nytta av big data och ger en titt på organisationer som sätter det till god användning.

Öppen källkod har blivit leveransmodellen standard för nya dataplattformar, som vi kommer att diskutera i ett kommande inlägg. Men den rena öppen källkod, som förespråkades av Hortonworks har varit sällsynta på grund av frågan om var deras unika IP är. För Hortonworks har svaret varit att de har, beroende på vem som räknar, det största blocket av committers till Apache Hadoop gemenskap projekt.

De kommer inte att erkänna det, men sen Hortonworks ser mycket mer som sina konkurrenter, Cloudera och MapR, att erbjuda innehåll som är leverantörsspecifika. Det är faktiskt en bra sak, särskilt om du är en kund som är ute för att genomföra en data sjö, och som vill försäkra oss om att din teknikleverantör kommer att ha unika IP (och affärssinne) att vara en långsiktig aktör.

De första sprickorna i väggen är via en OEM-arrangemang som Hortonworks har nu med AtScale, Syncsort och Pivotal för datalager optimering användningsfall. De sälja AtScale att ge en OLAP ansikte Hadoop, för att förbättra prestandan hos BI fråga och rapportering, Syncsort DMX-h för ETL bearbetning och Pivotal s HAWQ interaktiv SQL-teknik (detta faktiskt bara blev öppen källkod). Återförsäljning strategi är vettigt med tanke på att datalager optimering är en mogen marknad med en identifierbar och tillräckligt betydande mål bas. Diskutabelt är funktioner som Smartsense som yta klusterhälsostatistiken Ambari, som bara är tillgängligt via Hortonworks Data Platform abonnemang.

Men som ett företag kund, kommer du inte att bry sig som öppen källkod ditt teknikleverantör har, du bryr om deras affärsmodell är livskraftig.

Och reflektera Hadoop växande mognad som ett företag plattform, centrala teman för förbättringar som lades fram Hadoop Summit var över ansluta prickar med uppgifter styrning, förbättrade prestanda och användarvänlighet. Bland de meddelanden, Hortonworks utökat förmåga Atlas, data härstamning verktyg, från att stödja Hive (där data sitter) uppströms inta processer inklusive Kafka (för meddelandeköer) och Storm (för direktuppspelning). Detta innebär att data kan märkas i Atlas, inte bara när det anländer i Hive, men vid tidpunkten för ingest, om du använder en av Hortonworks “stöds strömmande motorer.

Med Atlas tillhandahåller metadata för data härstamning kan Ranger genomföra datasäkerhet, precis lagt är funktioner för dynamisk maskering kolumner och filtrerings rader i Hive för att avgöra hur människor i olika roller kan och kommer att se data. I sin tur, Zeppelin, Hortonworks inträde i den överfulla uppgifter forskare bärbara utrymme, integrerar nu referenser med Ranger att genomdriva åtkomstkontroll för utövare som använder Spark.

Hortonworks har också arbetat med att släppa syra på Hive – även om vi inte pratar om strikt ACID samband med transaktionssystem. I det här fallet, vi pratar om möjligheten att uppdatera och ta bort data från Hive. Det är något som hittills bara var möjlig med MapR underliggande egenutvecklade filsystem. Betydelsen är inte bara skryta, men minska overhead att uppdatera Hive, särskilt när data strömmar in med hög hastighet. En teknikförhandstillkännagavs vid konferensen.

Ett relaterat projekt för att förbättra interaktiva frågeprestanda på Hive utnyttjar en framväxande in-memory cache teknik, märkes LLAP (en term som kommer att vara bekant för Star Trek-fans) som också innehåller finkorniga företrädesrätt förmåga att se till att långvariga batchjobb vann ‘t flaskhals högre prioritet interaktiva fråge förfrågningar. En annan relaterad projekt är den nya frågan server för Phoenix projektet att sätta en SQL ansikte på HBase. Det ironiska i frågan server är att medan Phoenix var utformad för att göra HBase vänligare till SQL, fokuserar den nya frågan server API till programmeringsspråk alternativ som C ++ ,. NET, och Python.

Kanske intrycket är subjektivt, men gör Hadoop en bättre styrs plats är ett direkt svar på företag som planerar uppgifter sjöar. Per definition data sjöar är företagets resurser, likt sina föregångare företag datalager, och därför behöver fler funktioner som hjälper dig att förstå exakt vilken information är där. I ett annat inlägg kommer vi att diskutera uppgifter sjö styrning. Det räcker med att säga att från de senaste meddelanden från Hortonworks är Hadoop leverantörer lyssnar.

Linkedin avslöjar sin nya blogging plattform

Hadoop Summit nyheter: ekosystem ordning och fragmentering, Hortonworks tillkännager nya allianser och utsläpp, kommer Hadoop till bord i vägen, Hortonworks förnyar sin stack ytterligare omfattar Apache Spark, Hortonworks översyner uppdatering kadens, samarbetar med HPE

Socialt företagande, Linkedin avslöjar sin nya blogging plattform, stora datamängder, är detta en ålder av Big OLAP,? Big Data Analytics, DataRobot syftar till att automatisera lågt hängande frukt uppgifter vetenskap, stora datamängder, MapR grundare John Schroeder steg ner, COO för att ersätta

Är detta en ålder av Big OLAP?

DataRobot syftar till att automatisera lågt hängande frukt uppgifter vetenskap

MapR grundare John Schroeder steg ner, COO för att ersätta