Apache Hive

Informasjon

Utviklet av	Bidragsytere
Første versjon	9. november 2011
Siste versjon	3.1.1 (1 st november 2018)
Innskudd	git: //git.apache.org/hive.git og svn.apache.org/repos/asf/hive
Prosjekt status	Aktiv
Skrevet i	Java
Operativsystem	Multiplatform
Miljø	Java virtuell maskin
Type	Relasjonelt databasestyringssystem ( in )
Tillatelse	Apache-lisens versjon 2.0
Nettsted	hive.apache.org

Apache Hive er en datalagerinfrastruktur integrert på Hadoop som tillater analyse, spørring via et språk syntaktisk nær SQL samt datasyntese. Selv om Apache Hive opprinnelig ble utviklet av Facebook , blir den nå brukt og utviklet av andre selskaper som Netflix . Amazon vedlikeholder en gaffel med Apache Hive som inkluderer Amazon Elastic MapReduce i Amazon Web Services .

Funksjonalitet

Apache Hive støtter skanning av store datasett lagret i Hadoop HDFS eller kompatible filsystemer som Amazon S3 . Det gir et SQL- lignende språk kalt HiveQL med skjema på lese og konverterer transparente forespørsler om å kartlegge / redusere , Apache Tez og Spark- jobber . Alle de tre kjøremotorene kan kjøres på Hadoop YARN. For å øke hastigheten på spørsmålene, gir den indekser, inkludert bitmapindekser.

Som standard lagrer Hive metadata i en innebygd Apache Derby-database, og andre klient- / serverdatabaser som MySQL kan eventuelt brukes.

Foreløpig er det fire filformater som støttes av Hive: TEXTFILE, SEQUENCEFILE, ORC og RCFile . Apache Parquet- filer kan leses via plugin i versjoner senere enn 0.10 og naturlig fra 0.13.

Andre funksjoner i Hive:

Indeksering for å gi akselerasjon, indekstype hvis komprimering og bitmapindeks bare er 0,10, flere indekstyper er gitt;
forskjellige lagringstyper som ren tekst, RCFile , HBase , ORC og andre;
lagring av metadata fra en relasjonell DBMS , noe som reduserer tiden for å utføre visse kontroller betydelig under utførelsen av spørringen;
kjører på komprimerte data lagret i Hadoop-økosystemet ved hjelp av algoritmer som DEFLATE , BWT , snappy , etc;
Innebygde brukerdefinerte funksjoner (UDFer) for å manipulere datoer, strenger og andre verktøy for datautvinning. Hive støtter utvidelse av UDF for å adressere brukstilfeller som ikke støttes av innebygde funksjoner;
SQL-lignende (HiveQL) spørringer som implisitt blir konvertert til en sekvens av MapReduce- eller Tez-setninger eller Spark-jobber.

Arkitektur

Hive består av følgende elementer:

metastore: er ansvarlig for å lagre metadata for hver tabell, det vil si at den registrerer for eksempel skjemaene samt plasseringene. Det inkluderer også partisjonering av metadata for å hjelpe sjåføren med å spore distribusjonen av databaser i klyngen. I praksis lagres dataene som en tradisjonell relasjonell DBMS;
driver: spiller rollen som prosesskontrolleren som mottar HiveQL-forekomster. Den initierer gjennomføring av instruksjonene gjennom opprettelse av økter, og den styrer fremdriften av utførelsen, så vel som livssyklusen til prosessene. Den beholder de nødvendige metadataene som genereres under utførelsen av HiveQL-spørringer. Sjåføren spiller også rollen som datasamler som følge av Reduser trinnene;
kompilere: kompilere HiveQL-spørsmålene;
optimizer: utfører forskjellige transformasjoner på utførelsesplanen for å oppnå en optimalisert DAG;
utfører: etter kompilerings- og optimaliseringsfasene utfører den oppgavene som tilbys av DAG;
cLI, UI og Thrift Server: Tillat en ekstern bruker å samhandle med Hive ved å sende inn forespørsler.

HiveQL

Selv om det er SQL-basert, følger ikke HiveQL SQL-standarden til punkt og prikke. HiveQL tilbyr ikke-SQL-utvidelser, for eksempel flertabellinnsatser, og bare et grunnleggende tilbud for indeksering. HiveQL mangler også støtte for transaksjoner og materialiserte visninger, og bare begrenset støtte for underspørsmål. Støtte for innsetting, oppdatering og sletting med full ACID-funksjonalitet ble gjort tilgjengelig med versjonen 0.14.

Internt oversetter kompilatoren HiveQL-setninger til en asyklisk rettet graf av MapReduce eller Tez , eller Spark- jobb , som deretter sendes til Hadoop for utføring.

Merknader og referanser

(fr) Denne artikkelen er delvis eller helt hentet fra Wikipedia-artikkelen på engelsk med tittelen " Apache Hive " ( se listen over forfattere ) .

" https://projects.apache.org/json/projects/hive.json " (Tilgang 8. april 2020 )
" http://hive.apache.org/downloads.html "
Venner, Jason (2009).
Bruk casestudie av Hive / Hadoop .
OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix" på YouTube .
Amazon Elastic MapReduce Developer Guide .
HiveQL Language Manual .
Apache Tez .
Arbeide med studenter for å forbedre indeksering i Apache Hive .
Lam, Chuck (2010).
Optimalisering av Hadoop og Big Data med tekst og Hive Optimalisering av Hadoop og Big Data med Text og Hive .
LanguageManual ORC .
Raskere Big Data på Hadoop med Hive og RCFile .
Facebooks Petabyte Scale Data Warehouse ved hjelp av Hive og Hadoop .
Yongqiang He, Rubao Lee, Yin Huai, Zheng Shao, Namit Jain, Xiaodong Zhang og Zhiwei Xu. "RCFile: En rask og plasseffektiv dataplasseringsstruktur i MapReduce-baserte lagersystemer" (PDF).
"Parkett" . 18. desember 2014.
Massie, Matt (21. august 2013).
White, Tom (2010).
Hive Language Manual .
SYRE og transaksjoner i bikube .
Hive en lagerløsning over et MapReduce-rammeverk .

Vedlegg

Se også

Eksterne linker

Offisiell side
The Free Hive Book (CC by-nc lisensiert)
Hive A Warehousing Solution Over a MapReduce Framework - Originalpapir presentert av Facebook på VLDB 2009
Bruke Apache Hive With Amazon Elastic MapReduce (del 1) og del 2 på YouTube , presentert av en AWS-ingeniør
Bruker bikube + kassandra + hai. En bikube cassandra cql lagringsbehandler.
Store tekniske fremskritt i Apache Hive , Yin Huai, Ashutosh Chauhan, Alan Gates, Gunther Hagleitner, Eric N. Hanson, Owen O'Malley, Jitendra Pandey, Yuan Yuan, Rubao Lee og Xiaodong Zhang, SIGMOD 2014
Apache Hive Wiki