Apache Hive

Apache Hive

Informasjon
Utviklet av Bidragsytere
Første versjon 9. november 2011
Siste versjon 3.1.1 (1 st november 2018)
Innskudd git: //git.apache.org/hive.git og svn.apache.org/repos/asf/hive
Prosjekt status Aktiv
Skrevet i Java
Operativsystem Multiplatform
Miljø Java virtuell maskin
Type Relasjonelt databasestyringssystem ( in )
Tillatelse Apache-lisens versjon 2.0
Nettsted hive.apache.org

Apache Hive er en datalagerinfrastruktur integrert på Hadoop som tillater analyse, spørring via et språk syntaktisk nær SQL samt datasyntese. Selv om Apache Hive opprinnelig ble utviklet av Facebook , blir den nå brukt og utviklet av andre selskaper som Netflix . Amazon vedlikeholder en gaffel med Apache Hive som inkluderer Amazon Elastic MapReduce i Amazon Web Services .

Funksjonalitet

Apache Hive støtter skanning av store datasett lagret i Hadoop HDFS eller kompatible filsystemer som Amazon S3 . Det gir et SQL- lignende språk kalt HiveQL med skjema på lese og konverterer transparente forespørsler om å kartlegge / redusere , Apache Tez og Spark- jobber . Alle de tre kjøremotorene kan kjøres på Hadoop YARN. For å øke hastigheten på spørsmålene, gir den indekser, inkludert bitmapindekser.

Som standard lagrer Hive metadata i en innebygd Apache Derby-database, og andre klient- / serverdatabaser som MySQL kan eventuelt brukes.

Foreløpig er det fire filformater som støttes av Hive: TEXTFILE, SEQUENCEFILE, ORC og RCFile . Apache Parquet- filer kan leses via plugin i versjoner senere enn 0.10 og naturlig fra 0.13.

Andre funksjoner i Hive:

Arkitektur

Hive består av følgende elementer:

HiveQL

Selv om det er SQL-basert, følger ikke HiveQL SQL-standarden til punkt og prikke. HiveQL tilbyr ikke-SQL-utvidelser, for eksempel flertabellinnsatser, og bare et grunnleggende tilbud for indeksering. HiveQL mangler også støtte for transaksjoner og materialiserte visninger, og bare begrenset støtte for underspørsmål. Støtte for innsetting, oppdatering og sletting med full ACID-funksjonalitet ble gjort tilgjengelig med versjonen 0.14.

Internt oversetter kompilatoren HiveQL-setninger til en asyklisk rettet graf av MapReduce eller Tez , eller Spark- jobb , som deretter sendes til Hadoop for utføring.

Merknader og referanser

(fr) Denne artikkelen er delvis eller helt hentet fra Wikipedia-artikkelen på engelsk med tittelen Apache Hive  " ( se listen over forfattere ) .
  1. "  https://projects.apache.org/json/projects/hive.json  " (Tilgang 8. april 2020 )
  2. "  http://hive.apache.org/downloads.html  "
  3. Venner, Jason (2009).
  4. Bruk casestudie av Hive / Hadoop .
  5. OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix"YouTube .
  6. Amazon Elastic MapReduce Developer Guide .
  7. HiveQL Language Manual .
  8. Apache Tez .
  9. Arbeide med studenter for å forbedre indeksering i Apache Hive .
  10. Lam, Chuck (2010).
  11. Optimalisering av Hadoop og Big Data med tekst og Hive Optimalisering av Hadoop og Big Data med Text og Hive .
  12. LanguageManual ORC .
  13. Raskere Big Data på Hadoop med Hive og RCFile .
  14. Facebooks Petabyte Scale Data Warehouse ved hjelp av Hive og Hadoop .
  15. Yongqiang He, Rubao Lee, Yin Huai, Zheng Shao, Namit Jain, Xiaodong Zhang og Zhiwei Xu. "RCFile: En rask og plasseffektiv dataplasseringsstruktur i MapReduce-baserte lagersystemer" (PDF).
  16. "Parkett" . 18. desember 2014.
  17. Massie, Matt (21. august 2013).
  18. White, Tom (2010).
  19. Hive Language Manual .
  20. SYRE og transaksjoner i bikube .
  21. Hive en lagerløsning over et MapReduce-rammeverk .

Vedlegg

Se også

Eksterne linker