Apache Tika

Apache Tika

Informasjon
Utviklet av Apache Software Foundation
Første versjon 22. mars 2007
Siste versjon 1,25 (30. oktober 2020)
Innskudd gitbox.apache.org/repos/asf?p=tika.git og gitbox.apache.org/repos/asf/tika.git
Skrevet i Java
Miljø Java virtuell maskin
Les formater Klasser Java , Waveform Audio File Format , Au , Audio Interchange File Format , Standard MIDI File ( d ) , Microsoft Compressed HTML , Directory Interchange Format ( d ) , DWG , EPUB , Portable Executable , Executable and Linkable Format , XCOFF ( en ) , Adobe Type 1 Printer Font Metrics ( d ) , TrueType , Better Portable Graphics , Apple Icon Image , Portable Network Graphics , Wireless Application Protocol Bitmap Format , Windows bitmap , XCF , .psd , Tagged Image File Format , Lossless WebP ( d ) , JPEG File Interchange Format , Mbox , Office Open XML , TNEF , MPEG-1/2 Audio Layer 3 , MPEG-4 Part 14 , 3GPP ( d ) , 3GPP2 ( d ) , Quicktime File ( en ) , Advanced Video Coding ( d ) , NetCDF , OpenDocument , Portable Document Format , Zlib , GZIP ( d ) , bzip2 ( d ) , bzip Archive ( d ) , XZ , tar , JAR , ZIP , cpio , 7z , RAR , Rich Text Format , ren tekst , Flash Video , Native FLAC ( d ) , Kate ( d ) , Ogg , Opus , Speex , Theora , Vorbis og AppleSingle ( d )
Tillatelse Apache-lisens versjon 2.0
Nettsted tika.apache.org og tika.apache.org

Apache Tika er et verktøy som er utviklet av Apache-stiftelsen som gjør det mulig å oppdage, trekke ut metadata og strukturere tekstinnholdet i mange typer dokumenter ( gzip , .mid , .pdf , tar , zip ...).

Dette prosjektet, avhengig av Apache Software Foundation, var tidligere et delprosjekt av Apache Lucene .

Bemerkelsesverdige bruksområder

Tika brukes i kombinasjon med Solr av rundt 400 journalister for å analysere de 11,5 millioner dokumentene som er lekket under Panama Papers .

Referanser

  1. "  https://projects.apache.org/json/projects/tika.json  " (Tilgang 8. april 2020 )
  2. "  https://mvnrepository.com/artifact/org.apache.tika/tika/1.25  "
  3. http://www.ibm.com/developerworks/opensource/tutorials/os-apache-tika/index.html
  4. (in) Thomas Brewster , "  Fra krypterte stasjoner til Amazons sky - The Amazing Flight Of the Panama Papers  "Forbes ,5. april 2016(åpnet 15. april 2016 )
  5. Reynald Fléchaux, “  Linkurious: the Big Data start-up that surfs the Panama Papers  ” , på Silicon.fr , 6 acril 2016 (åpnet 19. desember 2018 )

Eksterne linker