Heritrix

Heritrix Beskrivelse av Heritrix logo.png-bildet. Beskrivelse av Heritrix-screenshot.png-bildet. Informasjon
Utviklet av Internett-arkiv
Siste versjon 3.2.0 (Januar 2014)
Innskudd github.com/internetarchive/heritrix3
Skrevet i Java
Miljø Linux / Windows
Les formater WARC ( i )
Skriftlige formater WARC ( i )
Type Indekseringsrobot
Tillatelse Apache 2.0
Dokumentasjon github.com/internetarchive/heritrix3/wiki
Nettsted Heritrix

Heritrix er en web- crawler designet og brukt av Internet Archive for nettarkivering . Det er gratis programvare programmert på Java-språk . Dens viktigste grensesnittet er tilgjengelig fra en nettleser , men en kommando tolk verktøy kan også eventuelt brukes til å starte indeksering.

Heritrix ble utviklet i fellesskap av Internet Archive og Nordic National Libraries i 2003. Den første offisielle utgivelsen fant sted ijanuar 2004, og den har siden blitt kontinuerlig forbedret av Internet Archive-medlemmer og interesserte tredjeparter.

Prosjekter som bruker Heritrix

Et betydelig antall nasjonale organisasjoner og biblioteker bruker Heritrix, inkludert:

Arc File

Historisk lagret Heritrix ressursene den samlet i en Arc- fil , et format som Internet Archive har brukt siden 1996 for å lagre arkivene. Nyere versjoner er standard til WARC-format. Heritrix kan også konfigureres til å lagre filer i et katalogformat som ligner på Wget- søkeroboten , som navngir hver ressurs katalog og fil etter URL-en .

I Arc-format lagres flere arkiverte eiendeler i en enkelt fil, slik at du ikke trenger å håndtere et stort antall små filer. En fil består av en sekvens av URL-poster, hver ledsaget av en overskrift som inneholder metadata om hvordan ressursen ble forespurt, HTTP-overskriften og koden for svaret. Størrelsen på en Arc-fil er mellom 100 og 600 megabyte .

Eksempel:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>

Verktøy for behandling av Arc-filer

Heritrix inkluderer et kommandolinjeverktøy kalt arcreader som lar deg trekke ut innholdet i en Arc-fil.

Følgende kommando viser alle URL-er og metadata som er lagret i Arc-filen fra forrige eksempel:

arcreader IA-2006062.arc

Følgende kommando trekker ut hello.html-filen fra den, med tanke på starten av opptaket ved forskyvning 140:

arcreader -o 140 -f dump IA-2006062.arc

Andre verktøy:

Kommandolinjeverktøy

Heritrix kommer med flere kommandolinjeverktøy:

Se også

Relaterte artikler

Referanser

Eksterne linker