Utviklet av | Internett-arkiv |
---|---|
Siste versjon | 3.2.0 (Januar 2014) |
Innskudd | github.com/internetarchive/heritrix3 |
Skrevet i | Java |
Miljø | Linux / Windows |
Les formater | WARC ( i ) |
Skriftlige formater | WARC ( i ) |
Type | Indekseringsrobot |
Tillatelse | Apache 2.0 |
Dokumentasjon | github.com/internetarchive/heritrix3/wiki |
Nettsted | Heritrix |
Heritrix er en web- crawler designet og brukt av Internet Archive for nettarkivering . Det er gratis programvare programmert på Java-språk . Dens viktigste grensesnittet er tilgjengelig fra en nettleser , men en kommando tolk verktøy kan også eventuelt brukes til å starte indeksering.
Heritrix ble utviklet i fellesskap av Internet Archive og Nordic National Libraries i 2003. Den første offisielle utgivelsen fant sted ijanuar 2004, og den har siden blitt kontinuerlig forbedret av Internet Archive-medlemmer og interesserte tredjeparter.
Et betydelig antall nasjonale organisasjoner og biblioteker bruker Heritrix, inkludert:
Historisk lagret Heritrix ressursene den samlet i en Arc- fil , et format som Internet Archive har brukt siden 1996 for å lagre arkivene. Nyere versjoner er standard til WARC-format. Heritrix kan også konfigureres til å lagre filer i et katalogformat som ligner på Wget- søkeroboten , som navngir hver ressurs katalog og fil etter URL-en .
I Arc-format lagres flere arkiverte eiendeler i en enkelt fil, slik at du ikke trenger å håndtere et stort antall små filer. En fil består av en sekvens av URL-poster, hver ledsaget av en overskrift som inneholder metadata om hvordan ressursen ble forespurt, HTTP-overskriften og koden for svaret. Størrelsen på en Arc-fil er mellom 100 og 600 megabyte .
Eksempel:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>Heritrix inkluderer et kommandolinjeverktøy kalt arcreader som lar deg trekke ut innholdet i en Arc-fil.
Følgende kommando viser alle URL-er og metadata som er lagret i Arc-filen fra forrige eksempel:
arcreader IA-2006062.arcFølgende kommando trekker ut hello.html-filen fra den, med tanke på starten av opptaket ved forskyvning 140:
arcreader -o 140 -f dump IA-2006062.arcAndre verktøy:
Heritrix kommer med flere kommandolinjeverktøy: