Utviklet av | Doug Cutting |
---|---|
Siste versjon | 2.4 (11. oktober 2019) |
Innskudd | github.com/apache/nutch |
Skrevet i | Java |
Operativsystem | Multiplatform |
Miljø | Windows , Mac OS X , GNU / Linux |
Les formater | WARC ( i ) |
Skriftlige formater | WARC ( i ) |
Type | open source søk motor |
Tillatelse | Apache-lisens |
Nettsted | nutch.apache.org |
Nutch er et initiativ for å bygge en åpen kildekode- søk motor . Den bruker Lucene som søkemotor og indekseringsbibliotek. På den annen side ble samlingsroboten opprettet spesielt for dette prosjektet.
Nutchs arkitektur er svært modulær og lar utviklere lage plugins for forskjellige faser av prosessen: datainnhenting, dokumentanalyse, forskning osv.
Doug Cutting er initiativtaker og koordinator for dette prosjektet.
Den er helt utviklet på Java-språket , men dataene den manipulerer er i et dataformat uavhengig av ethvert programmeringsspråk. IJuni 2003 ble presentert en operativ versjon av en demonstrasjon av Nutch på en database som samlet 100 millioner dokumenter.
Creative Commons innviet i 2004 en betaversjon av søkemotoren som gjennomsøker nettet på jakt etter tekst, lyd og video, og indekserer på dette tidspunktet en million sider; alt dette kan gjenbrukes fritt i henhold til vilkårene for lisensene som er tilgjengelige på deres nettside.
Søkemotoren deres er basert på Resource Description Framework (RDF) som bruker XML- metaspråket , standardisert av World Wide Web Consortium (W3C).
Denne versjonen sammenfaller med Mozilla Firefox - nettleseren i versjon 1.0, og gjør det mulig å søke etter gratis innhold.
I januar 2005, Nutch er et to år gammelt prosjekt som ble arrangert av Sourceforge og støttet av sin egen ideelle organisasjon. Denne organisasjonen ble grunnlagt for å opphavsrett til prosjektet og for å kunne beholde retten til å endre lisensen. Teamet bestemte seg for at Apache-lisensen var den mest passende for Nutch, og at de ikke lenger trengte hjelp fra en ekstern organisasjon. Ledere og utviklere støttes nå av Apache Foundation .
Etter fem måneders inkubasjon blir Nutch et delprosjekt av Lucene .
Publisert 1 st juni 2004 studie av Lyle Benedict sammenligner resultatene av den berømte Google og sin gratis motstykke Nutch innenfor begrensede rammer Universitetet nettsiden til staten Oregon på en base på 100 forespørsler. For eksempel, på poeng fra 0 til 10 der 10 er den beste poengsummen, fant hun 28 forespørsler som Nutch og Google oppnådde maksimal poengsum .
De bidragene er basert på kvalitet og karma . Bidragsytere bør abonnere på en adresseliste for å finne ut hvem som gjør hva og sende ut en kort e-post for å fortelle andre hva de skal gjøre. Når jobben er gjort, sendes koden til adresselisten (eller vedlegges en feilrapport) slik at hver bidragsyter kan undersøke kvaliteten og relevansen .
Akseptkriteriene er:
Hvis alt er riktig, blir kodebiten satt inn av utviklerne i kildedatabasen, og den blir en del av Nutch.
I desember 2006 valgte Quebec-regjeringen Nutch som søkemotor for å finne alle nettstedene sine basert på et forhåndsvalg. Til dags dato er mer enn 400 nettsteder og 500 000 dokumenter indeksert .
Av September 2004 på januar 2010, Oregon State University erstattet sitt Google- forskningssenter med Nutch. Dette har gjort det mulig å oppnå betydelige kostnadsreduksjoner og fremme gjennomsiktigheten til denne søkemotoren. Denne reduksjonen er anslått til $ 100.000 per år ifølge Open Source Lab .