Lucene

Apache Lucene

Informasjon
Utviklet av Apache Foundation
Siste versjon 8.7.0 (3. november 2020)
Innskudd github.com/apache/lucene
Skrevet i Java
Operativsystem Multiplatform
Miljø Multiplatform
Type Søkemotor
Tillatelse Apache-lisens
Nettsted lucene.apache.org

Lucene er et open source- bibliotek skrevet på Java som gjør det mulig å indeksere og søke etter tekst. Den brukes i noen søkemotorer .

Det er et prosjekt fra Apache-stiftelsen gjort tilgjengelig under Apache-lisensen . Den er også tilgjengelig for Ruby , Perl , C ++ , PHP , C # , Python-språk .

Historisk

Lucene lastes først opp av Doug CuttingSourceForge.net- nettstedet iMars 2000. Den frigjøres deretter under GNU Lesser General Public License . Hans overgang til Apache Jakarta ble kunngjort iOktober 2001.

Lucene-prosjektet kommer fra boken Lucene in Action (Lucene in action) utgitt i desember 2004 . Det er skrevet av Erik Hatcher, en av lederne for open source-prosjektene Ant , Lucene og Tapestry , og av Otis Gospodnetic, et aktivt medlem av Apache Jakarta-prosjektet.

De 14. februar 2005, Lucene migrerer til Apache Jakarta- prosjektet . Den kildekoden basen ble omdannet til SVN versjon kontrolleren .

mandag 12. desember 2005, Grant Ingersol presenterer en casestudie i Java hos ApacheCon US om avansert bruk av Lucene-komponenter, inkludert tekniske detaljer om naturlig språkbehandling .

I dag brukes Lucene til søkemotoren til et veldig stort antall produkter og nettsteder over hele verden.

Hvordan Lucene fungerer

Indeksering

Fram til eksplosjonen av internett var Deweys desimalklassifisering veldig effektiv i å kategorisere objekter i et bibliotek. Imidlertid har massen av tilgjengelige data på nettet blitt så gigantisk at det nå er nødvendig å bruke alternative og mer dynamiske midler for å finne informasjon.

Kjernen i alle søkemotorer er en automatisk indekseringsmekanisme  : behandling av rådata en gang og gir den flere svært effektive lenker, fremskynder søkeoperasjonen. Konseptet er ganske likt terminologiindeksen som vanligvis finnes på slutten av en bok, som lar deg raskt finne sider som omhandler et gitt emne.

Hvis du trenger å dekke et stort felt av filer eller finne en spesifikk streng med tegn i en enkelt fil, bør du ikke skanne hver fil sekvensielt for den gitte frasen. Fordi jo større antall filer, jo lengre tid tar det å søke etter informasjon . Det er bedre å etablere en tekst indeks i et format som tillater rask søking, som unngår den sekvensielle metoden. Denne prosessen kalles indeksering .

Undersøkelser

Den forskningen er handlingen av å se opp ord i en indeks for å finne referanser til dokumenter når de dukker opp. Kvaliteten på et søk evalueres av posisjonering og relevans av resultatene. Imidlertid er det andre faktorer som går inn i et søk. Hastighet er en avgjørende faktor i behandlingen av en stor mengde informasjon. Å være i stand til å støtte enkle eller komplekse spørsmål, spørre setninger, tegn, posisjonere og sortere resultater er like viktig som en lettlært syntaks for å skrive inn disse spørsmålene.

Klasser

De følgende avsnittene gir en kort introduksjon til hovedklassene som brukes til å bygge denne søkemotoren.

Indeksering av klasser

Forskningskurs

Ressurser

Verktøy

Relaterte prosjekter

Alle disse prosjektene er eller har vært delprosjekter av Apache Lucene og tillater implementering av en søkemotor.

Komponenter i en søkemotor

Merknader og referanser

  1. LuceneTM Core News  " (åpnet 3. desember 2020 )
  2. Den Lucene siden på SourceForge
  3. Økten presentert på ApacheCon
  4. (in) Liste over applikasjoner som bruker Lucene

Vedlegg

Bibliografi

  • " Introduction to Apache Lucene: Construction of Java Open Source Full Text Retrieval Systems " av Koshi Sekiguti; Gijutsu-Hyohron Co, Ltd; ( ISBN  4774127809 )
  • " Lucene In Action " av Erik Hatcher og Otis Gospodnetić; Bemanningspublikasjoner;desember 2004; ( ISBN  1932394281 ) (no) [1]
  • Manfred Hardt, Dr. Fabian Theis: " Suchmaschinen entwickeln mit Apache Lucene "; Programvare og støtte Verlag, Frankfurt am Main, Tyskland;September 2004; ( ISBN  3935042450 )

Relaterte artikler

Eksterne linker