Glossar

Lucene

Lucene gehört zu den Entwicklungen der Apache Software Foundation. Dabei handelt es sich um eine Programmbibliothek, durch die eine Volltextsuche in den Inhalten einer komplexen Website möglich gemacht wird. Eine solche Volltextsuche wird von den Programmierern und Experten für Webdesign für die gezielte Stichwortsuche verwendet. Lucene basiert auf der Programmiersprache Java und wurde im Jahr 1997 von Doug Cutting über SourceForge angeboten. Vier Jahre nach dem Erscheinen wurde die Apache-Programmbibliothek zum Bestandteil des Jakarta-Projects. Die bekanntesten Anwender von Lucene sind Wikipedia und Twitter. Wikipedia hat jedoch im Jahr 2014 auf eine andere Art der Volltextsuche umgestellt. Twitter macht sich zunutze, dass mit der Apache-Programmbibliothek eine Indexierung der Inhalte in Echtzeit möglich ist. Lucene gehört zur Sparte der Open Source Software und kann kostenlos bezogen werden.

Welche Module umfasst Lucene inzwischen?

Mit den Droids wurde die Möglichkeit geschaffen, die Volltextsuche durch ein spezielles Framework auch für Bots und die Crawler der Suchmaschinen zur Verfügung zu stellen. Ähnliche Aufgaben erfüllt auch das Modul Nutch, bei dem über Soir Funktionen vom Webdesigner definiert und mit Hadoop eine Skalierung der Frameworks vorgenommen werden können. Durch Lucene.NET wurde mit der Bereitstellung einer Schnittstelle für Programmierer sowie die Übersetzung in C# für Kompatibilität mit .NET von Microsoft möglich. PyLucene sorgt dafür, dass sich auf Websites ein Wrapper für Java-Laufzeitumgebungen mittels Python nutzen lässt. Mit dem Modul Tika wurde Lucene um einen eigenen Parser zur Extraktion von strukturiertem Text oder Metadaten aus verschiedenen Arten von Dokumenten.

Wie können Programmierer Lucene individuell anpassen?

Wer als Programmierer oder Webdesigner die Usability bei einer auf einem Apache-Server bereitgestellten Website erhöhen möchte, kann die websiteinterne Suche mit Lucene auf sehr vielfältige Weise skalieren. Dabei stehen beispielsweise folgende Arten der Suche zur Verfügung:
• Bereichssuche
• Näherungssuche
• Multi-Index-Suche
• Phrasensuche
• Platzhaltersuche

Noch interessanter an Lucene ist der Fakt, dass verschiedene Ranking-Modelle für die Auflistung der Suchergebnisse angewendet werden können. Dazu gehören die Algorithmen von Okapi BM25 sowie das Vektorraummodell. Auch können mit Lucene gezielt Artikel auf einer Website gesucht werden, die von einem bestimmten Autor verfasst wurden. Die Suchergebnisse lassen sich individuell gruppieren, wobei auch die Hervorhebung besonders relevanter Suchergebnisse möglich ist.


Interessiert? Erfahren Sie mehr zum Thema "Lucene" - kontaktieren Sie uns jetzt

We create for You

Unter der Überschrift „Kreation“ vereinen wir die 4 Kernkompetenzen von baseplus®: Das Design, die Entwicklung, das Online Marketing und Print, in der jeweils anmutenden Farbe. Das konsequente Color-Coding dient der optimierten Benutzerführung, die Claims kommunizieren jeden Bereich zusätzlich.

Klicken Sie hier, um zu sehen was wir meinen