Пошукова система в Java?

  1. I am trying to create a search engine just to learn and get more experience in Java.

    My intention is to store about 100 files on a server, a mixture of html, xml, doc, txt, and for each file to have meta data.

    SO when i search for a keyword, it should display a file with its meta description like Google.

    My question is, apart from html, can you add meta data to any other file formats, so that the meta description is shown.

  2. Would you be able to point me towards a Java search engine, that can search within file formats (txt,html) and display the result.

    I am working on my own code for this, but would like to have a look at other peoples code for some help?

10

8 Відповіді

Lucene is the canonical Java search engine.

Щоб додати документи з різних джерел, ознайомтеся з Apache Tika та повноцінною системою обслуговування/веб-інтерфейси, solr .

Lucene дозволяє пов'язати довільні метадані зі своїми документами. Tika буде автоматично видаляти метадані з різних форматів.

26
додано

1) Моє запитання окрім html, ви можете додати метадані до будь-якого іншого формату файлів, так що буде показано мета-опис.

Загалом, ви будете використовувати базу даних і зберігати метадані разом з документом там. Потім виконайте пошук за ключовими словами за допомогою запиту бази даних (можливо, використовуйте SQL-подібний чи іліке).

Файли можуть бути збережені на жорсткому диску лише за допомогою шляхів у БД або в базу даних як CLOB або BLOB, залежно від того, є у вас текстові або двійкові документи.

2) Чи зможете ви вказувати на пошукову систему Java, яка може виконувати пошук у форматах файлів (txt, html) і відображати результат.

Спробуйте Apache Lucene .

4
додано
  • Google ignores completely meta descriptions nowadays, because it has been either abused, or not filled with significant values
  • Lucene and/or Solr might do what you want, take a look.
  • 100 files is a very small amount, you won't have any problem to manage this amount of data in any way you like, if it's for exercise.
3
додано

... lucene і solr приходить на розум, коли стосується коду інших людей.

3
додано

Дуже добре Lucene . Є багато плагінів (це дозволить, наприклад, ви читали з .doc), підтримуєте кілька мов та багато алгоритмів (наприклад, відстань Левенштейна)

3
додано

Look at apache nutch

Apache Nutch is an open source web-search software project.

Nutch будує на вершині lucene/solr для індексації, був для аналізу документів і додає свій веб-сканер.

3
додано

Вам доведеться використовувати декілька бібліотек. Перш за все, як багато людей згадували раніше, ви можете скористатися Lucene для здійснення фактичного пошуку. Проте, Lucene обробляє лише текстовий текст, тому потрібно вилучити його з файлів, які ви індексували. Для цього ви можете використовувати Apache Tika .

Щоб розпочати, ви, мабуть, повинні купити книгу Lucene in Action 2nd Edition . Більшість прикладів у ньому все ще актуальні. Якщо ви хочете бути дешевими, ви також можете просто подивитися на наданий вихідний код на цій сторінці.

3
додано

Apache Tika to extract metadata.

Apache Tika Набір інструментів Apache Tika - це відкрите джерело ліцензії ASFv2   інструмент для вилучення інформації з цифрових документів. Tika дозволяє   пошукові системи, системи управління контентом та інші програми, що   працювати з різними видами цифрових документів, щоб легко виявити і   вилучення метаданих та вмісту з усіх основних форматів файлів.

2
додано
ІТ КПІ - Java
ІТ КПІ - Java
436 учасників