Главная Обратная связь

Дисциплины:






Поисковая база данных и поисковая система



Функциональное устройство вербальных ИПС

Архитектура вербальных поисковых систем

Основным инструментом поиска в Интернет следует считать вербальные поисковые системы. Как и у локальных ИПС, это тип систем посткоординатного типа, который "противостоит" предкоординируемым ИПС – классификационным (тематическим каталогам). В английской литературе за ними закрепился термин "search engine". По-русски мы предлагаем называть их "поисковые системы".

Веб-сайты – это все информационные ресурсы Интернет, точнее, те, просмотр которых обеспечивается программой-роботом.

Робот – система, обеспечивающая просмотр (сканирование) Интернет и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии инфор­мационных ресурсов сети.

Поисковая база данных – так называемый индекс – специальным образом организованная база (англ. index database), включающая прежде всего инвертированный файл, который состоит из лексических единиц проиндексированных веб-документов и содержит другую разнообразную информацию о лексемах (в частности, их позиция в документах), документах и сайтах в целом.

Клиент – это программа просмотра информационных ресурсов в веб-сервисе, по-другому, веб-клиент. (Наиболее популярны сегодня мультипротокольные программы Internet Explorer и Netscape Navigator). Эта же программа обеспе­чивает просмотр документов различных сервисов и общение с поисковой системой.

Пользователь – 1) поисковые предписания, которые вводятся через пользовательский поисковый интерфейс; в некоторых системах сохра­няются в личной базе данных пользователя внутри поисковой системы;

2) результаты поиска

Пользовательские (поисковые) интерфейсы – экранные формы общения пользователя с поисковым аппаратом: системой формирования за­просов и просмотров результатов поиска.

Поисковая система – подсистема поиска, обеспечивающая обработку поискового предписания пользователя, поиск в поисковой базе данных и выдачу результатов поиска пользователю.

 

Роботы-индексаторы

"Робот" (robot, а также spider – "паук", crawler – "пловец", worm – "червяк") – подсистема (программа или набор программ), которая систематически исследует Интернет, обходит веб-сайты, находит документы, прочитывает их и, следуя ссылкам, указанным в документе, находит другие страницы данного сайта или другие сайты. Структура веб-пространства аналогична структуре ориентированного графа, поэтому здесь применимы алгоритмы обхода графа.



Существуют три метода такого обхода:

а) случайный выбор первого URL-адреса программой-роботом для инициализации поиска. Программа индексирует начальный документ, выделяет URL – адреса, указывающие на другие документы, а затем рекурсивно анализирует эти URL для поиска "преимущественно в ширину" или "преимущественно в глубину";

б) поиск начинается с набора URL-адресов, определяемых на основе популярности веб-узлов, а затем продолжается рекурсивно. Интуитивно понятно, что титульная страница популярного узла содержит URL-адреса, соответствующие наиболее часто запрашиваемой информации на данном и других веб-узлах;

в) веб-пространство делится на определенные части, например, на основе системы имен Интернет или кодов стран, и для полного исследования этих разделов выделяется отдельная программа-робот или несколько. (Такой метод используется чаще, чем первые два.)

Обработка документов в принципе подобна процедуре инвертирования файла с элементами автоматического индексирования. Последнего может и не быть, но все равно эта процедура и называется индексированием, даже если она ограничивается со­ставлением инвертированного файла, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее, тех­ническим аспектом создания поискового аппа­рата ИПС. Проблема, связанная с индексиро­ванием, заключается в том, что приписывание поискового образа документу или информаци­онному ресурсу опирается на представление о словаре (контролируемом или свободном), из которого эти термины выбирают­ся. Контролируемый словарь предполагал веде­ние лексической базы данных, до­бавление терминов в которую производилось бы администратором системы, и все новые доку­менты могли быть заиндексированы только те­ми дескрипторами, которые были в этой базе дан­ных. Естественно, в Интернет эта технология невозможна. Свободный словарь или пополняется автома­тически по мере появления новых терминов, или вообще является виртуальным, то есть, воображаемым, когда все термины инверсного файла (в идеале, все разные слова всех заиндексированных документов) считаются лексическими единицами ИПЯ (нередко инверсный файл так и называют словарем).

Разработка роботов – это довольно нетривиальная задача; существует опасность зацикливания робота. Остро стоит вопрос о быстродействии роботов.

Заказать и ускорить индексацию своего веб-сайта в поисковых системах роботами-индексаторами можно через ссылки типа Add URL или Submit your URL на сайте поисковой системы. Индексирование можно проводить и с помощью специальных бесплатных серверов-регистраторов. Существует проблема, как обеспечить повторное индексирование меняющихся ресурсов. В последнее время все большее распространение получает приоритетное индексирование за определенную плату.

Главная содержательная проблема при индексировании заключается в том, какие термины приписывать документам, откуда их брать. При этом следует учесть, что часть ресурсов вообще не является текстом, текстовые же ресурсы могут представлять собой целые книги. Роботы разных систем решают этот вопрос по-разному. Не следует думать, что все термины из документов попадают в их поисковые образы. Очень активно применя­ются списки запрещенных слов (stop-words), ко­торые не попадают в индекс – это общие, служебные слова (предлоги, союзы и т.п.) и незначимые слова. Многие системы индексируют лишь часть документа (обычно начальную), есть роботы, которые обрабатывают только часть веб-страниц с одного и того же сайта. И тем не менее, объем поисковых индексов глобальных ИПС уже сегодня измеряется терабайтами.

Обычно при индексировании обязательно используются различные "значимые" элементы гипертекстовой разметки: ссылки, заголовки, заглавия, аннотации, списки ключевых слов, и т.п. Для индексирования ресурсов telnet, gopher, ftp, а также нетекстовой информации используются главным образом URL, названия файлов, для новостей Usenet и почтовых списков рассылки – поля Subject и Keywords.

Знание того, как работают роботы, каковы их технические характеристики, полезно и для создателей веб-документов, и для составителей запросов при проведении поисков. Сведения о большом количестве роботов (более 200) можно почерпнуть из базы данных The Web Robots Database.

 

Поисковая база данных и поисковая система

 

После того как ресурсы выявлены, начинается построение поисковой базы данных – индекса. Ин­дексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориен­тированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зави­сят от многих факторов: алгоритм работы робота, размер массива поис­ковых образов, информационно-поисковый язык, критерий смыслового соответствия, размещение различных компонентов си­стемы и т.п. В основе индекса всегда лежит инвертированный файл. Инвер­тированный файл ставит в соответствие каж­дому ключевому слову документа список, содержащий идентификатор веб-страницы, содержащей это слово, позицию слова в документе в тех или иных терминах (например, идентификатор поля, номер предложения, номер слова). Указание положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

Третьим основным компонентом вербальной ИПС является поисковая система, которая при получении запроса пользователя просматривает индекс с учетом формулы запроса и других параметров, оценивает релевантность документов и возвращает пользователю ранжированный список документов.

Поиск в индексе – это операции над списками идентификаторов страниц в соответствии с моделью поиска и критерием соответствия. Например, при булевской модели это объединение (для операции дизъюнкция), пересечение (для конъюнкции) или дополнение (для отрицания). В ИПС в сети Интернет нередко используются гибридные модели, чаще всего являющиеся комбинацией логической и векторной моделей поиска.

Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список заголовков (кратких описаний документов), снабженных гипертекстовыми ссылками и другими характеристиками (данные о дате создания документа, его объеме, кодировке, сведений о сайте и пр.), возвращается пользователю в его клиентскую программу-браузер (см. рис.4.3). Щелчок по ссылке к одному из документов запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.

Важным фактором и характеристикой вербальных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь задает запрос (поисковое предписание) и через которые он получает результаты. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса и моделью поиска. Как правило, эти характеристики систем являются секретом фирмы.





sdamzavas.net - 2017 год. Все права принадлежат их авторам! В случае нарушение авторского права, обращайтесь по форме обратной связи...