Как работает поисковик

Без поисковых машин не было бы никакого Интернета, т.к. невозможно было бы найти нужную нам информацию. Это все равно, что придти в библиотеку и пытаться найти нужную книгу, не используя каталог.

Как же работают поисковые машины?

Давайте обратим внимание, каким образом мы ищем информацию в повседневной жизни, например, в книге.

Оглавление. Мы просматриваем оглавление книги и переходим на нужную страницу.

В сети роль оглавления взяли на себя Каталоги. Просматривая разделы и подразделы Каталога, можно найти интересующий нас сайт. "Беда" только в том, что не представляется возможным внести в такой Каталог все ресурсы Интернета. Да и скорость+удобство поиска по такому Каталогу будет невелика.

Ссылки. Такой способ в повседневной жизни применяется не очень часто. Например, часто ли вы встречаете в книге подобный текст: "подробнее смотри стр. №"? В Интернете же, как раз все наоборот. Ссылки являются основой всемирной сети. Как привило их называют с приставкой гипер-: гиперссылки.

Индекс. Это основа поисковых машин. По аналогии с книгой - это особый классификатор популярных слов, приводимый в конце книги, с указанием номеров страниц, где встречается это слово.

Когда мы вводим какой-либо запрос в строку поиска машины - мы фактически обращаемся к индексу. Грубо говоря, поисковая машина - это компьютерная программа, которая составляет индекс (индексирует) определенный сегмент Интернета; хранит у себя эту информацию; ищет и выдает информацию по запросу пользователя.

Для того, чтобы что-то проиндексировать, надо попасть на это "что-то" - в нашем случае - веб-страницы сайтов. Поэтому, изначально вводится некий стартовый список сайтов, которые обходит поисковая машина. Сайты содержат гиперссылки на другие страницы (как своего сайта, так и на "сторонние" ресурсы). Поисковая машина переходит по найденным ссылкам и индексирует посещаемые страницы. Теперь понятно - почему новый сайт никогда не попадет в индекс поисковой машины, если на него не будет ни одной ссылки с других сайтов: поисковик просто не сможет узнать о существовании такого сайта.

Таким образом поисковая машина обходит миллиарды веб-страниц. Но в чем заключается процесс "обхода" страниц? Поисковик содержит особый робот-паук, который называют "краулер". Задача краулера - выкачать "нужный" (чистый) текст с посещаемой страницы и передать его индексному роботу, который будет заниматься непосредственным индексированием.

Теперь, когда мы вводим свой поисковый запрос, машина обращается к своему индексу и извлекает оттуда нужную информацию. Обычно нам показывается: титул страницы (ее заголовок); дата создания; УРЛ; "кусок" текста страницы с искомым фрагментом. Работа поисковика тем лучше, чем более "нужные" (релевантные) страницы нам выдаются.