Виды и возможности информационно-поисковых систем

Содержание:

Программы для скачивания бесплатных игр

Startpage: самая дискретная поисковая система в мире

Startpage.com называет себя «самой дискретной поисковой системой в мире». С 2016 года сервис был объединен с сайтом Ixquick. В качестве доказательства безопасности своего поиска Startpage.com позиционирует себя как единственная поисковая система, имеющая сертификат ЕС о конфиденциальности.

Startpage.com обещает не сохранять IP-адреса пользователей и, по утверждению сервиса, не использует файлы cookie для трекинга. Кроме того, Startpage.com доступен из сети Tor. Серверы поисковой системы находятся в Нидерландах.

У сайта есть удобная особенность: результаты поиска можно просматривать при помощи опции «Прокси», которая шифрует соединение с соответствующей веб-страницей с помощью прокси-сервера. Таким образом, это настоящий поисковик без запретов: можно спокойно просматривать то, что блокирует ваш провайдер.

Поисковые прокси: Startpage спокойно обходит блокировку Яндекс.DNS

Поисковые прокси — главная фишка Startpage, которые делают его поисковиком без цензуры. Если вам необходимо искать без блокировок, этот сервис для вас.

Типы поисковых систем по способу работы

Индексные поисковые системы собирают информацию в Интернете автоматически, с помощью специальных программ-роботов, посещающих веб-страницы. Они осуществляют всесторонний поиск по ключевым словам. Примерами таких поисковых систем являются Google, AltaVista, HotBot, Яндекс.

Индексная поисковая система состоит из трех основных компонентов:

Агент (паук или кроулер)

Агент – это специальная программа, которая запускается на сервере поисковой системы с целью посещения веб-страниц. Когда агент находит новую страницу, удовлетворяющую алгоритму поисковой системы, он индексирует ее, то есть добавляет в базу данных поисковой системы. Посещать страницы агенту помогает система гиперссылок, благодаря которой программа может бесконечно переходить с одной страницы на другую.

База данных поисковой системы

В ней хранятся все найденные и обработанные документы (индексы). Индекс позволяет быстро совершать поиск и обычно состоит из списка ключевых слов и информации о них (позиции в тексте, веса и др.). База регулярно обновляется, и именно из последнего ее обновления выдаются результаты для поставленного запроса. Частота обновления базы данных – критически важный параметр любой поисковой системы. Чем чаще происходит ее обновление, тем качественнее поисковая система.

Поисковый механизм

Поисковый механизм – интерфейс для взаимодействия пользователя и базы данных, то есть та самая программа, с которой мы непосредственно имеем дело.

Индексные поисковые системы работают по одному общему принципу. Сначала агент начинает сканирование сети с определенного адреса. На сервере создаются индексированные копии документов, своего рода вспомогательные файлы. Затем сохраненные документы просматриваются, определяются гиперссылки с этих страниц, по ним осуществляется переход на новые страницы. После сохранения копий найденных документов весь процесс повторяется. Все веб-страницы, проиндексированные поисковой системой, попадают в базу данных, что позволяет пользователю, формирующему запрос на поиск необходимой информации, мгновенно получить ссылки на нее.

Каталоговые системы поиска содержат тематически структурированный каталог серверов и чаще всего пополняются вручную модераторами. Эти системы устроены так же, как тематический каталог обычной библиотеки. Ссылки в них хранятся по теме категорий. Начав с основной страницы каталога, нужно выбрать ссылку, обозначающую главную категорию, а затем на последующих страницах указывать подкатегории до тех пор, пока не будут достигнуты ссылки на конкретные страницы. Каталог обычно имеет тематическую разбивку на подкаталоги, те в свою очередь могут подразделяться на более мелкие поддиректории и т. д. Ярким примером каталога является система Yahoo.

Индексные поисковые системы и поисковые каталоги отличаются так же, как содержание и алфавитный указатель в книге. Задача и содержания, и алфавитного указателя – помочь найти в книге нужный раздел. Содержание – это пример каталогизации. Алфавитный указатель – пример индексации. Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается.

Метапоисковые системы –это системы, которые используют для поиска базы данных других поисковых систем. Они посылают запрос одновременно на несколько поисковых систем, каталогов и иногда в так называемую невидимую (скрытую) паутину – хранилище онлайн-информации, не считанной традиционными поисковыми системами. Собрав результаты, метапоисковая система удаляет дублированные ссылки и в соответствии со своим алгоритмом объединяет результаты в общем списке. Примером такой системы может служить российское решение Nigma , использующее для поиска Google , Yahoo , Апорт и Яндекс.

А как у нас?

В России же ситуация сложилась по-своему уникальная. Во-первых, Google пришел на российский рынок еще в 2004 году, но за пятнадцать лет так и не смог закрепиться в вершине рейтинга. Первое место у нас безоговорочно принадлежит Яндексу. В 2003 году Google безуспешно пытался навязать Яндексу сотрудничество: цена отечественного поисковика выросла с $30 до $130 млн долларов, но переговоры длиной в год так ни к чему и не привели. Создатели Яндекса вовремя поняли, что речь идет не о слиянии, а о поглощении, и отказались от «выгодной» сделки. В итоге Google все-таки успел отжать у Яндекса существенную долю рынка, но не одержал верх. Негласное соревнование даже привело к судебным тяжбам на тему честной конкуренции. Конфликт, впрочем, разрешился в пользу отечественного поисковика.

Кроме Яндекса у нас действуют поисковики Rambler и Mail.ru, но их доля на рынке так мала, что в формате этой статьи они заслуживают только упоминания. В целом отечественные поисковые системы примечательны тем, что заточены на индексацию не всего подряд, а в основном ресурсов в доменных зонах с преобладающим русским языком. Также они индексируют и ищут тексты на украинском, белорусском, татарском, английском и других языках.

Поиск информации в интернете, справочники.

Российские и русскоязычные поисковые системы.

Yandex.ru Яндекс, поисковая система России, мегапортал.

Google.ru Гугл, поисковая система США, мегапортал.

Mail.ru   Мейл ру, почта, поисковая система, мегапортал.

Rambler.ru Рамблер, поисковая система, мегапортал.

Bing.com Бинг ком, поисковая система США Майкрософт.

D DuckDuckGo.com Дак Дак Го ком, минимум слежки.

Sputnik.ru Спутник, государственная поисковая система.

Iskomoe.ru Искомое, православная поисковая форма.

Каталоги и Рейтинги сайтов.

Radar.Yandex.ru Яндекс Радар, рейтинг сайтов России.

LiveInternet.ru Лив Интернет, рейтинг сайтов России.

Top.Mail.ru Топ Мейл ру, каталог и рейтинг сайтов.

Top100.Rambler.ru Рамблер Топ 100 рейтинг сайтов.

HotLog.ru/top Хот Лог ру, рейтинг сайтов России.

 NoFollow.ru НоФоллоу, поисковый каталог сайтов.

Hristianstvo.ru Христианство, каталог христианских сайтов.

Alexa.com Алекса ком, всемирный рейтинг сайтов.

Телефонные справочники онлайн.

AllInform.ru Алл Информ, телефонный справочник.

Bizly.ru  Бизли, Россия, Украина, Белоруссия, Казахстан.

Cataloxy.ru Каталоксы, бизнес каталог компаний.

E-Adres.ru Евро Адрес, справочник компаний России.

GMStar.ru Дж М Стар, справочник организаций.

  J Sprav.ru Жи Справ ру, организации России и СНГ.

K   KtoGdeEst.com Кто Где Есть ком, Москва.

Spr.ru   Спр ру, справочник по предприятиям.

Yell.ru   Йелл ру, справочник компаний с отзывами.

YPag.ru ЙПаг ру, бизнес справочник по СНГ.

Англоязычные поисковые системы.

Aol.com Аол | Entireweb.com Энтиревеб |

Gigablast.com Гигабласт | Info.com Инфо ком |

InfoSpace.com Инфо Спейс | Search.com Сеарч ком |

WebSearch.com Веб Сеарч | Yahoo.com Яху |

Yippy.com Йиппи

поисковые системы и сайты интернета, поисковики для раскрутки и продвижения сайта.

Поисковая система интернета – специализированный сайт для пользователей (лицо поискового сайта) , программа-паук для поиска информации в сети Интернет, располагается на сервере (отдельном компьютере, подключенном к интернету), база данных собранной информации о сайтах (кэшированные копии сайтов), а так же комплекс программ по сортировке и ранжированию результатов поиска (движок по выдаче результатов поиска пользователям). Многие поисковые системы ищут текст, изображения, видео и другие типы файлов. Алгоритм поиска по всемирной паутине World Wide Web Crawler и рейтинг выдачи результатов поиска SERP обычно являются запатентованными технологиями и коммерческой тайной, строго охраняются от конкурентов и раскрутчиков сайтов.

читать далее

Распределение поисковых систем мира

В каждом регионе и даже стране, есть известные всем сервисы для интернет поиска нужной информации, а также свои личные сайты, которые используют только в пределах этих стран. Общий график долей Поисковых систем мира согласно данным gs.statcounter.com выглядит так:

Как видим, неоспоримый лидер Google, однако существуют и другие мировые лидеры. Какие поисковые системы и их мировая доля относятся к»Other» (остальные) — смотрим в таблице:

Поисковая система Доля, %
Google (google.com) 90,15
Bing (bing.com) 3,23
Baidu (baidu.com) 2,2
Yahoo! (yahoo.com) 2,09
Yandex (yandex.ru) 0,80
Shenma (sm.cn) 0,56
DuckDuckGo (duckduckgo.com) 0,28
Naver (naver.com) 0,17
Haosou (so.com) 0,14
Sogou (sogou.com) 0,12
Daum (daum.net) 0,08
Seznam (seznam.cz) 0,04
Mail.ru 0,04
CocCoc (coccoc.com) 0,01
Qwant (qwant.com) 0,01
Ask Jeeves (ask.com) 0,01
Other 0,06

Google, Bing и ещё некоторые поисковики используются по всему миру. Существуют страны в которых на первом месте своя поисковая система, например Россия и Китай, как видно на карте. Подробнее статистику этих стран и их поисковиков рассмотрим ниже.

1.1 Краткая история развития поисковых систем

Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет. Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста – даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.

В 1997 году Сергей Брин и Лари Пейдж создали Googleсамую популярную на сегодняшний момент поисковую систему в мире.

23 сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет.

В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и КМ.ru

Правила поиска информации в сети интернет

Сейчас рассмотрим основные, но важные правила эффективного поиска актуальной информации в русскоязычной сети интернет с помощью компьютера.

  1. Формируйте правильную ключевую фразу для обращения к поисковой системе. Нельзя использовать только одно слово для поиска, если вы хотите получить действительно полезный результат, а также не стоит вводить и слишком большие фразы. Оптимальный размер поискового запроса составляет от 2 до 4 слов. Если в результатах поиска поисковиком найдено слишком мало результатов, то стоит попробовать переформулировать введенную фразу, заменив некоторые слова синонимами, а также проверить наличие орфографических ошибок в словах. Запомните: нет такой информации, которой нет в интернете. Просто подбирайте правильные слова, соблюдайте правила и вы найдете то, что ищете.
  2. Применяйте специальные операторы. Современный эффективный и быстрый поиск любой необходимой информации посредством поисковика и с помощью персонального компьютера подразумевает знание и применение некоторых хитростей, которыми являются сокращения и специальные символы-операторы. Операторы – значки, используемые при формировании запроса в поисковой системе и облегчающие поиск необходимых данных. Рассмотрим самые распространенные операторы и их значения, которые могут пригодиться на практике.
  3. Пробел или знак &  — означает, что требуется искать документы с требуемым словосочетанием в пределах одного предложения. Пример ввода в поисковую строку: вкусный рецепт или вкусный & рецепт.
  4. && — означает необходимость поиска страницы, на которой будут упомянуты отдельные слова из словосочетания в пределах всего текста, а не только одного предложения. Пример: вкусный && рецепт.
  5. | — вам будут предложены статьи, в пределах которых будет употреблено только 1 из введенных слов. Пример: брак | недостаток | дефект.
  6. + — означает поиск текста с обязательным сочетанием подряд слов, введенных между знаком «+». Пример: вкусный+рецепт.
  7. “ ” – поиск цепочки слов без ее разбивания на отдельные слова. Пример: “конфеты «Красная Поляна»”.

Соблюдая эти простые правила при поиске данных с помощью компьютера и интернета, вы облегчите себе задачу и всегда быстро сможете найти информацию, необходимую вам в любой момент времени.

Всемирные поисковые системы

В данном списке мы не будем рассматривать поисковые системы, известные каждому, а следовательно вы не увидите в нем таких названий, как: , Яндекс, Yahoo, Bing. Список содержит в себе множество альтернативных поисковых систем.

AOL – AOL предоставляет результаты поиска вместе с содержанием (сниппеты). Данная поисковая система позволяет осуществлять поиск интернет-страниц, изображений и видео, новостей, а также есть опция «критерии отсеивания», т.е. возможность выбора фильтра по поиску: за все время, 24 часа, неделю или месяц, указывать локацию).

ScrubTheWeb – обеспечивает систематизированные результаты поиска и предоставляет бесплатные SEO-инструменты для анализа сайтов.

Ecosia – это поисковая система в интернете, владельцы которой выделяют 80% своей дополнительной прибыли на посадку деревьев. Данная система предоставляет поиск веб-сайтов, изображений, новостей, видео и др.

MyWebSearch – поисковая система, которая показывает результаты поиска Google. Позволяет проводить поиск веб-сайтов, изображений и видео, новостей, товаров в интернет магазине, карт и прочего.

Teoma – поисковая система в интернете со своим алгоритмом популярности ссылки. Позволяет проводить поиск веб-сайтов, изображений и видео, новостей, кулинарных рецептов, а также много другого.

InfoSpace – предлагает поисковую систему, а также решение по монетизации в поиске (партнерская программа). Комбинированная поисковая система позволяет проводить поиск интернет-страниц, изображений и видео, а также новостей.

Giga Blast – насчитывает миллиарды страниц и обеспечивает мгновенную и свежую информацию. Данная система предназначена только для поиска веб-страниц, однако к ним прилагается фильтр для расширенного типа поиска.

Поисковые системы разных стран

Baidu – поисковая система Китая, предназначенная для поиска интернет-сайтов, новостей, карт, изображений, аудио и видеофайлов. Она также предоставляет определения и позволяет осуществлять поиск с использованием изображений. Другие системы поиска в Китае: Yam, Youdao, Sogou.

Naver – первый интернет-портал Южной Кореи, который позволяет проводить поиск интернет-сайтов, определений, изображений, новостей, статей, видео. Помимо этого, данная поисковая система предоставляет и другие интернет-услуги. Остальные поисковые системы Южной Кореи: Nate.

Goo – поисковая система и интернет-портал Японии, которая предназначена преимущественно для японских сайтов и позволяет вести поиск интернет-сайтов, изображений, блогов, карт и даже терминологических определений. Другие поисковые системы Японии: Biglobe.

Rambler – интернет-портал России, предоставляя такие услуги, как: поисковая система, электронная почта, портал новостей, финансовый портал и т.д. Он позволяет пользователям проводить поиск интернет-сайтов и изображений, а также опции фильтра. Другие поисковые системы России: Поиск Mail.ru, Спутник.

Seznam – интернет-портал и поисковая система Чехии. Позволяет просматривать страницы в интернете, карты, фотографии и видео, терминологические пояснения, товаров и прочего.

SAPO (Servidor de Apontadores Portugueses) – это провайдер услуг Португалии. Он заключает в себе систему поиска, позволяющую вести поиск интернет-сайтов, изображений и видео, новостей и блогов.

Virgilio – интернет-портал и поисковая система Италии, которая позволяет пользователям выполнять поиск интернет-сайтов, изображений и видео, компаний и карт. Другие поисковые системы Италии: Libero.

Diri – интернет-портал Болгарии, который предоставляет поисковые, новостные и прочие виды услуг. Позволяет осуществлять поиск интернет-сайтов, описаний терминов, рейсов авиалиний, блогов, музыки, видео и другого.

Search – поисковая система и интернет-портал Швейцарии, предоставляющий прогноз погоды, карты, кинофильмы и прочие услуги.

Najdi – поисковая система, разработанная специально для Македонии. В отличии от большинства поисковых систем, она не предназначена для просмотров содержания интернет-сайтов, задействуя вместо этого источники RSS либо другие XML-файлы.

Search Nigeria (закрылся)– интернет-портал и поисковая система Нигерии. Позволяет проводить поиск интернет-страниц, изображений и видео, новостей, блогов и др.

Das Oertliche – интернет-портал и локальный каталог Германии, позволяющий своим пользователям определять местоположение, используя мобильные номера, имена или название улиц.

Ukr.net – интернет-портал, самый популярный сайт Украины 2014 г. с функцией поиска.

Основные алгоритмы поиска и ранжирования сайтов

Поиском в Яндексе занимается алгоритм MatrixNet, который автоматически сканирует и индексирует страницы сайтов.

Алгоритмов ранжирования в Яндексе более 800. Все они учитывают такие факторы:

Уникальность и полезность контента. Яндекс очень не любит плагиат, поэтому сайт, на котором распространен копипаст может быстро попасть под фильтр и не выводиться в результаты поиска.
Структура информации

Важно, чтобы каждая страница была в зоне досягаемости 3 кликов.
Скорость работы. Время загрузки сайта и отклика на запросы также имеет значение для поисковика.
Цитируемость

Внешние ссылки важны для хорошего ранжирования.
Наличие или отсутствие спама. Слишком частый повтор ключевых слов может «похоронить» страницу для Яндекса. Оптимальное значение плотности ключей – 3-5%.
Надежный хостинг. Безопасный и постоянно доступный сервер имеет значение для ранжирования сайта.

Интересно, что Яндекс внедрил алгоритм, прозванный в народе «Бандитом». Это система, подмешивающая в результаты поиска страницы с более низким рейтингом, для получения статистики по таким результатам и обеспечения ротации материала.

Поиск в Google обеспечивает алгоритм Googlebot. Для мобильных устройств и индекса картинок используются различные разновидности этой программы. Googlebot тоже не любит молодые сайты возрастом до 3 месяцев. Для них есть специальный фильтр Sandbox, который не позволяет «молодняку» выбиться в ТОП 10 по ВЧ запросам. При индексации учитывается возраст сайта, а не домена.

Googlebot имеет два индекса: основной и supplemental index, «сопли». Первый индексирует и ранжирует сайты, учитывая фильтры и санкции. Второй индексирует все страницы подряд и выдает неликвидные результаты только при расширенном поиске.

Для ранжирования страниц используется система расчета PageRank. Суть ее заключается в своеобразном голосовании интернет-ресурсов. Если сайт Х разместил ссылку на сайт Y, то он, выражаясь простым языком, проголосовал за него. Чем больше «голосов» получает страница, тем популярнее и релевантнее она становится. Такие страницы попадают в топ Гугла.

В идеале, чтобы повысить популярность своего сайта, необходимо наполнить страницы интересным материалом, на который люди захотят сделать ссылки.

Но поскольку этот подход порождает множество злоупотреблений, поисковик оснастили системой по распознанию мошенника и наложению санкций на такой сайт.

О принципах работы всех поисковых систем простыми словами

Поисковая система — специальная программа с удобным веб-интерфейсом, с помощью которой пользователи могут быстро и легко искать необходимую информацию в Сети. Рассмотрим принцип работы любого поисковика без углубления в детали и техническую терминологию.

Для того чтобы поисковая система могла выдавать пользователю список ссылок страниц, на которых содержится информация по поисковому запросу, она должна знать содержание контента всех разделов каждого сайта. Как поисковик собирает эти данные?

Интернет — это особая сеть, состоящая из отдельных страниц, ссылающихся друг на друга. Поисковой системе не обязательно заходить на каждую из них, достаточно иметь информацию о сайтах и каталогах с самыми высокими рейтингами, чтобы аккумулировать данные о страницах для последующего закачивания.

Поисковик, по сути, создает предметный указатель, в котором адреса всех интернет-страниц сгруппированы особым образом. Если в Сети появился новый сайт, на который не ссылаются другие ресурсы, то поисковой системе будет трудно его найти, чтобы проиндексировать и занести в свою базу.

После того как поисковик сформировал список страниц, начинается процесс индексации (работа по скачиванию с них всех данных). С помощью специально созданных для этих целей программ поисковая система записывает новую информацию или перезаписывает старую, удаляя неактуальные сведения. Работа по индексации сайтов в Интернете идет непрерывно.

Программы собирают данные во временное хранилище. Там они накапливаются до определенного количества, после чего запускается процесс апдейта, основной принцип работы которого — актуализация информации в основной базе поисковой системы.

В индексе поисковиков находится огромное количество страниц. Когда пользователь вводит запрос в поисковой строке, поисковая система отбирает релевантные ссылки из своей базы. Другими словами, она составляет список сайтов, на страницах которых упоминаются ключевые слова, заданные пользователем.

Так как внутренняя база поисковой системы огромна, то поисковая выдача может содержать десятки страниц. Как же поисковик их ранжирует? По какому принципу определяет, какие страницы показывать пользователю в первую очередь? Все страницы сортируются по соответствию контента поисковому запросу. Чем выше показатель полноты содержащейся на странице информации, тем ближе будет страница к началу списка.

В настоящее время поисковые системы применяют машинное обучение для ранжирования страниц в поисковой выдаче. Принцип действия этого процесса можно рассмотреть на абстрактном примере.

Допустим, нам нужно обучить робота отличать спелые яблоки от неспелых. Программа для определения свойств фрукта ориентируется на его характеристики:

  • цвет;
  • размер;
  • твердость;
  • содержание сахара;
  • содержание кислоты.

Для анализа роботу дают два яблока: незрелое и готовое. Он их сравнивает. Затем проводим обучение машины — показываем, какие характеристики яблока являются положительными, какие отрицательными. Объясняем, по какому набору параметров фрукт можно отнести к спелому или нет.

Таким образом, у нас есть алгоритм для анализа яблок, с помощью которого робот может их самостоятельно сортировать. Теперь можно давать не два фрукта, а гораздо больше, машина будет сама их делить на спелые и незрелые.

Подобный принцип работы заложен в работе поисковой системы. Есть специалисты, занимающиеся обучением машин алгоритмам сортировки контента. Сначала они самостоятельно анализируют страницы, попавшие в выдачу по поисковому запросу, разделяя их на релевантные и нерелевантные. Затем обучают робота сортировать страницы.

Релевантность страниц — это показатель в виде дробного числа. Каждой странице присваивается свое значение релевантности. Потом все ресурсы сортируются в порядке убывания этого показателя. В ТОП поисковой выдачи попадают самые релевантные сайты.

Помимо основного алгоритма сортировки, поисковые системы используют различные дополнительные, которые также могут влиять на поисковые результаты. Например, с их помощью можно фильтровать недобросовестные сайты, использующие разные «серые» схемы для продвижения.

Вас также может заинтересовать: Эффективное продвижение сайта – сложно, но возможно с нашей подсказкой

Принципы работы поисковой системы

Модуль индексирования.

Spider
(по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.

  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.

Crawler

Indexer
(робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

Поисковый сервер

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).

Из пяти отдельных программных компонент состоят поисковые системы, а именно:

  • Паук
    (spider
    ): его задача — скачивать WEB страницы; программа, которая подобна WEB браузеру.
  • Crawler
    : паук, которого называют «путешествующим»; он автоматически переходит по всем ссылкам, которые были найдены на странице.
  • Индексатор
    (indexer
    ): программа, которую называют «слепой»; ее задача анализировать WEB страницы, которые были скачены пауками.
  • База данных
    (database
    ): она является хранилищем страниц, которые были сначала скачены, а потом подвергнуты обработке.
  • Система выдачи результатов
    (search engine results engine
    ): данная система помогает извлекать результаты поиска из базы данных.
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *