User agent поисковых роботов Яндекса, Google, Rambler, Yahoo, MSN, Alexa

User agent поисковых роботов Яндекса, Google, Rambler, Yahoo, MSN, Alexa

Поисковой робот или краулер (от англ. crawler) - программа, являющаяся составной частью поисковой системы, которая обходит страницы Интернета, скачивает ее и заносит в базу поисковика.

По своей сути краулер больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Глубина проникновения поискового робота внутрь сайта обычно ограничена.

Часто вебмастера сталкиваются с вопросом о юзер-агенте (User-agent) ботов той или иной поисковой системы. Зная значения User-agent для поисковых ботов, можно запретить, либо наоборот, открыть доступ тому или иному боту.

Например, следующими строками мы запрещаем всем ботам индексировать контент, кроме бота AdSense.

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Disallow:

В этой статье собраны основные индексирующие роботы поисковых систем.

Поисковые роботы Яндекса (Yandex)(Информация взята из хелпа Яндекса)

User-agent для Яндекса: Yandex

- Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот Яндекса.
- Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок.
- Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов.
- Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
- Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
- Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
- YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса




- YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
- YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
- Bond, James Bond (version 0.07) — робот официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает. Предположительно, робот занимается проверкой сайтов на нарушения – клоакинг и т.д.

IP-адреса роботов ЯндексаIP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов не разглашается.

Кроме роботов у Яндекса есть несколько агентов-«простукивалок» (так называемые “дятлы“) , определяющих доступность сайта или документа, по ссылке в соответствующем сервисе.

- Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Поисковые роботы Google (Гугл)User-agent для Гугла: Googlebot

- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - робот Google, понимающий протокол HTTP 1.1.
- Mediapartners-Google - поисковой роботы AdSens
- Googlebot-Image (Google) Googlebot-Image/1.0 - Индексатор картинок
- Google Search Appliance (Google) gsa-crawler - поисковой робот аппаратного поисковика Search Appliance

Поисковые роботы Rambler (Рамблер)User-agent для Рамблера: StackRambler

Поисковая система Рамблер имеет только робота, Ip-адрес которого может лежать в пределах интервала 81.19.64.0 - 81.19.66.255

- StackRambler/2.0 (MSIE incompatible)
- StackRambler/2.0

Поисковые роботы YahooUser-agent для Yahoo: Slurp или Yahoo! Slurp

- Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) - стандартный поисковой робот.
- Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) - новый поисковой робот Yahoo 3-го поколения, работает также как и предыдущий.

Поисковые роботы MSNUser-agent для MSN: MSNBot

- msnbot/1.1 (+http://search.msn.com/msnbot.htm) - основной индексирующий робот MSN.
- msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
- msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
- msnbot-news (+http://search.msn.com/msnbot.htm) - новостной робот.

Поисковые роботы AlexaUser-agent для Alexa: ia_archiver

- ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) - индексирующий робот Alexa, ему же мы обязаны попаданием в web.archive.org



Понравилось - репост:


Еще интересно почитать
Организация как ключ успеха для малого бизнеса
Лидерство: 7 правил жизни
Почему сложно разрабатывать качественные планы...
Работа – игра или привычка?
Ресурсы Интернета для малого бизнеса
Быть студенткой – это здорово!
Что необходимо знать при покупке готового бизнеса
Как добавить статью в индекс Яндекса наверняка (Yandex)
Усиление мотивации к изучению английского языка
Популярность интернет-аукционов в современном обществе
Растем или деградируем? Почему в жизни у нас разные результаты
На кого идти учиться?
Строим карьеру по-женски. 13 способов выгодно подать себя и свою работу
Поиск подходящего агента по страхованию бизнеса
Как устроиться на работу после 40
Простое счетоводство может сэкономить малому бизнесу деньги
Как сделать форму платежей PayPal?
Успеть за 60 секунд
Web-сайты для малого бизнеса: 10 шагов к успеху
Шесть вопросов об иностранном языке