User agent поисковых роботов Яндекса, Google, Rambler, Yahoo, MSN, Alexa

User agent поисковых роботов Яндекса, Google, Rambler, Yahoo, MSN, Alexa

Поисковой робот или краулер (от англ. crawler) - программа, являющаяся составной частью поисковой системы, которая обходит страницы Интернета, скачивает ее и заносит в базу поисковика.

По своей сути краулер больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Глубина проникновения поискового робота внутрь сайта обычно ограничена.

Часто вебмастера сталкиваются с вопросом о юзер-агенте (User-agent) ботов той или иной поисковой системы. Зная значения User-agent для поисковых ботов, можно запретить, либо наоборот, открыть доступ тому или иному боту.

Например, следующими строками мы запрещаем всем ботам индексировать контент, кроме бота AdSense.

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Disallow:

В этой статье собраны основные индексирующие роботы поисковых систем.

Поисковые роботы Яндекса (Yandex)(Информация взята из хелпа Яндекса)

User-agent для Яндекса: Yandex

- Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот Яндекса.
- Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок.
- Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов.
- Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
- Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
- Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
- YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса




- YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
- YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
- Bond, James Bond (version 0.07) — робот официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает. Предположительно, робот занимается проверкой сайтов на нарушения – клоакинг и т.д.

IP-адреса роботов ЯндексаIP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов не разглашается.

Кроме роботов у Яндекса есть несколько агентов-«простукивалок» (так называемые “дятлы“) , определяющих доступность сайта или документа, по ссылке в соответствующем сервисе.

- Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Поисковые роботы Google (Гугл)User-agent для Гугла: Googlebot

- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - робот Google, понимающий протокол HTTP 1.1.
- Mediapartners-Google - поисковой роботы AdSens
- Googlebot-Image (Google) Googlebot-Image/1.0 - Индексатор картинок
- Google Search Appliance (Google) gsa-crawler - поисковой робот аппаратного поисковика Search Appliance

Поисковые роботы Rambler (Рамблер)User-agent для Рамблера: StackRambler

Поисковая система Рамблер имеет только робота, Ip-адрес которого может лежать в пределах интервала 81.19.64.0 - 81.19.66.255

- StackRambler/2.0 (MSIE incompatible)
- StackRambler/2.0

Поисковые роботы YahooUser-agent для Yahoo: Slurp или Yahoo! Slurp

- Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) - стандартный поисковой робот.
- Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) - новый поисковой робот Yahoo 3-го поколения, работает также как и предыдущий.

Поисковые роботы MSNUser-agent для MSN: MSNBot

- msnbot/1.1 (+http://search.msn.com/msnbot.htm) - основной индексирующий робот MSN.
- msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
- msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
- msnbot-news (+http://search.msn.com/msnbot.htm) - новостной робот.

Поисковые роботы AlexaUser-agent для Alexa: ia_archiver

- ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) - индексирующий робот Alexa, ему же мы обязаны попаданием в web.archive.org



Понравилось - репост:


Еще интересно почитать
Что необходимо знать при покупке готового бизнеса
Поиск подходящего агента по страхованию бизнеса
Строим карьеру по-женски. 13 способов выгодно подать себя и свою работу
Прокладываем путь к высокой зарплате
Работа – игра или привычка?
Ресурсы Интернета для малого бизнеса
Растем или деградируем? Почему в жизни у нас разные результаты
Как добавить статью в индекс Яндекса наверняка (Yandex)
Киевляне зарабатывают в 2,5 раза меньше москвичей
Коворкинг: фрилансер ищет офис
Организация как ключ успеха для малого бизнеса
Web-сайты для малого бизнеса: 10 шагов к успеху
Простое счетоводство может сэкономить малому бизнесу деньги
Что значит быть успешной женщиной?
Как сделать форму платежей PayPal?
Быть студенткой – это здорово!
Издержки организации малого бизнеса - своевременный совет
Любимая работа – навсегда, или зачем нам пенсия?
Почему сложно разрабатывать качественные планы...
Как поднять индекс цитирования