В файле robots.txt представлена информация о детальной настройке методов индексации сайта специализированными ботами поисковых систем Google и Яндекс. Итак, что же такое robots.txt? Это текстовый файл, который расположен в  корневой директории сайта. В случае верного размещения файла, ссылка на него будет выглядеть следующим образом: site.ru/robots.txt

Управление индексацией – важно ли это?

Да, это действительно необходимо, поскольку в индекс поисковых систем, если не уделить особое внимание данному вопросу, попадают страница, не несущие никакой пользы пользователям.  Вроде бы, что тут такого криминального? Дело в том, что к таким ресурсам снижается доверие поисковых систем, а значит и выдача будет не такая, какую бы хотелось видеть.

Какие страницы необходимо закрывать в robots.txt?

1 Корзину магазина и страницы оформления заказов

2 Страницы сравнения и сортировки товаров

3 Страницы регистрации пользователей и их авторизации

4 Фильтры, языковые версии и теги, если они не оптимизированы и модерированы

5 Личный кабинет и профили пользователей

6 Лэндинги акций и распродаж

7 Системные файлы и каталоги

8 Версии для печати и пустые страницы сайта

9 Прочие страницы, которые не полезны, не готовы и не проработаны

Влияние файла robots.txt на «Яндекс»  и «Google»

Поисковая система «Яндекс» описанные в файле правила считает приоритетными и пока не индексирует страницы, указанные в нем. А вот поисковая система «Google» решает самостоятельно какие же страницы индексировать, но стоит учесть, что используя  robots.txt снижается вероятность попадания в Google ненужных страниц.

В связи с особенностями работы Google предлагаем воспользоваться мета-тег robots:

« <html>

<head>

<meta name=“robots” content=“noindex,nofollow”>

<meta name=“description” content=“ страница ….”>

<title>…</title>

</head>

<body> »

Не стоит использовать онлайн-генераторы, поскольку выхлопа от их работы совершенно нет.

Как правильно настроить robots.txt?

По своей структуре файл robots.txt содержит несколько пронумерованных указаний робота, в которых прописываются директивы для выполнения и дополнительные опции. В зависимости от вида директивы прописывается различная система работы.

Итак, директива User-agent: в ней необходимо указать наиболее актуальные правила.

Наиболее часто встречаются записи:

  • User-agent: * (для всех роботов);
  • User-agent: Yandex (для всех роботов Яндекса).

Советуем использовать в работе обе записи как для роботов Яндекса, так и для все остальных.

Для Яндекса лучше использовать следующие юзер-агенты:

  • YandexBot (основной робот для индексации)
  • YandexMetrika (робот Яндекс.Метрики)
  • YandexDirect и YaDirectFetcher (роботы по подбору релевантной рекламы)
  • YandexMarket (робот Яндекс.Маркета)
  • YandexNews (робот Яндекс.Новостей)
  • YandexImages (робот Яндекс.Картинок)
  • YandexDirectDyn (робот динамических баннеров)
  • YandexBlogs (робот постов и комментариев)
  • YandexCalendar (робот Яндекс.Календаря)
  • YandexMedia (робот мультимедийных данных).

Для поисковой системы Google используются иные юзер-агенты:

Для поисковой системы Google используются иные юзер-агенты:

  • Googlebot (анализатор контента сайта)
  • AdsBot-Google (робот для веб-страниц на компьютерах)
  • Googlebot-Mobile (робот для индексации работы сайта на мобильных устройствах)
  • Mediapartners-Google (робот AdSense)
  • AdsBot-Google-Mobile (робот для определения качества рекламы, демонстрируемой на Android и IOS)
  • Googlebot-Image (робот изображений и картинок)
  • Googlebot-News (робот Google новостей)
  • Googlebot-Video (робот Google видео).

Директива Disallow наиболее часто используется в robots.txt, поскольку именно она позволяет качественно закрыть ненужные для индексации страницы.

Директива Host указывается в конце файла robots.txt. Наиболее часто встречаются записи:

User-agent: Yandex

Disallow: /cgi-bin

Host: site.ru

Директива Sitemap прописывается в корне сайта. Важным фактором является то, что необходимо указывать абсолютный путь в виде: https://site.ru/site_structure/my_sitemaps1.xml

Директива Clean-param применяется в случаях, когда на сайте есть динамические параметры, не влияющие на содержимое страницы.