Robots руководство на русском

Содержание:

  1. Что такое файл robots.txt?
    • Для чего нужен файл robots.txt?
    • Нюансы при использовании файла robots.txt
  2. Терминология файла robots.txt
    • Директивы в robots.txt
      • Директива User-agent
      • Директива Disallow
      • Директива Allow
      • Алгоритм интерпретации директив Allow и Disallow
      • Пустые Allow и Disallow
      • Директива Sitemap
      • Директива Clean-param
      • Директива Host
      • Директива Crawl-delay
      • Комментарии в файле robots.txt
    • Маски в robots.txt: для чего нужны и как правильно использовать
  3. Общие правила составления robots.txt
    • Создание robots.txt
      • Ручное создание robots.txt
      • Онлайн создание файла robots.txt
    • Как проверить robots.txt
      • Проверки в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml
      • Проверки в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru
      • Проверка с помощью Google Robots.txt Parser и Matcher Library
    • Другие особенности работы с robots.txt
  4. Файл robots.txt по типам сайтов
    • Файл robots.txt для Landing Page
    • Файл robots.txt для интернет-магазина
  5. Готовые шаблоны файла robots.txt для популярных CMS
    • Файл robots.txt для WordPress
    • Файл robots.txt для 1С-Битрикс
    • Файл robots.txt для OpenCart
    • Файл robots.txt для MODx
    • Файл robots.txt для Diafan
    • Файл robots.txt для Drupal
    • Файл robots.txt для NetCat
    • Файл robots.txt для Joomla
  6. Популярные файлы robots.txt под задачи
    • Закрыть от индексации полностью сайт в robots.txt
    • Закрыть от индексации все страницы кроме главной в robots.txt
    • Закрыть одну страницу в robots.txt
    • Пример robots.txt для Яндекса
    • Пример robots.txt для Google
    • Пример robots.txt для всех поисковиков
  7. Популярные вопросы про файл robots.txt
  8. В заключение

Любой владелец многостраничного сайта заинтересован в получении трафика из поисковых систем, как рекламного, так и органического. Чтобы сайт по запросу пользователей выходил в выдаче Google и Яндекс (не важно топ 3, топ 10 или топ 100) необходимо, чтобы сайт прошел индексацию поисковыми системами. Индексация сайта — это процесс «сканирования» сайта поисковыми «роботами» в результате чего они получают информацию о всех его страниц и имеющемся на нем контенте.

На любом сайте есть не только контент для пользователей, но и различные системные файлы, которые не должны попадать в индексацию и соответственно в выдачу. Когда поисковый робот начинает сканировать сайт, для него нет разницы, системный перед ним файл или нет — он просканирует все. При этом на посещение сайта у поискового робота отведено ограниченное количество времени, поэтому важно, чтобы он проиндексировал именно нужные нам страницы. Иначе робот посчитает сайт бесполезным и позиции сайта могут в итоге снизиться в поисковой выдаче.

Со стороны владельца сайта можно повлиять на процесс сканирования сайта, прописывая определенные правила для поисковых роботов. Для того, чтобы поисковые роботы проиндексировали только необходимые для нас страницы, обязательно нужно создавать файл robots.txt с набором правил и фильтров.

Что такое файл robots.txt?

Файл robots.txt – это текстовый файл в формате .txt, который размещается в корневой папке сайта и содержит инструкции по обходу страниц, которые необходимо исключить из индексации поисковых систем.

Для сайта https://discript.ru/ путь размещения следующий: https://discript.ru/robots.txt

В нем есть своя структура, правила, и в целом он в некотором роде выполняет функцию «фильтра». Говоря проще, именно при помощи robots.txt мы указываем, какие страницы сайта робот должен сканировать, а какие – нет.

Файл robots.txt в Вебмастере фото

Пример файла robots.txt в панели Яндекс Вебмастер

Google: файл robots.txt носит рекомендательный характер и не служит для 100% ограничением для поисковых роботов. Предупреждение из Google фото

Источник справка Google: https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ru

Для чего нужен файл robots.txt?

Когда поисковый робот (краулер / паук) заходит на сайт, то в первую очередь он ищет именно этот файл.

При этом пауки в любом случае могут обойти страницы сайта — независимо от того, есть ли на нем robots.txt или нет. Просто если файл robots.txt есть, то роботы с высокой вероятностью будут следовать правилам, прописанным в файле.

А если он есть, но при этом неправильно настроен, то сайт и вовсе может выпасть из поиска или просто не будет проиндексирован.

Файл robots позволяет исключить из индекса:

  • Мусорные страницы.
  • Дубли страниц.
  • Служебные страницы.

Правильная настройка файла robots.txt позволяет сохранить крауленговый бюджет и повысить частоту сканирования нужных разделов.

К тому же вы можете запретить сканирование дополнительных файлов, таких как:

  • Дубли изображений в сжатом формате.
  • Дополнительные стили сайта.
  • Скрипты.

Но данные элементы следует запрещать к сканированию аккуратно, т.к. данное действие не должно мешать поисковым системам интерпретировать контент.

Нюансы при использовании файла robots.txt

Обратите внимание, что при работе с файлом robots.txt есть свои нюансы:

  1. Правила используемые в robots.txt не всегда интерпретируются всеми поисковыми системами одинаково.
    Например, директива «Clean-param» считается ошибкой при интерпретации Google.
  2. Для поисковых роботов правила являются рекомендациями и не всегда роботы следуют им.
  3. Если страница закрыта в файле robots.txt, но при этом на данную страницу есть ссылки, то Google может добавить такую страницу в индекс. И для удаления подобной страницы из поисковой выдачи требуются другие инструменты.

Терминология файла robots.txt

В файле robots.txt основная работа происходит с Директивами и Директориями, важно не запутаться и понимать отличия между терминами:

Директория — это папка, в которой находятся файлы вашей системы управления.

Директива — это список команд, инструкции в robots.txt для одного или нескольких поисковых роботов при помощи которых производится управление индексацией сайта. В файле robots.txt используются 5 директив.

Директивы в robots.txt

5 директив используемых в robots.txt:

  • User-agent
  • Disallow
  • Аllow
  • Sitemap
  • Clean-param

А так же:

  • Маски
  • Комментарии

Существует 2 устаревших директивы:

  • Host
  • Crawl-delay

Директива User-agent

User-agent — это директива для определения, какому поисковому боту необходимо выполнять указанные инструкции.
Все поисковые роботы начинают обработку robots.txt с проверки записи User-agent и определения подходящих инструкций работы с сайтом.

Примеры User-agent в robots.txt:

# Указывает директивы для всех роботов одновременно

User-agent: *

# Указывает директивы для всех роботов Яндекса

User-agent: Yandex

# Указывает директивы для всех роботов Google

User-agent: Googlebot

Через robots.txt можно обратиться не только к главному роботу поисковой системы, но и к вспомогательным роботам, например, в Яндексе есть робот, который индексирует изображения: YandexImages или робот, который индексирует видео: YandexVideo.

Существует мнение, что роботы лучше индексируют сайт, если к ним обращаться напрямую, а не через общую инструкцию, но с точки зрения синтаксиса разницы нет никакой.

Если в директиве User-agent указать конкретного робота, то учитывать правила общего назначения (User-agent: *) указанный робот не будет.

Кроме того, в robots.txt не имеет значения регистр символов. То есть одинаково правильно будет записать: User-agent: Googlebot или User-agent: googlebot.

Таким образом, директива User-agent указывает только на робота (или на всех сразу), а уже после нее должна идти команда или команды с непосредственным указанием команд для выбранного робота.

Директива Disallow

Disallow — запрещающая директива. Она запрещает поисковому роботу обход каталогов, адресов или файлов сайта. Данная директива является наиболее используемой. Путь к тем файлам, каталогам или адресам, которые не нужно индексировать, прописываются после слеша «/».

Рассмотрим несколько примеров

Как в robots.txt запретить индексацию сайта:

User-agent: *      # — Инструкции для всех роботов.
Disallow: /            # — Закрыты от индексации все страницы сайта.

Данный пример закрывает от индексации весь сайт для всех роботов.

Как robots.txt запретить индексацию папки wp-includes для всех роботов:

User-agent: *            # — Инструкции для всех роботов.
Disallow: /wp-includes       # — Закрыт от индексации раздел wp-includes.

Данный пример закрывает для индексации все файлы, которые находятся в этом каталоге.

А вот если вам, например, нужно запретить индексирование всех страниц с результатами поиска только от робота Яндекс, то в файле robots.txt прописывается следующее правило:

User-agent: Yandex       # — Инструкции для бота Yandex.
Disallow: /search         # — Закрыт от индексации раздел search.

Запрет на индексацию в этом случае распространяется именно на страницы, у которых в URL есть «/search».

Директива Disallow допускает работу с масками, которые позволяют производить операции с группой файлов и папок.

Директива Allow

Allow — разрешающая директива, логически противоположная директиве Disallow. То есть она принудительно открывает для индексирования указанные каталоги, файлы, адреса. Директива имеет синтаксис, сходный с Disallow.

Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:

User-agent: *       # — Инструкции для всех роботов.
Disallow: /       # — Закрыты от индексации все страницы сайта.
Allow: /blog       # — Открыт для индексирования раздел blog.

Запрещается индексировать весь сайт, кроме страниц, начинающихся с /blog.

Если же необходимо разрешить индексировать все страницы, в адресе которых присутствует вхождение blog, то следует использовать конструкцию:

User-agent: *       # — Инструкции для всех роботов.
Disallow: /            # — Закрыт от индексации все страницы сайта.
Allow: /*blog         # — Открыт для индексирования любые страницы с вхождением blog в URL.

Иногда директивы Allow и Disallow используются в паре. Это может понадобиться для того, чтобы открыть роботу доступ к подкаталогу, который расположен в каталоге с запрещенным доступом.

Алгоритм интерпретации директив Allow и Disallow

Когда бот определяет свои инструкции по User-agent, то встает вопрос, по какому алгоритму интерпретировать правила. Ведь одно правило, может противоречить другому. Или например, нужно открыть для индексирования вложенный раздел, но корневой закрыть от индексации.

Роботы интерпретируют robots.txt последовательно сортируя инструкции по длине URL от короткого к длинному. При этом если длина правила совпадает для Allow и Disallow, то более приоритетное правилом является Allow.

Рассмотрим механизм на примере:

Вам необходимо, чтобы раздел /catalog/mebel/divan/ индексировался роботом, а раздел /catalog/mebel/ был закрыть от роботов.
При этом Вы имеете следующий файл robots.txt

User-agent: *
Disallow: /catalog/avto/
Allow: /catalog/mebel/divan/
Disallow: /catalog/test/
Allow: /
Disallow: /catalog/mebel/

То робот информацию прочитает так:

User-agent: *                              # — Инструкции для всех роботов.
Allow: /                                       # — Сайт доступен для индексации
Disallow: /catalog/avto/              # — Раздел /catalog/avto/ закрыт для индексирования.
Disallow: /catalog/test/               # — Раздел /catalog/test/ закрыт для индексирования.
Disallow: /catalog/mebel/           # — Раздел /catalog/mebel/ закрыт для индексирования.
Allow: /catalog/mebel/divan/       # — Раздел /catalog/mebel/divan/ доступен для индексирования, при этом раздел /catalog/mebel/ и другие подразделы данного каталога закрыты от индексирования.

Зная, как боты интерпретируют правила из robots.txt дает больше возможностей по составлению правил для индексирования сайта.

Пустые Allow и Disallow

Если в файле robots.txt присутствуют пустые Allow и Disallow, то роботы интерпретируют их так:

Пустой Disallow — соответствует директиве Allow: /, т.е. разрешает индексировать весь сайт.

Пустой Allow — не интерпретируется роботом.

Директива Sitemap

Sitemap — директива указывающая ссылку на карту сайта: sitemap.xml. Данная директива позволяет боту быстрее найти файл sitemap.xml.

Robots.txt с указанием адреса карты сайта:

User-agent: *      # — Инструкции для всех роботов.
Disallow: /page      # — Закрыт от индексации раздел page.
Sitemap: http://www.site.ru/sitemap.xml

В файле robots.txt допускается использование нескольких директив Sitemap

Директиву Sitemap можно размещать с отступом в строку от других директив. Что в свою очередь значит, что данная директива не привязывается к определенному User-agent и достаточно указать 1 раз в файле robots.

Примеры допустимого использования директивы:

Второй вариант:

Директива Clean-param

Clean-param — директива позволяет исключить из индексации страницы с динамическими get-параметрами. Такие страницы могут отдавать одинаковое содержимое, имея различные URL (например, UTM). Данная директива позволяет сэкономить крауленговый бюджет за счёт исключения из индексирования страниц дублей. Clean-param интерпретирует только Яндекс, роботы Google на данную директиву выдадут ошибку.

Директива Clean-param применима только для Яндекса (Google выдаст ошибку), поэтому без особой надобности её использовать не рекомендуется.

Примечания:

  • Иногда для закрытия таких страниц используется директива Disallow. В некоторых случаях рекомендуем использовать Clean-param, так как эта директива позволяет передавать основному URL или сайту некоторые накопленные показатели, например ссылочные.
  • Директива Clean-Param может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.
  • Директива имеет ограничение на 500 символов. Если требуется больше символов, то необходимо использовать несколько директив Clean-Param.

Рекомендации к применению:

  • При использовании UTM-меток
  • Дубли генерируемые get-параметрами
  • При использовании идентификаторов в get-параметрах.

Синтаксис директивы Clean-param:

Clean-param: parm1&parm2&parm3 [Путь]

Синтаксис директивы Clean-param фото

Через & указаны параметры, которые необходимо не учитывать,
[Путь] — адрес, для которого применяется инструкция. Если данного параметра нет, то применяется ко всем страницам на сайте.

В директиве Clean-param допускается использовать регулярные выражения, но с ограничениями.

При использовании регулярных выражений необходимо использовать следующие символы: a-z0-9.-/*_.

Рассмотрим на примере страницы со следующим URL:

  • www.site.ru/page.htm
  • www.site.ru/page.html?&parm1=1&parm2=2&parm3=3
  • www.site.ru/page.html?&parm1=1&parm4=4

Данные страницы являются дублями и имеют одинаковый контент. Поэтому нам необходимо с помощью директивы Clean-param удалить из индексирования страницы с параметрами:

  • parm1
  • parm2
  • parm3
  • parm4

Ограничение учета параметров только для раздела /page

User-agent: *
Disallow: /catalog
Clean-param: parm1&parm2&parm3&parm4 /page # Исключить параметры parm1, parm2, parm3, parm4 и только для page.html

Ограничение учета параметров только для всего сайта

User-agent: *
Disallow: /catalog
Clean-param: parm1&parm2&parm3&parm4 # Исключить параметры parm1, parm2, parm3, parm4 на всех страницах сайта.

Пример использования регулярных выражений. Ограничение учета параметров для страниц в URL, у которых есть вхождение page.

User-agent: *
Disallow: /catalog
Clean-param: parm1&parm2&parm3&parm4 /*page # Исключить параметры parm1, parm2, parm3, parm4 для всех страниц содержащих вхождение в URL page.

Директива Host

Host — директива указывающая поисковым роботам Яндекса главное зеркало ресурса.

Директива Host перестала учитываться поисковой системой Яндекс в марте 2018 года. (В Google никогда не учитывалась). Данную директиву можно удалить из файла, но на зеркалах необходимо настроить 301-редирект. Подробнее по ссылке: https://yandex.ru/blog/platon/pereezd-sayta-posle-otkaza-ot-direktivy-host

Данная директива применялась для проектов, где доступ к сайту осуществляется по нескольким адресам.

Например, сайт мог быть доступен по следующим адресам:

  • site.ru
  • www.site.ru
  • old.site.ru
  • site.com

Но контент на данных страницах полностью дублировался.

Пример файла robots с директивой Host:

User-agent: Yandex
Disallow: /page
Host: site.ru            # Указание основного зеркала сайта

Директива Crawl-delay

Crawl-delay — директива позволяющая задать скорость обхода страниц поисковым ботам для вашего ресурса. Данная директива учитывались только Яндексом. На текущий момент не поддерживается совсем.

Директиву Crawl-delay с 22 февраля 2018 года Яндекс перестал учитывать. Подробнее по ссылке https://yandex.ru/support/webmaster/robot-workings/crawl-delay.html

Если необходимо указать скорость обхода для поискового бота используйте панель вебмастера https://yandex.ru/support/webmaster/service/crawl-rate.html#crawl-rate

Комментарии в файле robots.txt

Комментарии в robots.txt — поясняющие заметки, которые не интерпретируются роботами и позволяют пользователю получить уточнения по работе директив.

Комментарии пишутся после символа решетки «#» и действуют до конца строки.

Комментарии упрощают работу и помогают быстрее сориентироваться в файле. В комментарии добавляют актуальную и полезную информацию, например, ссылку на партнерку:

Пример комментариев в файле robots.txt

Некоторые вебмастера добавляют в комментариях к robots.txt рекламные тексты.

В комментариях robots.txt можно прописать все, что угодно, однако идеальный комментарий— это тот, в котором мало строк, но много смысла.

Маски в robots.txt: для чего нужны и как правильно использовать

Маска в robots.txt — это условная запись, в которую входят названия целой группы папок или файлов. Маски используются для того, чтобы одновременно совершать операции над несколькими файлами (или папками) и обозначаются спецсимволом-звездочкой — «*».

На самом деле, использование масок не только упрощает работу, оно зачастую просто необходимо. Предположим, у вас на сайте есть список файлов в папке /documents/. Среди этих файлов есть презентации в формате .pdf, и вы не хотите, чтобы их сканировал робот. Значит эти файлы нужно исключить из поиска.

Как это сделать? Можно перечислить все файлы формата .pdf вручную:

  • Disallow: /documents/admin.pdf
  • Disallow: /documents/town.pdf
  • Disallow: /documents/leto.pdf
  • Disallow: /documents/sity.pdf
  • Disallow: /documents/europe.pdf
  • Disallow: /documents/s-112.pdf

Но если таких файлов сотни, то указывать их придется очень долго, поэтому куда быстрее просто указать маску *.pdf, которая скроет все файлы в формате pdf в рамках одной директивы:

  • Disallow: /documents/*.pdf

Специальный символ «*», который используется при создании масок, обозначает любую последовательность символов, в том числе и пробел.

Пример использования маски.

User-agent: *
Disallow: /
Disallow: *.pdf             # — Закрыты от сканирования все файлы pdf.
Disallow: admin*.pdf         # — Закрыты от сканирования файлы pdf из раздела admin.
Disallow: a*m.pdf         # — Закрыты от сканирования файлы pdf из разделов начинающихся на a и m перед расширением файла .pdf.
Disallow: /img/*.*         # — Закрыты от сканирования все элементы в папке img.
Allow: /*blog            # — Открыты для индексирования любые страницы с вхождением blog в URL.

Общие правила составления robots.txt

Очень важно грамотно работать с файлом robots.txt, иначе можно собственноручно отправить на индексацию документы, которые индексировать не планировалось.

  • наличие файла robots.txt на сайте;
  • в правильном ли месте он расположен;
  • грамотно ли он составлен;
  • насколько он работоспособен, т.е. доступны ли указанные в нем документы для индексации.

Файл robots.txt должен располагаться исключительно в корневой папке сайта, т.е. он должен быть доступен по адресу site.ru/robots.txt.

Не допускается наличие вложений, например, site.ru/page/robots.txt. Если файл robots.txt располагается не в корне сайта (и у него другой URL), то роботы поисковых систем его не увидят и будут индексировать все страницы сайта.

При этом важно помнить, что файл robots.txt привязан к адресу домена вплоть до протокола. То есть для http и https требуется 2 разных robots.txt, даже если затем адреса совпадают. Также один и тот же файл нельзя использовать для субдоменов (хостов) и других портов.

Один robots.txt действителен для всех файлов во всех подкаталогах, которые относятся к одному хосту, протоколу и номеру порта.

Корректность файла robots.txt можно оценить, проверив его по следующим пунктам:

  1. Один файл robots.txt.Файл должен быть один для каждого сайта и называться он должен robots.txt.
  2. robots.txt отсутствует или он закрыт от индексирования (Disallow: /);
  3. Размещение robots.txt в корне сайта. Файл robots.txt должен располагаться в корневой папке сайта. Если он расположен в другом месте, то роботы его не увидят и будут индексировать весь сайт (включая файлы, которые индексировать не нужно).
  4. Заглавные буквы в названии не используются.

    Неверно:

    site.ru/RoBoTs.txt

    Верно:

    site.ru/robots.txt

  5. Запрещено использовать кириллицу в директориях robots.txt. Чтобы указывать названия кириллических доменов, нужно использовать Punycode для их преображения. Адреса сайтов также указывают в кодировке UTF-8, включающей коды символов ASCII.

    Для перевода кирилического URL используйте инструмент: https://www.punycoder.com

    Неверно:

    User-agent: Yandex
    Disallow: /корзина
    Sitemap: сайт123.рф/sitemap.xml

    Верно:

  6. Инструкции пишутся отдельно для каждого робота, т.е. в директиве User Agent не допускается никаких перечислений. Если хотите назначить правила для всех роботов, то необходимо использовать User-agent: *. В файле robots.txt знак «*» — это любое число любых символов;

    Неверно:

    User-agent: Yandex, Google, Mail
    Disallow: /

    Верно:

    User-agent: Yandex
    Disallow: /

    User-agent: Google
    Disallow: /

    User-agent: Mail
    Disallow: /

  7. Есть несколько правил для одного агента, например, несколько правил «User-agent: Yandex». В правильно составленном файле такое правило может быть только одно.

    Неверно:

    User-agent: Yandex
    Disallow: /

    User-agent: Yandex
    Disallow: /catalog

    User-agent: Yandex
    Disallow: /test

    Верно:

    User-agent: Yandex
    Disallow: /
    Disallow: /catalog
    Disallow: /test

  8. Каждая директива должна начинаться с новой строки;

    Неверно:

    User-agent: *
    Disallow: /catalog Disallow: /new Allow: /test

    Верно:

    User-agent: *
    Disallow: /catalog
    Disallow: /new
    Allow: /test

  9. 1 директива = 1 параметр, т.е. например, Disallow: /admin, и никаких Disallow: /admin /manage и т.д. в одной строчке;

    Неверно:

    User-agent: *
    Disallow: /catalog /new /test

    Верно:

    User-agent: *
    Disallow: /catalog
    Disallow: /new
    Allow: /test

  10. В начало строки не ставится пробел;

    Неверно:

    User-agent: *
       Disallow: /catalog
      Disallow: /new
    Allow: /test

    Верно:

    User-agent: *
    Disallow: /catalog
    Disallow: /new
    Allow: /test

  11. Параметр директивы должен быть прописан в одну строку;

    Неверно:

    User-agent: *
    Disallow: /catalog_
    new_cat
    Disallow: /new
    Allow: /test

    Верно:

    User-agent: *
    Disallow: /catalog_new_cat
    Disallow: /new
    Allow: /test

  12. Параметры директивы не нужно добавлять в кавычки, также они не требуют закрывающих точки с запятой;

    Неверно:

    User-agent: *
    Disallow: «/catalog_new_cat»
    Disallow: /new;
    Allow: /test

    Верно:

    User-agent: *
    Disallow: /catalog_new_cat
    Disallow: /new
    Allow: /test

  13. Комментарии допускаются после знака #;

    Неверно:

    User-agent: *
    # Этот комментарий заставит игнорировать строчку Disallow: /catalog_new_cat
    Disallow: /new
    Allow: /test

    Верно:

    User-agent: *
    Disallow: /catalog_new_cat # Этот комментарий заставит учитывать строку
    Disallow: /new
    Allow: /test

  14. Перед правилом отсутствует директива User-agent. Любое правило в robots.txt всегда начинается с User-agent.

    Неверно:

    Disallow: /catalog
    Disallow: /new
    Allow: /test

    Верно:

    User-agent: *
    Disallow: /catalog
    Disallow: /new
    Allow: /test

  15. Пустые строки между директивами. Правильная настройка robots.txt запрещает наличие пустых строк между директивами «User-agent», «Disallow» и директивами, следующими за «Disallow» в рамках текущего «User-agent».

    Неверно:

    User-agent: Yandex
    Disallow: /
    User-agent: Google
    Disallow: /catalog
    User-agent: Mail
    Disallow: /test

    User-agent: Yandex

    Disallow: /

    User-agent: Yandex

    Disallow: /
    Disallow: /catalog

    Disallow: /test

    Верно:

    User-agent: Yandex
    Disallow: /

    User-agent: Google
    Disallow: /catalog

    User-agent: Mail
    Disallow: /test

    User-agent: Yandex
    Disallow: /
    Disallow: /catalog
    Disallow: /test

  16. Некорректные адреса. Например, путь к файлу Sitemap должен указываться полностью, включая протокол.

    Неверно:

    User-agent: *
    Disallow: /catalog
    Disallow: /new
    Allow: /test

    sitemap: /sitemap

    Верно:

  17. Слишком большой (более 32Кб), недоступный по каким-либо причинам или пустой robots.txt будет трактоваться как полностью разрешающий;
  18. В robots.txt допускается использовать более 2048 директивы (команд).
  19. Максимальная длина одного правила — 1024 символа. Но такая ошибка встречается довольно редко.
  20. Некорректный тип контента. Должен быть: text/plain.

Корректный тип контента

Ошибка, когда на уровне хостинга robots.txt имеет кодировку HTML:

Некорректный тип контента

Проверить тип контента можно на сайте https://bertal.ru/

Четкое соблюдение вышеописанных правил при создании и настройке файла robots.txt имеет огромное значение. Незамеченный или пропущенный слэш, звездочка или запятая могут привести к тому, что сайт закроется от индексации полностью. То есть даже незначительная разница в синтаксисе приводит к существенным отличиям в функционале.

Создание robots.txt

Файл robots.txt нужно разместить в корневой папке, то есть в той, которая называется так же, как и ваш движок и содержит в себе индексный файл index.html и файлы системы управления, на базе которой и сделан сайт.

Чтобы загрузить в эту папку файл robots.txt можно использовать панель управления сервером, админку в CMS, Total Commander или другие способы.

Ручное создание robots.txt

Чтобы самостоятельно создать файл robots.txt не потребуется никаких дополнительных программ. Достаточно будет любого текстового редактора, например, стандартного блокнота, notepade++, Microsoft Word и другие текстовые редакторы.

Чтобы создать robots.txt просто сохраните файл под таким именем и с расширением .txt., и уже после этого вносите в него все необходимые инструкции в зависимости от стоящих перед вами задач.

На некоторых движках уже есть встроенная функция, которая позволяет создать robots.txt. Если у вас ее нет, то можно использовать специальные модули или плагины. Но в целом, нет никакой разницы, каким именно способом вы создадите robots.txt.

Онлайн создание файла robots.txt

В случае, когда у вас не один, а несколько сайтов, и создание файлов robots.txt будет занимать долгое время, можно воспользоваться онлайн-сервисами, которые генерируют robots.txt. автоматически. Но учтите, что такие файлы могут требовать ручной корректировки, поэтому все равно нужно понимать правила их составления и знать особенности синтаксиса.

Для составления robots.txt можете воспользоваться нашим инструментом: http://tools.discript.ru/robots-check/. Он позволяет выгрузить robots.txt, как с вашего сайта, так и загрузить готовый шаблон для CMS и скорректировать уже под Ваши задачи.

Проверка файла robots.txt в сервисе фото

Далее в статье также можно найти готовые шаблоны robots.txt.

Как проверить robots.txt

Проверить, насколько правильно составлен robots.txt, можно при помощи:

Инструмента http://tools.discript.ru/robots-check/.

С его помощью вы можете проверить свой файл и внести в него корректировки в режиме онлайн. Для этого укажите URL страницы в соответствующем поле. Инструмент покажет, допущены ли ошибки в обновленной версии. Также вы можете использовать подготовленные шаблоны файлов robots.txt для наиболее популярных CMS, в которых уже указаны все основные условия.

Подготовленные шаблоны файлов robots.txt для наиболее популярных CMS фото

Инструмент позволяет скачать итоговый файл и сразу разместить его на сайте.

Проверки в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml

Здесь анализируется каждая строка содержимого поля «текст robots.txt» и директивы, которые он содержит. Здесь также можно увидеть, какие страницы открыты для индексации, а какие — закрыты.

Проверка в Вебмастере фото

Проверки в Google: https://www.google.com/webmasters/tools/robots-testing-tool

Здесь можно проверить, содержится ли в файле запрет на сканирование роботом Googlebot определенных адресов на ресурсе:

Проверка в Google фото

Проверка с помощью Google Robots.txt Parser и Matcher Library

В 2019 году Google представил доступ к своему парсеру. Скачать его можно с GitHab по ссылке https://github.com/google/robotstxt

Данная библиотека используется Google для парсинга файла robots.txt. Если Вы хотите получать файл, способом, как это делает Google, то можете воспользоваться библиотекой запустив её у себя.

Другие особенности работы с robots.txt

  1. Страницы, закрытые с помощью файла robots.txt, могут быть проиндексированы в Google. Например, когда на них ведет много внутренних и внешних ссылок.
    В таком случае в панели Google Search Console можно видеть такой отчет:

    График из сервиса Гугл фото

    По этому вопросу в Google справочнике указано:

    Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может показываться в Google, но связанный с ней результат поиска может не содержать описания и выглядеть следующим образом:

    Результат проиндексированной страницы в Гугл фото

    Источник: https://support.google.com/webmasters/answer/6062608?hl=ru

    Поэтому, чтобы закрыть от индексирования страницы, которые содержат конфиденциальную информацию, нужно использовать более надежные методы: не только robots.txt, но и html-теги.

    Если нужно закрыть внутри зоны документ, то устанавливается следующий код:

    — запрещено индексировать содержимое и переходить по ссылкам на странице;

    Или (полная альтернатива):

    Такие теги показывают роботам, что страницу не нужно показывать в результатах поиска, а также не нужно переходить по ссылкам на ней.

    Однако при использовании только мета-тега краулинговый бюджет будет расходоваться намного быстрее, поэтому лучше всего применять комбинированный способ. Он, к тому же, с большим приоритетом выполняется поисковыми роботами.

  2. Для изображений настройка robots.txt выглядит следующим образом:

    Чтобы скрыть определенное изображение от робота Google Картинок

    User-agent: Googlebot-Image

    Disallow: /images/dogs.jpg

    Чтобы скрыть все изображения с вашего сайта от робота Картинок

    User-agent: Googlebot-Image

    Disallow: /

    Чтобы запретить сканирование всех файлов определенного типа (в данном случае GIF) 

    User-agent: Googlebot

    Disallow: /*.gif$

    Файл robots.txt важен для продвижения, потому что дает поисковикам указания, которые напрямую влияют на результативность работы сайта. Например, в нем можно установить запрет на индексацию «мусорных» или некачественных страниц, закрыть страницу с доступом в административную панель, страницы с приватными данными, дублирующие документы и т.д.

  3. Рекомендуется закрывать от индексации следующие страницы:

    • страницы входа в CMS-систему вида «/bitrix», «/login», «/admin», «/administrator», «/wp-admin».
    • служебные папки вида «cgi-bin», «wp-icnludes», «cache», «backup»
    • страницы авторизации, смены пароля, оформления заказа: «basket&step=», «register=», «change_password=», «logout=».
    • результаты поиска «search», «poisk».
    • версию для печати вида: «_print», «version=print» и аналогичные.
    • страницы совершения действия вида «?action=ADD2BASKET», «?action=BUY».
    • разделы с дублированным и неуникальным контентом, скажем, RSS-фиды: «feed», «rss», «wp-feed».

    Если на сайте есть ссылки на страницы, которые закрыты в файле robots.txt, то рекомендуется убрать эти ссылки, чтобы не передавать на них статический вес.

    Наиболее часто дублями страниц, попавшими в индекс, являются документы с неопределенными в БД GET-параметрами. Примерами таких параметров являются UTM-метки (и прочие метки рекламных кампаний). Если на сайте не настроен rel=»canonical», то потенциальные данные дубли лучше закрывать от индексации.

    Список наиболее частых параметров:

    • openstat
    • from
    • gclid
    • utm_source
    • utm_medium
    • utm_campaign
    • utm_прочие
    • yclid

    Следует помнить, что GET параметры могут идти после знака «?», либо после знака «&» (если их более одного). Поэтому для закрытия GET параметров необходимо для каждого знака указывать отдельное правило:

    • Disallow: *?register=*
    • Disallow: *®ister=*

    Либо не указывать ни один из данных знаков (не самый лучший вариант для коротких GET параметров т.к. они могут быть частью более длинных вариантов. Например, GET параметр id входит в GET параметр page_id):

    • Disallow: *register=*

    Пример закрытия таких страниц:

    • Disallow: *openstat=*
    • Disallow: *from=*
    • Disallow: *gclid=*
    • Disallow: *?utm_*
    • Disallow: *&utm_*
    • Disallow: *yclid=*

    Пример закрытия всех GET параметров главной страницы:

    • Disallow: /?*

    Также для закрытия страниц с неопределенными GET параметрами можно сделать следующее: закрыть на сайте все GET параметры, принудительно открыв при этом нужные GET параметры.

    Но нужно осторожно использовать данный метод, чтобы случайно не закрыть важные страницы на сайте.

    Пример использования:

    Disallow: /*?* # закрываем все страницы с GET параметрами
    Allow: /*?page=* # открываем для сканирования страницы пагинации
    # дополнительно можно закрыть страницы пагинации, которые содержат два GET параметра
    Disallow: /*?*&page=*
    Disallow: /*?page=*&*

    Используя сервис Screaming Frog Seo Spider можно также определить, какие еще страницы необходимо закрыть от индексации. Часто такие страницы можно найти с помощью дублей тегов и мета-тегов. Найти их помогут фильтры по дублям title/h1/description.

    Фильтр в сервисе Screaming Frog Seo Spider

    Также можно выгрузить проиндексированные страницы в Яндекс.Вебмастер и проверить, какие еще из них стоит исключить из индекса:

    График проиндексированных страниц в Вебмастере

  4. Одним из требований поисковиков Google и Yandex является открытие для индексации файлов JavaScript и CSS, так как они используются ими для анализа удобства сайта и его ранжирования.

Определить весь список ресурсов, которые нужно открыть для индексации, можно при помощи Google Search Console.

Для этого указываем URL для сканирования:

Список страниц в Google Search Console

Далее нажимаем на ссылку «Изучить просканированную страницу»

Проверка URL в Google Search Console

Переходим на вкладку «Скриншот» и нажимаем на «Проверить страницу на сайте»:

Проверка страницы на сайте в Google Search Console фото

Получаем результаты:

  1. Как видит страницу Google.
  2. Какие элементы JS/CSS и др. не подгрузились

Результат того, как видит страницу Google фото

И ресурсы, требующие внимания

Проверенная страница в Google фото

Файл robots.txt по типам сайтов

Рассмотрим различные файлы robots.txt по типам сайтов от Landing Page до интернет-магазинов.

Файл robots.txt для Landing Page

Файл robots.txt для Landing Page рассмотрели в рамках отдельной статьи: https://discript.ru/blog/kak-nastroit-robots-txt-dla-lendinga/

Оптимизация файла для Landing Page отличается от любого другой сайта, тем что он запрещает индексирование любых разделов, кроме главной страницы. При этом файлы CSS-стилей и JS-кода остаются доступными для роботов.

User-agent: *
Allow: /images/
Disallow: /js/
Disallow: /css/

User-agent: Googlebot
Allow: /

User-agent: Yandex
Allow: /images/
Disallow: /js/
Disallow: /css/

Файл robots.txt для интернет-магазина

При составлении файла robots.txt необходимо понимать, что у интернет-магазина встречается функционал, который не встречается у других типов сайтов (информационные, сайты услуг).

К такому функционалу интернет-магазина можно отнести:

  • Страницы с результатами поиска (чтобы избежать дубли страниц);
  • Страницы меток и тегов;
  • Страницы сортировок товаров;
  • Страницы фильтров товаров;
  • Страницы корзины;
  • Страницы оформления заказов;
  • Страницы личных кабинетов;
  • Страницы входа;
  • Страницы регистрации.

Часто такие разделы могут формировать мусорные страницы и страницы дубли. По этому такие страницы у интернет-магазина рекомендуется закрывать в файле robots.txt. Напомним, что в индексе необходимо оставить страницы полезные для пользователей.

Для составления файла robots.txt для интернет-магазина необходимо учитывать структуру вашего проекта и сделать анализ на ошибки и мусорные страницы.

Но мы подготовили для Вас шаблоны на основе популярных CMS. Обычно интернет-магазины создаются на Bitrix, OpenCart, WordPress, MODx. Вы можете использовать подходящий шаблон под вашу CMS и доработать файл под нюансы вашего проекта.

Готовые шаблоны файла robots.txt для популярных CMS

Предлагаем готовые файлы robots.txt для различных CMS

Файл robots.txt для WordPress

Ссылка на готовый файл robots.txt.

User-agent: *
Disallow: /cgi-bin
Disallow: /*?
Disallow: /search/

Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/
Disallow: *?attachment_id=
Disallow: */page/
Allow: */uploads
Allow: /wp-*.js
Allow: /wp-*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-*.svg
Allow: /wp-*.pdf

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt для 1С-Битрикс

Ссылка на готовый файл robots.txt.

User-agent: *
Disallow: /*index.php$
Disallow: /admin/
Disallow: /bitrix/
Disallow: /cgi-bin/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?
Disallow: /*&print=
Disallow: /*?print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*back_url=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*course_id=
Disallow: /*pagen_*
Disallow: /*page_*
Disallow: /*showall
Disallow: /*show_all=
Disallow: /*clear_cache=
Disallow: /*order_by
Disallow: /*sort=
Allow: /map/
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/*.js
Allow: /bitrix/templates/
Allow: /bitrix/panel/
Allow: /bitrix/*.css
Allow: /bitrix/images/

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt для OpenCart

Ссылка на готовый файл robots.txt.

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=vDisallow: /*?page=
Disallow: /*&page=
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category
Disallow: /*compare-productsvDisallow: /*search
Disallow: /*cart
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchersvDisallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password
Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-loginvDisallow: /*affiliates
Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/*/
Allow: /image/

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt для MODx

Ссылка на готовый файл robots.txt.

User-agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /mgr/
Disallow: /index.php
Disallow: /*?
Allow: /*.js
Allow: /*.css
Allow: /images/

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt для Diafan

Ссылка на готовый файл robots.txt.

User-agent: *
Disallow: /m/
Disallow: *?
Disallow: /news/rss/
Disallow: /cart/
Disallow: /search/
Allow: /image/
Allow: /*.js
Allow: /*.css

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt для Drupal

Ссылка на готовый файл robots.txt.

User-agent: *
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
Disallow: /database/
Disallow: /sites/
Disallow: /updates/
Disallow: /profile
Disallow: /profile/*
Disallow: /index.php
Disallow: /changelog.txt
Disallow: /cron.php
Disallow: /install.mysql.txt

Disallow: /install.pgsql.txt
Disallow: /install.php
Disallow: /install.txt
Disallow: /license.txt
Disallow: /maintainers.txt
Disallow: /update.php
Disallow: /upgrade.txt
Disallow: /xmlrpc.php
Disallow: /admin/
Disallow: /comment/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /user/logout/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /?q=admin/
Disallow: /?q=comment/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$

Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Disallow: /*section
Disallow: /*order
Disallow: /*?sort*

Disallow: /*&sort*
Disallow: *register*
Disallow: *login*

Disallow: /*votesupdown
Disallow: /*calendar
Disallow: /*index.php
Disallow: /*?
Allow: /*?page=
Allow: /images/
Allow: /*.js
Allow: /*.css

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt для NetCat

Ссылка на готовый файл robots.txt.

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=

Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=vDisallow: /*?page=
Disallow: /*&page=
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category
Disallow: /*compare-productsvDisallow: /*search
Disallow: /*cart
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchersvDisallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password

Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-loginvDisallow: /*affiliates
Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/*/
Allow: /image/

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt для Joomla

Ссылка на готовый файл robots.txt.

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /templates
Disallow: *catid
Disallow: *0&idvDisallow: *id
Disallow: /finvil/
Disallow: /index.php*
Disallow: /index2.php*
Disallow: /index.html
Disallow: /application.php
Disallow: /component/
Disallow: /*mailto/
Disallow: /*.pdf
Disallow: /*print=
Disallow: /*tag
Disallow: /*%
Disallow: /search*
Disallow: /*start
Disallow: /*=atom
Disallow: /*=rss
Disallow: /*print=1
Disallow: /*?
Disallow: /*&
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Allow: /index.php?option=com_xmap&view=xml&id=1
Allow: /images/
Allow: /templates/*.css
Allow: /templates/*.jsvAllow: /media/*.pngAllow: /media/*.js
Allow: /modules/*.css
Allow: /modules/*.js

Sitemap: http://site.ru/sitemap.xml

Популярные файлы robots.txt под задачи

Закрыть от индексации полностью сайт в robots.txt

User-agent: *
Disallow: /

Закрыть от индексации все страницы кроме главной в robots.txt

User-agent: *
Disallow: /
Allow: /$

Закрыть одну страницу в robots.txt

User-agent: *
Disallow: /URL      # где URL ваша страница

Пример robots.txt для Яндекса

User-agent: Yandex
Disallow: /URL      # где URL ваша страница

Пример robots.txt для Google

User-agent: Google
Disallow: /URL      # где URL ваша страница

Пример robots.txt для всех поисковиков

User-agent: *
Disallow: /URL      # где URL ваша страница

Популярные вопросы про файл robots.txt

Как создать файл robots txt для сайта в онлайн?

Для быстрого создания файла воспользуйтесь инструментом https://tools.discript.ru/robots-check/ он позволит быстро сгенерировать подходящий файл для вашего сайта.

Как проверить robots.txt онлайн?

Для быстрой проверки сайта Вы можете воспользоваться следующими инструментами:

  • https://www.google.com/webmasters/tools/siteoverview?hl=ru
  • http://webmaster.yandex.ru/robots.xml

Если Вам необходимо изучить файл robots конкурентов, то можете воспользоваться инструментом https://tools.discript.ru/robots-check/ или перейти по адресу site.ru/robots.txt, где site.ru сайт файл, которого ходите изучить.

Как проверить закрыт ли сайт от индексации?

Для быстрой проверки, закрыта ли страницы от индексации Вы можете воспользоваться инструментом https://tools.discript.ru/robots/, для этого достаточно указал URL, который хотите проверить.

Проверка страницы в сервисе на закрытие от индексации

Что делать если «Нет используемых роботом файлов sitemap»?

Данная ошибка появляется в панели Яндекс Вебмастера. Чтобы помочь Яндексу найти файл sitemap, вы можете его указать в панели Вебмастера.

Файлы sitemap в Вебмастере

Или добавить в файле директиву sitemap, как это сделать читайте тут

Как проверить есть ли robots.txt на сайте?

Чтобы проверить есть ли на сайте файл robots.txt достаточно перейти по адресу site.ru/robots.txt, где site.ru сайт файл, которого ходите изучить. Если открылся файл robots.txt, то он присутствует на проверяемом сайте.

Как удалить цифры по маске в robots.txt?

User-agent: *
Disallow: *0
Disallow: *1
Disallow: *2
Disallow: *3
Disallow: *0
Disallow: *5
Disallow: *6
Disallow: *7
Disallow: *8
Disallow: *9

Как производить экранирование символов в robots.txt?

Спецификация robots.txt не допускает использования регулярных выражений. В url допустимы только * и &.

В заключение

Таким образом при работе с robots.txt необходимо знать:

  1. Правила составления и расположения файла;
  2. Функции отдельных директив и способы их применения;
  3. Рекомендации по закрытию определенных страниц;
  4. Инструменты для проверки robots.txt: http://tools.discript.ru/robots-check/, а также инструменты Яндекс и Google.

Важно помнить, что проверка robots.txt — один из первых этапов создания любого проекта, и от того, насколько точно она будет проведена, может зависеть конечный результат работы.

В следующей статье мы поговорим о терминологии, применяемой при работе над скоростью загрузки.

обновлено: 13.01.2020 1567520449

Александр Коваленко, CEO/founder агентства Advermedia.ua, опыт в SEO более 10 лет.
Канал автора в телеграм: @seomnenie

Информация о статье

Robots.txt: полное руководство по настройке

Заголовок

Robots.txt: полное руководство по настройке

Описание

В данной статьей мы подготовили максимальной развернутое руководство по предназначению, созданию и настройке файла robots.txt для управления индексацией вашего сайта. Данный FAQ будет полезен собственникам сайтов, вебмастерам для своих проектов, а также SEO-специалистам, как начинающим (вникнуть и разобраться), так и опытным (освежить знания и все актуальные обновления).

Автор

Организация

advermedia.ua

Логотип

advermedia.ua

Loading…

CEO/founder агентства Advermedia.ua, опыт в SEO более 10 лет.
Канал автора в телеграм: @seomnenie

Новые материалы

Подписаться на телеграм канал СEO Advermedia Мнение SEO

Публикуем интересные материалы из блога и разбираем вопросы по SEO от подписчиков!


https://t.me/seomnenie
Подписаться

Оптимизируйте свои подборки

Сохраняйте и классифицируйте контент в соответствии со своими настройками.

В файле robots.txt содержатся инструкции, которые говорят поисковым роботам, какие URL на вашем сайте им разрешено обрабатывать.
С его помощью можно ограничить количество запросов на сканирование и тем самым снизить нагрузку на сайт. Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google. Если вы не хотите, чтобы какие-либо страницы с вашего сайта были представлены в Google, добавьте на них директиву noindex или сделайте их доступными только по паролю.

Для чего служит файл robots.txt

Файл robots.txt используется прежде всего для управления трафиком поисковых роботов на вашем сайте. Как правило, с его помощью также можно исключить контент из результатов поиска Google (это зависит от типа контента).

Как директивы из файла robots.txt обрабатываются при сканировании файлов разного типа
Веб-страница

Файл robots.txt позволяет управлять сканированием веб-страниц в форматах, которые робот Googlebot может обработать (он поддерживает, например, HTML или PDF, но не мультимедийные файлы). С его помощью вы можете уменьшить количество запросов, которые Google отправляет вашему серверу, или запретить сканировать разделы сайта, в которых содержится неважная или повторяющаяся информация.

Страницы, сканирование которых запрещено в файле robots.txt, все равно могут показываться в результатах поиска, но без описания.
Это относится только к контенту в формате HTML. Заблокированные материалы другого формата, например файлы PDF, изображения или видео, не будут представлены в Google. Если результат поиска со ссылкой на вашу страницу не содержит описания, удалите в файле robots.txt запись, которая препятствует обработке контента. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.

Медиафайл

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видеороликов и аудиофайлов в результатах поиска Google. Такая блокировка не помешает другим владельцам сайтов и пользователям размещать ссылки на ваш медиаконтент. Советуем ознакомиться со следующими статьями:

  • Как исключить из Google Поиска результаты с изображениями
  • Как запретить или ограничить показ ваших видеофайлов в Google
Ресурсный файл При помощи файла robots.txt вы можете запретить сканирование таких файлов, как вспомогательные изображения, скрипты и файлы стилей, если считаете, что они лишь в незначительной степени влияют на оформление страниц. Однако не следует блокировать доступ к ним, если это может затруднить поисковому роботу интерпретацию контента. В противном случае страницы могут быть проанализированы неправильно.

Каковы ограничения при использовании файла robots.txt

Прежде чем создавать или изменять файл robots.txt, проанализируйте риски, связанные с этим методом. Иногда для запрета индексирования URL лучше выбирать другие средства.

  • Правила robots.txt поддерживаются не всеми поисковыми системами.
    Правила в файлах robots.txt необязательны для исполнения. Googlebot и большинство других поисковых роботов следуют этим инструкциям, однако некоторые системы могут игнорировать их. Чтобы надежно скрыть информацию от поисковых роботов, воспользуйтесь другими способами. Например, вы можете защитить конфиденциальные файлы на сервере паролем.
  • Разные поисковые роботы интерпретируют синтаксис файлов robots.txt по-разному.
    Хотя роботы основных поисковых систем следуют правилам в файле robots.txt, каждый из них может интерпретировать их по-своему. Поэтому ознакомьтесь с синтаксисом для других систем.
  • Если доступ к странице запрещен в файле robots.txt, она все равно может быть проиндексирована по ссылкам с других сайтов.
    Google не будет напрямую сканировать и индексировать контент, который заблокирован в файле robots.txt. Однако если на такой URL ссылаются другие сайты, то он все равно может быть найден и добавлен в индекс. После этого страница может появиться в результатах поиска (во многих случаях вместе с текстом ссылки, которая на нее ведет). Если вас это не устраивает, рекомендуем защитить файлы на сервере паролем или использовать директиву noindex в теге meta или HTTP-заголовке ответа. Альтернативное решение – полностью удалить страницу.

Как создать или изменить файл robots.txt

Ознакомьтесь с инструкциями по созданию файла robots.txt. Если у вас уже есть такой файл, узнайте, как изменить его.

Если вам нужна дополнительная информация, воспользуйтесь следующими ресурсами:

  • Как создать и отправить файл robots.txt
  • Как обновить файл robots.txt
  • Как Google интерпретирует спецификацию robots.txt

Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons «С указанием авторства 4.0», а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.

Последнее обновление: 2023-02-14 UTC.

author__photo

Содержание

Постараемся в этой статье ответить на вопрос о том, что такое правильный robots.txt и как провести настройку этого файла. В общих чертах, его назначение в том, чтобы оптимизировать процесс краулинга.

Поисковые системы регулярно считывают содержимое каждого сайта для того, чтобы индексировать актуальные страницы и материалы. Robots.txt указывает краулерам, какие разделы сайта нужно просматривать, а какие — нет. С его помощью повышается эффективность процесса — поисковая система обрабатывает сайт быстрее и запоминает релевантную информацию. Не стоит путать это с ускорением загрузки сайта. Впоследствии, когда пользователи будут делать запросы, они увидят ваш сайт в выдаче, в частности, благодаря правильной настройке Robots.txt.

Чтобы анализировать конверсии при изменениях в robots.txt, рекомендуем установить аналитику:

Оптимизируйте маркетинг и увеличивайте продажи вместе с Calltouch

Узнать подробнее

Что такое robots.txt

Robots.txt для сайта — это служебный файл-рекомендация. Он формирует исключения и запреты для поисковых алгоритмов, взаимодействующих с сайтом. Эти запреты не допускают индексации определенных разделов или содержимого сайта, позволяют увидеть алгоритмам только нужные элементы.  

Для чего используется Robots.txt

Данный файл говорит краулерам и роботам, какие страницы сайта они должны просматривать, а к каким доступ запрещён. Это важно в связи с тем, что случайно могут быть проанализированы страницы с нерелевантным контентом. В некоторых случаях есть риск запустить бесконечный цикл считывания — например, с календарём, который генерирует новый URL для каждой даты.

Как говорится в спецификации robots.txt для Google, правильный robots.txt должен являться текстовым файлом в кодировке ASCII или UTF-8. Строки или иначе — директивы — должны отделяться типами прерывания CR, CR/LF или LF.

Обращайте внимание на размер файла, так как у каждой поисковой системы свой лимит. Google читает robots.txt не более 500 Кб, а Яндекс посчитает всё содержимое открытым, если файл весит больше 32 Кб.

Где должен располагаться Robots.txt

Файл располагается в корневом каталоге сайта, например, https://www.calltouch.ru/robots.txt.

Внимание: файл строго привязан к адресу домена вплоть до протокола. То есть, для http и https требуется предусмотреть 2 разных robots.txt, даже если затем адреса совпадают. Также один и тот же файл не применим для субдоменов.

Когда используются правила robots.txt

На самом деле веб-сайтам не стоит полагаться на robots.txt в целях контроля краулинга. В первую очередь стоит позаботиться об архитектуре сайта и о том, чтобы сделать его более доступным для поисковых роботов, очистив от всего лишнего. Тем не менее, если на сайте работают плохо оптимизированные разделы, которые лучше скрыть от глаз пользователей, и эти проблемы не устранимы в обозримой перспективе, robots.txt будет правильным решением.

Google рекомендует использовать данный файл только в целях оптимизации работы поискового робота. Иногда чтение плохо индексируемых разделов затягивается.

Вот некоторые примеры страниц и разделов, индексация которых нежелательна:

  • Страницы категорий с нестандартной сортировкой могут повлечь создание дублей основной страницы;
  • Пользовательский контент, не подлежащий модерации;
  • Страницы с конфиденциальной информацией;
  • Внутренние поисковые страницы, которых может насчитываться бесконечное множество.

Когда не стоит прибегать к robots.txt

При грамотном использовании данный файл несёт пользу, но есть ситуации, в которых его применение в целях блокировки краулинга только мешает.

Блокировка Javascript/CSS

Поисковым системам необходим доступ ко всем ресурсам, чтобы корректно рендерить страницы — это необходимая часть ранжирования. Если же, к примеру, Javascript, оказывающий подчас определяющее влияние на функционал страницы и пользовательский опыт отключен, это может привести к плохим результатам вплоть до понижения в выдаче.

Например, если ваша страница содержит редиректы с помощью Javascript, а тот, в свою очередь, закрыт от индексации, робот распознает в таком перенаправлении клоакинг — подмену страницы.

Блокировка по URL

Robots.txt можно использовать для блокировки URL со специфическими параметрами, но это далеко не всегда верное решение. Правильная настройка robots,txt предполагает использование Google Search Console — такой способ будет приемлем с точки зрения поисковых систем.

Можно разместить информацию в самом URL — /items#filter=date, так как краулеры не считывают это. Если URL-параметр должен быть использован обязательно, ссылка может содержать rel=nofollow во избежание индексации.

Блокировка URL с обратными ссылками

Если обратные ссылки запрещены robots.txt, поисковый робот не сможет перейти по ссылкам с других сайтов на ваш ресурс. Из-за этого ваш сайт не получит баллов ранжирования и опустится в выдаче.

Установка правил против краулеров соцсетей

Даже если вы не хотите, чтобы поисковые системы читали ваши страницы, возможно, доступ роботов соцсетей не помешает. Ведь они формируют сниппеты в случае репоста ваших страниц в соцсети. Например, Facebook* (*продукт компании Meta, которая признана экстремистской организацией в России) будет пытаться зайти на каждую страницу, которую постят в нём, чтобы отображать релевантный сниппет.

Блокировка доступа к сайтам в процессе разработки

Использование robots.txt для блокировки всего сайта в процессе разработки хорошо работает. В то же время, Google рекомендует убирать из индексации страницы, но давать возможность роботу их читать. В целом же, следует делать такие сайты недоступными для посещения вообще.

Когда нечего блокировать

Некоторые сайты с весьма чистой архитектурой не испытывают потребности в блокировке каких-либо разделов. В такой ситуации вообще можно не создавать robots.txt, а возвращать страницу 404.

Эффективный маркетинг с Calltouch

  • Анализируйте весь маркетинг и продажи в одном окне
  • Удобные дашборды и воронки от показов рекламы до ROI

Узнать подробнее

platform

Как создать robots.txt

Создать файл можно тремя способами, выбор зависит от целей и навыков. Сервисы облегчают работу с robots.txt, но ручная коррекция все-таки потребуется. Поэтому для каждого варианта, хоть и в разной степени, придется самостоятельно разобраться с темой или обратиться к специалисту.

Ручное создание

Файл robots.txt можно создать в любом текстовом редакторе, например, в Блокноте и Microsoft Word. В документе прописывают специальный код-инструкцию, в нем указывают, какие элементы не подлежат индексации. После этого его сохраняют в формате.txt  под названием «robots». 

Готовый текстовый документ загружается в корневую папку с названием сайта, где находится файл index.html и файлы базового движка. Чтобы загрузить robots.txt на сервер, используют:

  • панель управления сервером;
  • консоль или пульт управления в CMS;
  • любой FTP-клиент.

Система каждый раз будет обращаться к роботу, чтобы понять, что можно индексировать на сайте, а что нет.

Онлайн-генераторы

Специальные сервисы помогут автоматически сгенерировать нужный файл, например, такой инструмент есть на сайте CY-PR. Генераторы облегчают работу тем, кто владеет сразу несколькими сайтами, так как прописывать характеристики для каждого достаточно долго. Автоматизация упростит процесс, но корректировать автоматически сгенерированные файлы придется вручную. Чтобы устранять возможные ошибки, нужно изучить базовый синтаксис robots.txt.

Готовые шаблоны

В интернете представлено много шаблонов файла robots.txt, которые подходят для всех популярных движков (WordPress, Drupal). В шаблоне прописаны стандартные директивы, поэтому файл не нужно создавать полностью вручную.

Если учесть индивидуальные особенности проекта, на его основе можно сделать качественный robots.txt. Но для этого тоже необходимы хотя бы минимальные знания синтаксиса, потому что шаблон не может предоставить корректно настроенный, готовый к работе, файл.

Синтаксис robots.txt

Как настроить robots.txt? Примерно так может выглядеть блок robots.txt, ориентированный на Google.

Комментарии

Комментарии — это строки, которые полностью игнорируются поисковыми системами. Они начинаются со знака #. Они нужны для заметок о том, какие действия выполняют строки файла. Рекомендуется документировать каждую директиву в robots.txt, чтобы она могла быть удалена за ненадобностью или отредактирована.

Указания User-agent

Это блок, который даёт указания поисковым системам и роботам, используя директиву User-agent. Например, если вы хотите установить правила отдельно для Яндекса и Google. Тем не менее, он не применим для Facebook* (*продукт компании Meta, которая признана экстремистской организацией в России) и рекламный сетей — на них можно повлиять только через специальный токен с применением особых правил.

Каждый робот предусматривает собственный user-agent токен.

Краулеры сперва учитывают наиболее точные директивы, разделённые дефисом, а затем переходят к объемлющим. Так, Googlebot News сначала выполнит указания для User-agent «googlebot-news», а потом уже «googlebot» и впоследствии «*».

Наиболее распространённые роботы в российском сегменте — это:

  • Googlebot
  • Mediapartners-Google
  • Yandex
  • Facebook* (*продукт компании Meta, которая признана экстремистской организацией в России)

Конечно, этот список далеко не исчерпывающий. Чтобы ознакомиться с полным перечнем используемых поисковиками и другими системами роботов, лучше прочитайте их документацию.

Наименования роботов в robots.txt нечувствительны к регистру. «Googlebot» и «googlebot» вполне взаимозаменяемы.

Шаблоны адресов

Вместо того, чтобы прописывать большой перечень конечных URL для блокировки, достаточно указать только шаблоны адресов.

Для эффективного использования такой функции понадобится два знака:

  • * — данный символ группировки обозначает любое количество символов. Его лучше располагать в начале или внутри адреса, но не в конце. Можно использовать сразу несколько групповых символов — например, «Disallow: */notebooks?*filter=». Правила с полными адресами не должны начинаться с данного символа.
  • $ — знак доллара означает конец адреса. Так, «Disallow: */item$» будет соответствовать URL, заканчивающемуся на «/item», но не «/item?filter» или подобным.

Обратите внимание, что эти правила уже чувствительны к регистру. Если вы запрещаете адреса с параметром «search», роботы всё ещё будут просматривать адреса, содержащие «Search».

Директивы работают только с телом адреса и не включают протокол или сам домен. Слэш в начале адреса означает, что данная директория располагается сразу после основного каталога. Например, «Disallow: /start» будет соответствовать «www.site.ru/start».

Пока вы не добавите * или / в начало директивы, она не будет ничему соответствовать. «Disallow: start» не будет иметь смысла — роботы её не поймут.

Чтобы наглядно продемонстрировать правило, приведём таблицу примеров:

Sitemap.xml

Директива Sitemap в robots.txt говорит поисковикам, где найти карту сайта в формате XML. Это поможет им лучше ориентироваться в структуре страниц.

Для Sitemap вы должны указать полный путь, как это сделано у нас: «Sitemap: https://www.calltouch.ru/sitemap.xml». Также следует отметить, что Sitemap не всегда располагается на том же домене, что и весь сайт.

Поисковые роботы прочитают указанные в robots.txt карты сайтов, но они не появятся в том же Google Search Console, пока вы не дадите на это разрешение.

Host

Этот элемент раньше работал исключительно как инструкция для Яндекса, другим поисковым системам она была непонятна. Он указывал роботу Яндекса на главное зеркало сайта, и система рассматривала его в приоритетном порядке.

Директива Host уже не поддерживается Яндексом, решение об этом было принято еще в 2018 году. Теперь вместо нее схожий функционал выполняет раздел «Переезд сайта», доступный в Яндекс.Вебмастере.

Блоки в robots.txt

Директива Disallow в robots.txt может использоваться по-разному для многих агентов. Покажем, каким образом могут быть представлены разные комбинации блоков.

Важно помнить, что robots.txt — это всего-навсего набор рекомендаций. Вредоносные краулеры проигнорируют этот файл, прочитав то, что захотят, поэтому бессмысленно использовать robots.txt в качестве меры защиты.

Несколько блоков User-Agent

Вы можете назначить правило сразу нескольким роботам, указав их в начале. Например, следующая директива Disallow будет работать как для Яндекса, так и для Google.

Пустые строки между блоками

Поисковые системы игнорируют пустые строки между директивами. Даже если одна директива будет отделена таким образом от предыдущей, робот всё равно её прочитает.

В следующем примере сразу два робота будут руководствоваться одним правилом.

Комбинация отдельных блоков

Разные блоки, в которых указан один и тот же агент, будут учитываться. Таким образом, Google не станет читать оба раздела, указанных в файле.

Директива Allow

Эта директива даёт доступ к указанному разделу. Вообще она действует по умолчанию, но может применяться для отмены ранее поставленного правила Disallow для вложенного раздела. Если вы запретили доступ к «/notebooks», а затем указали директиву «Allow: /notebooks/gamers», то директория /notebooks/gamers окажется читаема для краулеров, даже с учётом того, что вышестоящая запрещена к просмотру.

Приоритеты в robots.txt

Если указано несколько правил Allow и Disallow, роботы обращают внимание на те, у которых больше длина в знаках. Рассмотрим пример пути «/home/search/shirts»:

В этом случае весь путём разрешён к чтению, так как директива Allow содержит 9 знаков, а Disallow — максимум 7. Если вам нужно обойти это правило, то для увеличения длины строки можно добавлять *.

Если длина Allow и Disallow совпадает, то приоритет отдаётся Disallow.

Директивы robots.txt

Директивы robots.txt помогают снизить затраты ресурсов на краулинг. Вы упредительно добавляете правила в robots.txt вместо того, чтобы ждать, пока поисковые системы считают все страницы, а затем предпринимать меры. Такой подход гораздо быстрее и проще.

Следующие директивы работают аналогично Allow и Disallow, используя символы * и /.

Noindex

Директива Noindex полезна для повышения точности индексирования. Disallow никак не избавляет от необходимости индексации указанную страницу, в то время как Noindex позволяет убрать страницу из индекса.

Но тот же Google официально не поддерживает директиву Noindex — ситуация может измениться со дня на день. В подобной неопределённости лучше использовать данный инструмент для решения краткосрочных задач, как дополнительную меру, но не основное решение.

Помимо Noindex Google негласно поддерживает и ряд других директив, размещаемых в robots.txt. Важно помнить, что не все краулеры поддерживают эти директивы, и однажды они могут перестать работать. Не стоит на них полагаться.

Что нужно исключать из индекса

Правильный robots.txt не должен содержать:

  • Дубли страниц. Страница должна быть доступна по одному URL. Поисковые системы при обращении должны получать индивидуальные страницы с уникальным содержимым. Для скрытия дублей нужно использовать маски.  
  • Страницы с неуникальным контентом. Их стоит скрывать от поисковых систем до момента, когда они окажутся в индексе.
  • Страницы с индикаторами сессий.
  • Файлы, связанные с движком и управлением сайтом. К таким относят шаблоны, темы, панель администратора.  
  • Нерелевантные пользователям страницы. Это разделы, не имеющие уникального контента или содержания.

Кириллица в файле Robots

Символы кириллицей в файлах robots.txt или HTTP-заголовка недопустимы. Для работы с доменами, прописанными на кириллице, существует Punycode — метод преобразования, работающий в многоязычной системе доменов. Он позволяет преобразовать кириллицу и безошибочно прописать символы в нужных местах.

Советы по использованию операторов

Есть несколько операторов, наиболее распространенными из которых считаются: * и $. Они позволяют:

  • Блокировать нужные типы файлов. Например, при необходимости заблокировать файлы, имеющие расширение .json, это будет выглядеть следующим образом: Disallow: /*.json$.
  • Блокировать URL, имеющий параметр ?, после которого располагаются GET-запросы. Такой способ применяется в случаях, когда у сайта настроен человекопонятный url для всех страниц, а документы, характеризующиеся GET-параметрами, оказываются дублями. 

Особенности robots.txt

Существует ряд ключевых рекомендаций и наблюдений касаемо влияния, оказываемого robots.txt на сайт.

  • Пропишите запасной блок или правило сразу для всех роботов. Если все ваши директивы прописаны для ограниченного количества роботов, те, которых нет в списке, окажутся в состоянии неопределённости, так как для них не предусмотрено правил.
  • Важно поддерживать актуальность robots.txt. Проблемы часто возникают в ситуации, когда robots.txt создавался на первоначальных этапах разработки сайта. По мере развития ресурса многие страницы могли стать актуальными, но всё ещё скрыты от роботов, и не только.
  • Избегайте путей, внутри которых содержится отключенная директория.
  • Чувствительность к регистру может стать причиной проблем.
  • Не отключайте обратные ссылки с внешних ресурсов.
  • Crawl-delay может иметь последствияДанная директива заставляет поисковых роботов работать с вашим сайтом медленнее обычного. Из-за этого важные страницы могут обрабатываться реже оптимального графика. Директива не поддерживает Гуглом, зато работает в случае с Яндексом.
  • Убедитесь, что robots.txt возвращает только коды 5**, если сайт отключен. Так роботы поймут, что сайт отключен на обслуживание и вернутся к нему позже.
  • Robots.txt имеет приоритет над другими параметрами индексации, задаваемыми вне файла.
  • Отключение мигрирующего домена повлияет на успех миграции. В данном случае роботы могут не найти редиректы со старого сайта на новый.

caltouch-platform

Сквозная аналитика Calltouch

  • Анализируйте воронку продаж от показов до денег в кассе
  • Автоматический сбор данных, удобные отчеты и бесплатные интеграции

Узнать подробнее

platform

Тестирование и аудит robots.txt

Учитывая то, какие негативные последствия может повлечь некорректная настройка файла robots.txt, следует ознакомиться с тем, как их избежать и проверить корректность настройки.

Правильная настройка robots.txt для Яндекса и Гугла для новичков и даже мастеров бывает затруднительна без использования специальных инструментов. К примеру, с помощью GSC robots.txt tester tool в Google Search Console вы можете увидеть последние кешированные копии страниц, а также просмотреть рендеры googlebot. Обратите внимание, что инструмент работает только с Google.

Отслеживание изменений в robots.txt

Когда над сайтом работает множество специалистов, изменение даже одного знака в robots.txt способно повлечь серьёзные последствия. Поэтому регулярный мониторинг файла крайне важен.

  • Используйте Google Search Console, чтобы узнать, какую версию robots.txt в данный момент использует Google. Для Яндекса необходимо использовать Яндекс.Вебмастер.
  • Проверяйте размер файла, чтобы он соответствовал лимитам.

Заключение

Файл robots.txt — ключевой инструмент для организации работы с поисковыми системами, который способен повлиять на параметры выдачи и SEO-продвижение. Он регулирует индексацию, определяет, какие страницы и разделы увидит поисковой робот и как он оценит ресурс. Это влияет на позиции сайта в выдаче и, соответственно, на его трафик. Поэтому правильная настройка robots.txt обеспечит экономию бюджета и времени на продвижение ресурса.

Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.

По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге. 

Что такое robots.txt

Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации. 

Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта /robots.txt и вы увидите его.

Комьюнити теперь в Телеграм

Подпишитесь и будьте в курсе последних IT-новостей

Подписаться

Зачем нам нужен этот файл

Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:

  • дубли страниц;
  • служебные файлы;
  • файлы, которые бесполезны для посетителей;
  • страницы с неуникальным контентом.

Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано. 

Настройка директивов robots.txt

Директивы — это правила для роботов. И эти правила пишем мы. 

User-agent

Главное правило называется User-agent. В нем мы создаем кодовое слово для роботов. Если робот видит такое слово, он понимает, что это правило для него. 

Пример:

User-agent: Yandex

Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:

User-agent: *

Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.

Disallow и Allow

С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow, даем разрешение на индексацию.

Пример:

Allow: /category/

Даем рекомендацию, чтобы индексировались категории. 

Disallow: /

А вот так от индексации будет закрыт весь сайт.

Также существуют операторы, которые помогают уточнить наши правила.

  • * звездочка означает любую последовательность символов (либо отсутствие символов).
  • $ знак доллара является своеобразной точкой, которая прерывает последовательность символов.
Disallow: /category/$ # закрываем только страницу категорий

Disallow: /category/* # закрываем все страницы в папке категории

Sitemap

Данная директива нужна для того, чтобы сориентировать робота, если он заплутает. Мы показываем роботу дорогу к Sitemap.

Пример:

Sitemap: http://site.ru/sitemap.xml

Директива host уже устарела, поэтому о ней говорить не будем. 

Crawl-delay

Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.

Пример:

Crawl-delay: 10 

Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.

Clean-param

Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы. 

Пример:

Clean-Param: utm_source&utm_medium&utm_campaign

Как закрыть сайт от индексации

Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:

User-agent: *

Disallow: /

Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.

Проверка файла robots

Есть потрясающий инструмент, который позволит вам включиться в творческую работу с директивами и прописать правильный robots.txt  инструмент от Яндекс.Вебмастера.

Переходим в инструмент, вводим домен и содержимое вашего файла.

Анализ robots.txt

Нажимаем «Проверить» и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.

robots.txt вебмастер

Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.

Запрет url

Вводим список адресов, которые нас интересуют, и нажимаем «Проверить». Инструмент сообщит нам, разрешены ли для индексации данные адреса страниц, а в столбце «Результат» будет видно, почему страница индексируется или не индексируется. 

Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.

Правильный robots.txt для WordPress

Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами. 

User-agent: *

Disallow: /cgi-bin # папка на хостинге

Disallow: /wp-admin

Disallow: /wp-includes 

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-json/ # Все служебные файлы можно закрыть другим образом: Disallow: /wp-

Disallow: /xmlrpc.php # файл WordPress API

Disallow: /*? # поиск

Disallow: /?s= # поиск

Allow: /*.css # стили

Allow: /*.js # скрипты

Sitemap: https://site.ru/sitemap.xml # путь к карте сайта (надо прописать свой сайт)

Правильный robots.txt для Joomla

User-agent: *

Disallow: /administrator/ 

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Sitemap: https://site.ru/sitemap.xml

Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.

Правильно настроенный файл robots.txt способен оказать позитивное влияние на продвижение сайта. Если вы хотите избавиться от мусора и навести порядок на сайте, файл robots.txt готов прийти на помощь.

Понравилась статья? Поделить с друзьями:
  • Диспетчерская система руководств перевозками
  • Инструкция по охране труда для тракториста машиниста сельскохозяйственного производства
  • Инструкция на эхолот humminbird piranhamax 220
  • Коралл аппарат для лечения инструкция по применению
  • Deerma dem f600 инструкция на русском скачать