Инструкция по работе с robots.txt

Поговорим о замечательном и чрезвычайно важном файле.

Robots.txt — файл, который поисковые боты просматривают в первую очередь. По сути, на этом строится все. Это первый шаг на пути индексации, SEO-оптимизации и важная составляющая разработки интернет-ресурса.

Будь вежлив со своим robot.txt

 — Будь вежлив со своим robots.txt!

Где должен быть размещен файл robots.txt

На сайте должен быть только один файл robots.txt и размещен он должен быть в корневой директории сайта. Поисковые боты, попадая на сайт, делают запрос вида /robots.txt.

Синтаксис robots.txt

Давайте рассмотрим какие инструкции могут быть использованы и что они означают.

User-agent: * — указание поискового бота. В данном случае правила будут действовать для всех ботов. Вы можете написать сценарий, который опишет правила для всех ботов, а потом уточнить определенные нюансы для конкретно взятого бота. Например:

#правила для любого бота. Закроем папку для всех ботов.
User-agent: *
Disallow: /folder
#уточним, что для ботов Яндекса она открыта.
User-agent: Yandex
Allow: /folder

Allow: — разрешено для индексации. При написании сценариев учитывайте правило «все, что не запрещено, то разрешено.»
Disallow: — запрещено для индексации.
Host: — строка может быть расположена в любой части файла. Призвана указать основное зеркало: www.site.ru или site.ru. Рекомендую второй вариант. Обязательно указывайте данный параметр (Host: site.ru)!
Sitemap: — ссылка на XML-карту. Допускается несколько значений. Например:

Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

Кроме того, поддерживаются регулярные выражения, упомянутые в user-agent.
* — произвольная последовательность символов.

Перейдем к примерам и решению конкретных задач.

Как закрыть сайт для индексации

User-agent: *
Disallow: /

Как открыть сайт для индексации

User-agent: *
Disallow:

Как закрыть от индексации некоторые каталоги

Давайте закроем от индексации каталоги one, two и three.

User-agent: *
Disallow: /one/
Disallow: /two/
Disallow: /three/

Закрыть конкретные файлы от индексации

User-agent: *
Disallow: /first.html
Disallow: /second.html
Disallow: /three.html

Примеры robots.txt для различных CMS

Приведу примеры robots.txt для некоторых CMS. Обращаю внимание: примеры базовые и могут не оптимальны для конкретно взятого ресурса. Учитывайте специфику разработки.

WordPress CMS

User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Joomla CMS

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

MODx CMS

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Bitrix CMS

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: */*search
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*print
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*back_url*
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Частые ошибки в robots.txt

Проверить корректность файла можно с помощью Вебмастера от «Яндекс». Рекомендую использовать.

Регистр. Файл должен называться robots.txt и никак иначе. Ошибочные варианты: robots.TXT, Robots.txt и так далее.
Несколько каталогов/файлов в одной инструкции. Ошибочным является сценарий вида:

#пример ошибочного синтаксиса
Disallow: /one/ /two/ /three/

Правильно:

Disallow: /one/
Disallow: /two/
Disallow: /three/

Неправильное указание директорий. Неправильно: Disallow: one. Правильно: Disallow: /one/.
Пустое значение User-Agent. Неправильно: User-agent: . Правильно: User-agent: *.
Указание протокола в Host. Неправильно: Host: http://site.ru/. Правильно: Host: site.ru.
Путь к Sitemap. Обязательно должен содержать протокол и доменное имя. Неправильно: Sitemap: /sitemap.xml. Правильно: Sitemap: http://site.ru/sitemap.xml.
Множественное число в названии файла. Файл называется robots.txt. Но никак не robot.txt.
Специфика регулярных выражений.

# тоже самое, что Disallow: /one запрещает и /one.html и /one
Disallow: /one*$
# запрещает /two, но не запрещает /two.html
Disallow: /two$

Заключение

В завершении хотелось бы призвать всех WEB-мастеров (как начинающих, так и опытных) к бдительности, так как сам не раз сталкивался с такими сложностями. Файл robots.txt является основополагающим для любого интернет-ресурса. Будь то сайт-визитка или каталог значительных размеров. Продуманная структура, качественная верстка и наполнение могут быть сведены к нулю из-за проблем с robots.txt. Будьте внимательны. Надеюсь, данная публикация поможет вам в этом!

Опубликовано: 25 ноября 2015 года, в рубрике «Разработка».

Комментарии для данной записи отключены
Поблагодарить автора статьи
Зачем это нужно