Поговорим о замечательном и чрезвычайно важном файле.
Robots.txt — файл, который поисковые боты просматривают в первую очередь. По сути, на этом строится все. Это первый шаг на пути индексации, SEO-оптимизации и важная составляющая разработки интернет-ресурса.
На сайте должен быть только один файл robots.txt и размещен он должен быть в корневой директории сайта. Поисковые боты, попадая на сайт, делают запрос вида /robots.txt
.
Давайте рассмотрим какие инструкции могут быть использованы и что они означают.
User-agent: * — указание поискового бота. В данном случае правила будут действовать для всех ботов. Вы можете написать сценарий, который опишет правила для всех ботов, а потом уточнить определенные нюансы для конкретно взятого бота. Например:
#правила для любого бота. Закроем папку для всех ботов. User-agent: * Disallow: /folder #уточним, что для ботов Яндекса она открыта. User-agent: Yandex Allow: /folder
Allow: — разрешено для индексации. При написании сценариев учитывайте правило «все, что не запрещено, то разрешено.»
Disallow: — запрещено для индексации.
Host: — строка может быть расположена в любой части файла. Призвана указать основное зеркало: www.site.ru или site.ru. Рекомендую второй вариант. Обязательно указывайте данный параметр (Host: site.ru)!
Sitemap: — ссылка на XML-карту. Допускается несколько значений. Например:
Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz
Кроме того, поддерживаются регулярные выражения, упомянутые в user-agent.
* — произвольная последовательность символов.
Перейдем к примерам и решению конкретных задач.
User-agent: * Disallow: /
User-agent: * Disallow:
Давайте закроем от индексации каталоги one, two и three.
User-agent: * Disallow: /one/ Disallow: /two/ Disallow: /three/
User-agent: * Disallow: /first.html Disallow: /second.html Disallow: /three.html
Приведу примеры robots.txt для некоторых CMS. Обращаю внимание: примеры базовые и могут не оптимальны для конкретно взятого ресурса. Учитывайте специфику разработки.
WordPress CMS
User-Agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: site.ru Sitemap: http://site.ru/sitemap.xml
Joomla CMS
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: site.ru Sitemap: http://site.ru/sitemap.xml
MODx CMS
User-agent: * Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Host: site.ru Sitemap: http://site.ru/sitemap.xml
Bitrix CMS
User-agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: */*search Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*print Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*back_url* Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*PAGEN_* Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: site.ru Sitemap: http://site.ru/sitemap.xml
Проверить корректность файла можно с помощью Вебмастера от «Яндекс». Рекомендую использовать.
Регистр. Файл должен называться robots.txt и никак иначе. Ошибочные варианты: robots.TXT, Robots.txt и так далее.
Несколько каталогов/файлов в одной инструкции. Ошибочным является сценарий вида:
#пример ошибочного синтаксиса Disallow: /one/ /two/ /three/
Правильно:
Disallow: /one/ Disallow: /two/ Disallow: /three/
Неправильное указание директорий. Неправильно: Disallow: one
. Правильно: Disallow: /one/
.
Пустое значение User-Agent. Неправильно: User-agent:
. Правильно: User-agent: *
.
Указание протокола в Host. Неправильно: Host: http://site.ru/
. Правильно: Host: site.ru
.
Путь к Sitemap. Обязательно должен содержать протокол и доменное имя. Неправильно: Sitemap: /sitemap.xml
. Правильно: Sitemap: http://site.ru/sitemap.xml
.
Множественное число в названии файла. Файл называется robots.txt. Но никак не robot.txt.
Специфика регулярных выражений.
# тоже самое, что Disallow: /one запрещает и /one.html и /one Disallow: /one*$
# запрещает /two, но не запрещает /two.html Disallow: /two$
В завершении хотелось бы призвать всех WEB-мастеров (как начинающих, так и опытных) к бдительности, так как сам не раз сталкивался с такими сложностями. Файл robots.txt является основополагающим для любого интернет-ресурса. Будь то сайт-визитка или каталог значительных размеров. Продуманная структура, качественная верстка и наполнение могут быть сведены к нулю из-за проблем с robots.txt. Будьте внимательны. Надеюсь, данная публикация поможет вам в этом!