Как написать правильный файл robots.txt для сайта

Здравствуйте уважаемые читатели блога PomKomp.ru Правильный файл robots.txt залог успешного продвижения и быстрой индексации сайта поисковиками. Он был разработан довольно давно и используется до сих пор.

Основные задачи robots.txt:
1. Запрещает или разрешает индексировать каталоги, страницы, файлы и их группы.
2. Указывать файл с картой сайта (sitemap.xml).
3. Указывать главное зеркало (если есть).

Перед тем как начать описание всех действий советую обратить внимание на файл моего сайта. Для этого достаточно к URL добавить /robots.txt

Файл роботс нужен всем сайтам, независимо от того большой он или маленький, интернет-магазин или просто одностаничник. Зачем поисковикам файл роботс? Дело в том, что поисковая система индексирует все документы, которые хранятся на вашем домене, а это картинки, таблицы стилей, скрипты и так далее. Это все усложняет процесс индексации сайта роботу и увеличивает время, которое он затрачивает на ваш проект. Для того чтобы сказать роботу что можно индексировать, а что нет, служит файл robots.txt.

Пишем robots.txt для сайта

Как вы заметили, роботс имеет расширение .txt, а значит создать его можно в обычном блокноте у себя на ПК, а затем залить на хостинг. Помните, что в названии должны быть только буквы нижнего регистра.
Правильный роботс.txt состоит из директив и их свойств (параметров). Их всех мы рассмотрим по мере написания файла. Самая первая директива которая стоит вначале это User-agent. Она показывает для какого робота написаны дальнейшие параметры.
Файл robots.txt для сайта

Свойства директив прописываются через двоеточие и пробел. В примере выше мы указали директиве User-agent параметр «*», который говорит, что прописанные далее свойства все поисковые роботы будут воспринимать одинаково. Если нужно разрешить индексировать сайт определенному роботу, после двоеточия нужно прописать его название.
Правильный robots.txt

Свойство Yandex указывает на то, что сайт доступен для индексации всеми ботами Яндекса. У Яндекса несколько ботов, один отвечает за индексацию картинок, другой за индексацию товаров и т.д. Чтобы разрешить индексировать сайт только основному роботу, нужно вместо Yandex прописать YandexBot. Ниже приведён Список главных ботов Яндекса и Гугла. Чтобы указать какому боту вы задаете инструкции, просто пропишите его после строчки User-agent:
Боты Гугла:
Googlebot – основной поисковик Гугла;
Googlebot – News – индексирует новости;
Googlebot – Image – индексирует картинки;
Googlebot – Video – индексирует видео;
Боты Яндекса
Yandex — главный индексирующий робот;
YandexImages — индексирует картинки;
YandexVideo — индексирует видео;
YandexMedia — Индексирует медиа;
YandexBlogs — индексирует комментарии;
YandexFavicons — индексирует favicon;

Проверить правильность написания файла robots.txt можно в специальных сервисах поисковых систем вебмастер Яндекс и вебмастер Google. О том как это сделать я описал в соответствующих статьях своего блога.

Нужно отметить, что в параметрах директивы User-agent указывается только один поисковый робот, а значит запись вида
Роботс для сайта

Будет неправильна.
Allow/Disallow.
Из названия этих директив ясно, что allow разрешает боту индексировать файл, страницу, каталог и их группы, а disallow запрещает. По умолчанию все каталоги открыты для индексации, поэтому сама по себе директива allow смысла не несет, ее нужно использовать вместе с запрещающей директивой disallow.
Пример использования директив Allow/Disallow: Правильный роботс.txt

Тут мы запретили главному поисковому боту Яндекс индексировать страницы, находящиеся в директории blog и разрешили индексировать страницы в каталоге /blog/page. Как вы заметили, этот файл имеет структуру, то есть сначала запрещается весь каталог, а затем его части. Такой файл лучше воспринимается роботами, а значит сайт пройдёт индексацию быстрее.
Также неправильно будет писать директивы через пустую строку. Пример неправильной записи:
Неправильный robots.txt

Пустой пробел воспринимается большинством роботов как окончание инструкций для предыдущего поисковика и началом новой директивы User-agent. Несмотря на то, что в скриншоте выше приписано Allow: /blog/page, она проиндексирована не будет, так как в предыдущей директиве мы запретили индексировать страницы и подкаталоги /blog.
Пример правильного robots.txt для сайта:
Верный файл роботс для сайта

В этом случае страница /blog/page будет проиндексирована.
Также директива Disallow допускает использование символов * и $.
* показывает, что вместо нее может стоять любое значение. Таким образом записи
robots.txt 7

Удовлетворяют запросы “Disallow /page1/; Disallow /page2/; Disallow /page1/zakaz/;” и так далее, а значит все производные от /page каталоги проиндексированы не будут.
$ указывает на точное запрещение данного параметра. Так, запись
robots.txt 8означает, что для индексации запрещается /page, но не запрещается /page1/; Disallow /page2/; Disallow /page1/zakaz/.
Для запрета индексации файла нужно прописать полный путь до него. Запретим индексировать файл file.php в каталоге /page. Для этого пишем
robots.txt 9Если при запрете индексации каталогов звездочка означала запрет индексации всех производных каталогов, то здесь она означает запрет на индексацию файлов с расширением после звёздочки. При запрете индексации файлов не уместна запись
“Disallow: file*.php”
Правильно писать
“Disallow: *.php”
Таким образом мы запрещаем индексировать ВСЕ файлы с расширением .php.

Основные заповеди правильного файла robots.txt

1. Все директивы должны начинаться с новой строки, не стоит прописывать их вряд.
2. Одной директиве соответствует один параметр.
3. Роботы игнорируют директивы с пробелом в самом начале.
4. Параметр директивы так же пишется в одну строчку и не переносится.
5. После окончания директивы не ставиться «;»
6. Комментарии пишутся после «#»
7. Некоторые боты трактуют пустую строку между директивами как начало новой user-agent.
8. Правильный формат строки robots.txt: (директива): (пробел)(значение).
9. Disallow с пустым значением равна Allow: / (разрешить все).
10. Файл роботс.txt необходимо называть именно robots.txt. Другие названия неприемлемы.
11. Если файл весит более 256 Кб, то он автоматически считается всеразрешающим.
12. Также если robots.txt недоступен или робот по каким-то причинам не может его прочесть, он считается всеразрешающим.
13. Если не отделять директивы User-agent пустым переносом, то все кроме первой будут проигнорированы.
14. robots.txt всегда пишутся на латинице.
Как видите, в роботс.txt нужно писать строго по делу. В правильном robots.txt много смысла, но мало строк. Это главное правило идеального robots.txt для сайта.
Карта сайта и хост.
По-хорошему в файле robots.txt должна быть указана карта сайта и хост. С картой сайта понятно, но зачем указывать хост? У вас есть несколько сайтов с одинаковым содержимым (зеркала), и если робот наткнётся на такое же содержание сайта, то он будет считать этот сайт зеркалом, а у любого зеркала есть основной сайт (хост). Он указывается специально для робота Яндекс и задается через следующую запись:
“Host: www.mydomian.ru”
где www.mydomian.ru– доменное имя сайта. Обратите внимание, www.mydomian.ru.ru и mydomian.ru это две разные вещи.
Карта сайта нужна для всех поисковых систем и нужна для их ориентирования на сайте. Она задаётся через
“Sitemap: http://www.mydomian.ru/sitemap.xml”
где www.mydomian.ru– доменное имя сайта.

Очень надеюсь, что эта статья поможет вам на первых шагах настройки вашего будущего величайшего проекта. Если по каким-то причинам у вас возникли трудности в создании файла robots.txt для сайта и при его проверке возникают ошибки, то советую оставить все ваши вопросы в поле комментариев к этой статье и я постараюсь оперативно дать на них исчерпывающий ответ.

Если Вам понравилась эта статья, то подписывайтесь на новые и воспользуйтесь, пожалуйста, кнопочками:

Подпишитесь на новости сайта

Вы также можете прочесть...

2 комментария

  1. Алексей:

    Огромная благодарность автору! Все по делу. Интересно и полезно!

  2. Павел:

    Спасибо! Заинтересовало.

Добавить комментарий

Яндекс.Метрика