robots.txt - это первое, что ищет поисковик, перед тем, как индексировать Ваш сайт. Так что он является обязательным элементом. Если внутри файлов вашего сайта есть каталоги,, которые не следует индексировать, Вы можете с легкостью это указать в robots.txt и поисковики стороной будут обходить эту папку.
Чтобы создать robots.txt, не нужно специальных программ и навыков, все это делается с помощью обычного блокнота. Просто создайте текстовый файл и назовите его - robots.txt.
Этот файл нужно поместить в корневую папку сайта, чтобы путь к нему был таким - http://ваш_сайт/robots.txt. Если случайно поместить в какой-то вложенный каталог, поисковики его попросту не найдут и будут все делать по умолчанию.
Как пишет сам Google у robots.txt есть две главные команды - User-agent и Disallow есть еще и Allow.
- User-agent - указывает имя поискового бота, который должен следовать правилам. Например - User-agent: Yandex. В основном задается универсальное правило, которое указывает всем поисковикам без исключения, это - User-Agent: *.
- Disallow - это специальная команда, которая говорит поисковику user-agent, какие URL не нужно сканировать. Disallow всегда должен идти после User-agent, потому как он относится именно к указанным выше роботам, никак иначе. Пример написания - Disallow: /files - запрет на индексацию папки files. Есть маленькое дополнение в виде символа $. Его надо ставить после названия для того чтобы установить исключение. Если взять тот самый путь и написать его так - Disallow: /files$ то будет задано условие что путь - /files недоступен, но /files.html вполне будет обработан. Это для того, если у Вас каким-то образом название страницы совпадет с названием папки.
- Allow: - это обратное от Disallow, то есть разрешает индексацию.
Есть еще дополнительные команды, которые помогают поисковикам в работе с Вашим сайтом. Одной из них есть команда, указывающая путь к карте сайта - Sitemap:. Пример написания:
Sitemap: http://mysite.com/sitemaps.xml
Sitemap: http://mysite.com/sitemaps2.xml
Не мало важная директива Host - служит для того, если у Вашего сайта есть зеркало, поможет определить главное. Чтобы в поиске не было дублирующихся страниц, что есть не мало важно. Команда Host не зависима и может быть вставлена в любом месте robots.txt. Пример написания - Host: site.com
Это пожалуй самые важные и часто используемые параметры, которые могут Вам понадобится. Правильное создание robots.txt поможет организовать правильную индексацию Вашего сайта.
На этом все, спасибо за внимание. 🙂