Здесь же хочу показать как сделать robots.txt для WordPress. Статья небольшая но думаю будет полезной для тех у кого есть свой блог на WordPress. Так что открываем свой robots.txt для редактирования, который лежит в корне сайта и читаем далее статью, чтобы узнать, что нужно добавить.
В самом начале вставляем параметр, который указывает что делать всем роботам, без исключений:
User-agent: *
У WordPress, как и у других движков, есть системные папки, индексация которых не обязательна. В них может содержаться информация, которая не должна быть доступна поисковикам. Так что первые три пути, которые мы закроем для роботов будут такими:
Disallow: /cgi-bin Disallow: /wp-admin/ Disallow: /wp-includes/
Далее идут файлы плагинов, тем и системного кэша. Это вряд ли нужно роботам для индексации основных страниц сайта.
Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes
Далее закрываем уже от индексации определенные страницы. Это страницы, которые создают дублирование контента. Как известно, это не очень хорошо, а даже наоборот очень плохо. Если на сайте будет много дубликатов, поисковики могут счесть это за не уникальный контент и даже отправить сайт под фильтр. Это крайняя мера, но когда-то было и такое с некоторыми блогерами.
Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: /tag/ Disallow: /feed/ Disallow: */feed Disallow: */trackback Disallow: */comments
Следующие строки можно применять только тем, кто использует плагины для ЧПУ - типа Rus-to-Lat и тд. По умолчанию ссылки страниц не содержат слов, а это знак вопроса и номер. Так что если у Вас ЧПУ(Человечески понятные урлы) то добавьте еще и эти строки:
Disallow: /*? Disallow: /*?* Disallow: /*.php
Кстати, последняя строка не позволит индексировать все страницы с расширением php, а это страницы входа, регистрации и тд.
Если у Вас есть какие-то папки с дополнительными файлами, которые не нужно индексировать, тоже укажите запрет. Например - Disallow: /имя папки.
Под самый конец вставляем еще два параметра. Первый это - Host - где указываем путь к основному зеркалу сайта. С www или без него.
Host: gnatkovsky.com.ua
Второй - указываем путь к карте сайта с помощью параметра Sitemap.
Sitemap: https://gnatkovsky.com.ua/sitemap.xml
Весь код целиком будет иметь примерно такой вид. Там где адрес сайта измените на свой, чтобы не натворить делов и не создать себе проблем.
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: /feed/ Disallow: */feed Disallow: */trackback Disallow: */comments Disallow: /*? Disallow: /*?* Disallow: /*.php Host: ваш-сайт.com Sitemap: http://ваш_сайт/sitemap.xml
Как и писал, это примерный вид и каждый вебмастер настраивает под свой уникальный сайт. Если Вам надо, можете удалить ненужные строки. За robots.txt нужно постоянно следить и добавлять в него новые исключения или указания, чтобы индексация совершалась правильно. Начинающие вебмастера не всегда знают о пользе этого файла и часто ведут свои сайты без него. Но если Вы всерьез решили заниматься своим сайтом, то наличие обязательно. Читайте информацию и делайте все правильно.
На этом все, спасибо за внимание. 🙂