Правильный robots.txt для WordPress

Віталий

11 років ago

Доброго времени суток. 🙂

В прошлой статье я писал о том, как правильно сделать файл robots.txt и для чего он нужен. Если это Вам интересно, то под статьей есть ссылка на предыдущую статью.

Здесь же хочу показать как сделать robots.txt для WordPress. Статья небольшая но думаю будет полезной для тех у кого есть свой блог на WordPress. Так что открываем свой robots.txt для редактирования, который лежит в корне сайта и читаем далее статью, чтобы узнать, что нужно добавить.

В самом начале вставляем параметр, который указывает что делать всем роботам, без исключений:

User-agent: *

У WordPress, как и у других движков, есть системные папки, индексация которых не обязательна. В них может содержаться информация, которая не должна быть доступна поисковикам. Так что первые три пути, которые мы закроем для роботов будут такими:

Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/

Далее идут файлы плагинов, тем и системного кэша. Это вряд ли нужно роботам для индексации основных страниц сайта.

Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Далее закрываем уже от индексации определенные страницы. Это страницы, которые создают дублирование контента. Как известно, это не очень хорошо, а даже наоборот очень плохо. Если на сайте будет много дубликатов, поисковики могут счесть это за не уникальный контент и даже отправить сайт под фильтр. Это крайняя мера, но когда-то было и такое с некоторыми блогерами.

Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments

Следующие строки можно применять только тем, кто использует плагины для ЧПУ - типа Rus-to-Lat и тд. По умолчанию ссылки страниц не содержат слов, а это знак вопроса и номер. Так что если у Вас ЧПУ(Человечески понятные урлы) то добавьте еще и эти строки:

Disallow: /*?
Disallow: /*?*
Disallow: /*.php

Кстати, последняя строка не позволит индексировать все страницы с расширением php, а это страницы входа, регистрации и тд.

Если у Вас есть какие-то папки с дополнительными файлами, которые не нужно индексировать, тоже укажите запрет. Например - Disallow: /имя папки.

Под самый конец вставляем еще два параметра. Первый это - Host - где указываем путь к основному зеркалу сайта. С www или без него.

Host: gnatkovsky.com.ua

Второй - указываем путь к карте сайта с помощью параметра Sitemap.

Sitemap: https://gnatkovsky.com.ua/sitemap.xml

Весь код целиком будет иметь примерно такой вид. Там где адрес сайта измените на свой, чтобы не натворить делов и не создать себе проблем.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /*.php

Host: ваш-сайт.com
Sitemap: http://ваш_сайт/sitemap.xml

Как и писал, это примерный вид и каждый вебмастер настраивает под свой уникальный сайт. Если Вам надо, можете удалить ненужные строки. За robots.txt нужно постоянно следить и добавлять в него новые исключения или указания, чтобы индексация совершалась правильно. Начинающие вебмастера не всегда знают о пользе этого файла и часто ведут свои сайты без него. Но если Вы всерьез решили заниматься своим сайтом, то наличие обязательно. Читайте информацию и делайте все правильно.

На этом все, спасибо за внимание. 🙂

Exit mobile version