#2 – Создаём идеальный Robots.txt для WordPress
Содержание статьи:
Robots.txt – что это такое?
Файл robots.txt – это файл, с помощью которого можно выставить запрет на индексацию каких-либо частей сайта или блога поисковым роботом.
Создается единый стандартный robots txt для Яндекса и для Google, просто вначале прописываются запреты для одной поисковой сети, а затем для другой. В принципе в нём можно прописать параметры для всех поисковых систем, однако, зачастую не имеет смысла это делать, т.к. конкретно для России основными считают Яндекс и Гугл, с остальных поисковых систем трафик настолько мал, что ради них нет необходимости прописывать отдельные запреты и разрешения.
Зачем он нужен?
Если вы сомневаетесь нужен ли robots txt вообще, то ответ однозначный – ДА. Данный файл показывает поисковым системам куда им ходить нужно, а куда нет. Таким образом, с помощью «Роботса» можно манипулировать поисковыми системами и не давать индексировать те документы, которые вы бы хотели оставить в тайне.
Важно! К файлу robots txt Яндекс относится, так сказать, с уважением, он всегда учитывает все нововведения и поступает так, как указано в файле. С Google ситуация сложнее, чаще всего поисковый гигант игнорирует запреты от «Роботса», но тем не менее лично я рекомендую всё равно прописывать все необходимые данные в этот файлик.
Зачем не пускать поисковики к каким-то файлам или директориям?
- Во-первых, некоторые директории (например теги в WordPress или страницы пагинации) оставляют много “мусора” в выдаче, что негативно сказывается на самом сайте.
- Во-вторых, быть может вы разместили неуникальный контент, но очень нужно, чтобы он был на сайте, с помощью robots.txt можно не дать поисковому роботу добраться до такого документа.
Где находится?
Файл robots.txt располагается в корне сайта, т.е. он всегда доступен по адресу site.ru/robots.txt. Так что если вы раньше не знали, как найти robots txt на сайте, то теперь вы с лёгкостью сможете посмотреть и возможно отредактировать его.
Зная, где находится данный файл, вы теперь без труда сможете заменить старый и добавить новый robots.txt на сайт, если в этом есть необходимость.
Robots txt для WordPress
Правильный robots.txt для WordPress вы можете скачать с моего блога, он располагается по адресу //vysokoff.ru/robots.txt . Это идеальный и правильно оформленный «Роботс», вы можете добавить его к себе на сайт.
После того как вы скачали мой robots.txt для WordPress, в нём необходимо будет исправить домен на свой, после этого смело заливайте файлик к себе на сервер и радуйтесь тому, как из поисковой выдачи выпадают ненужные «хвосты».
Кстати, не пугайтесь, если после 1-2 АПов Яндекса у вас вдруг резко сократится количество страниц в поисковой выдаче. Это нормально, даже наоборот – это отлично, значит ваш robots.txt начал работать и в скором времени вы избавитесь от не нужного хлама, который раньше висел в SERP’e.
Так что если вы не знаете, как создать robots txt для WordPress самостоятельно, то рекомендую просто скачать готовый вариант с моего блога, лучше вы вряд ли составите.
Теперь давайте поговорим о том, как полностью закрыть от индексации весь сайт с помощью данного чудо-файлика или наоборот, как разрешить всё, используя robots.txt.
Пример Robots.txt: disallow и allow, host и sitemap
Как было сказано выше, с помощью robots txt можно как запретить индексацию сайта, так и разрешить всё.
Disallow
Данной командой вы закроете весь сайт от индексации поисковых систем. Выглядеть это будет так:
User-agent: *
Disallow: /
Таким образом, вы полностью закроете сайт от индексации. Для чего это делать? Ну, например, как я рассказывал ранее, в статье про стратегию наполнения нового сайта. Изначально вы добавляете файл robots.txt в корень сайта и прописываете код, который указан выше.
Добавляете необходимое количество статей, а затем, скачав мой идеальный robots txt, открываете от индексации только необходимые разделы на сайте или блоге.
Чтобы в robots txt разрешить всё, вам необходимо написать в файле следующее:
User-agent: *
Disallow:
Т.е. убрав слэш, мы показываем поисковым системам, что можно индексировать абсолютно всё.
Кроме того, если вам необходимо закрыть какую-то конкретную директорию или статью от индексации, необходимо просто дописывать после слэша путь до них:
Disallow: /page.htm
Disallow: /dir/page2.htm
Allow
Данный параметр наоборот открывает для индексации какую-то конкретную страницу из закрытой Disallow директории. Пример:
Disallow: /dir/
Allow: /dir/ page2.htm
Прописываем Host и карту сайта
В конце файла robots txt вам необходимо прописать два параметра host и sitemap, делается это так:
Host: www.site.ru
Sitemap: www.site.ru/sitemap.xml
Host указывается для определения правильного зеркала сайта, а второе помогает роботу узнать, где находится карта сайта.
Проверка Robots.txt Яндексом и Google
После того как вы сделали правильный robots.txt и разместили его на сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Гугла, кстати, о том, как добавить сайт в вебмастеры этих поисковых систем я уже писал.
Чтобы проверить Robots.txt Яндексом необходимо зайти в https://webmaster.yandex.ru/ —> Настройка индексирования —> Анализ robots.txt.
В Google заходим http://google.ru/webmasters —> Сканирование —> Инструмент проверки файла robots.txt
Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые коррективы, если они есть.
Резюме
Ну вот, думаю, мне удалось объяснить вам, что такое robots.txt, для чего он нужен. Кроме того, напоминаю, скачать файл robots txt вы можете здесь.
В следующий раз я расскажу вам о супер-плагине WordPress SEO by Yoast, без которого, я считаю, нельзя начинать успешное продвижение сайта.
Директива Host уже давно игнорируется поисковыми система, ее можно не использовать.
Да, совершенно верно, с 2018 года и Яндекс отказался от данной директивы. Спасибо за замечание.
Ваш файл роботс еще актуален? Статья-то давняя…можно ли его сейчас качать и заливать на свой хостинг? Нужно ли что-то менять?
Здравствуйте, robots.txt актуален, но тем не менее просто скачать его и залить к себе не получится, нужно видоизменять. Напишите мне в телеграм, напримпер, Vysokoff – Логин мой, я подскажу что и как сделать.
Артем, такой вопрос. В вашем роботс как я понял, теги закрыты, но вот вебмастер яндекса показывает, что /tag/kupit/, /tag/izbalovannaya-tsatsa/ и некоторые другие добавлены в поиск…почему так?
А ваш файл подходит для интернет-магазина??
Здравствуйте, Дмитрий, нет он подходит для сайтов на Вордпрессе.
Я это знаю) Дело в том, что интернет-магазин как раз на Вордпрессе))) В таком случае подходит?
Здравствуйте, Артём!
У меня в корневой папке сайта нет robots.txt, а по ссылке: сайт.ru/robots.txt открываются вот такие данные:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Подскажите, пожалуйста, что мне сделать дальше? Как мне его найти и поправить согласно вашим рекомендациям? Я подумала, может быть мне создать robots.txt по вашему образцу и просто залить в корень сайта, но опять же, если открывается по ссылке, значит где-то же он есть, но я все обыскала, не нашла.
Чтобы в robots txt разрешить всё, вам необходимо написать в файле следующее:
User-agent: *
Disallow:
Disallow ведь запрещает, а не разрешает. Зачем же писать Disallow:?
Зачем закрывать сайт от индексации при написании статей? Ведь поисковые системы не будут индексировать сайт пока они не знают о нём.
Чтобы, когда поисковики начали заходить на сайт, там уже были статьи, а не пустой недоделанный ресурс.
Правильная и нужная статья, особенно для начинающих. Мне она понравилась. Я хотел бы ее разместить на своем сайте delayu-sayt.ru Вы позволите?
Здравствуйте, да можете разместить, только поставьте, пожалуйста, ссылку на источник, т.е. на мой блог, что вы статью отсюда взяли.
И еще Вы забыли о User-agent: Mediapartners-Google, User-agent: Googlebot-Image и User-agent: YandexImages