Всем привет ! Наконец-то «дошли мои руки» до файла robots txt, давно я уже хотел снова написать статью о данном файле, который не даёт ни кому покоя. Есть у меня на сайте уже пару статей о файле роботе, но их можно не читать, так как время тикает и всё меняется. Я пришёл к новым ума-заключениям, более осмысленным, наконец-то сам разобрался что к чему, а то знаете копировать робота с других сайтов и тупо вставлять на свой сайт…не дело это.
Сайты то у всех разные и если вы думаете, что есть один универсальный файл robots txt для всех сайтов, то вы ошибаетесь. Сегодня я дам вам практически самый универсальный файл робот, но вам нужно будет ещё кое-что проработать, я покажу что. Файл робота нужно составлять не только под каждый сайт индивидуально, но и под каждую поисковую систему (Яндекс, Google) тоже индивидуально.
Благодаря моим наблюдениям я вычислил, что для Google вообще не надо ничего закрывать, за исключением wp-admin. Речь идёт о: wp-content и wp-includes, в данных разделах находятся плагины, темы, скрипты, стили, CSS, JS. Если вы закроете от гугл разделы wp-content и wp-includes, то гугл заблокирует все записи сайта, в которых указаны ссылки на данные разделы.
Откройте любую запись вашего сайта, с помощью правой кнопки мыши перейдите в исходный код страницы. Практически на всех сайтах wordpress, в исходном коде любой записи отображаются ссылки на разделы wp-content и wp-includes. CSS и JS файлы нужны для отображения стилей и скриптов. Дело в том, что в отличии от Яндекса, Гугл не любит когда от него скрывают CSS и JS файлы. Для полноценной индексации записи, для гугла должны быть открыты файлы wp-content и wp-includes.
Могут быть и другие файлы, отдельные скрипты или стили, которые находятся в отдельных папках, не входящих в основные разделы wp-content и wp-includes. Здесь очень парадоксальный момент, то что для гугла надо открыть в файле робота, то для Яндекс надо закрыть в файле робота, чтобы он не наплодил дублей. Вообще, что касается Google, то файл robots txt не предназначен для закрытия индексации.
Вы можете закрыть (Disallow) какие-то файлы, чтобы поисковый робот гугл не сканировал их, к примеру для снижения нагрузки на сервер, но скрыты от индексации они не будут. К примеру, ссылка на ваш сайт может отображаться на другом сайте и тогда гугл проиндексирует её, не смотря на запреты в файле robots. Чтобы гугл не индексировал ваш сайт или какую-то его часть, раздел, страницу и т.д., то вам нужно использовать специальные мета теги, либо добавлять их на сайт вручную, либо с помощью плагина.
User-agent: Yandex
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /wp-json/
Disallow: /page/
Disallow: /wp-login.php
Disallow: /simplebox
Disallow: /?wp-subscription-manager
Host: info-effect.ru
Sitemap: https://info-effect.ru/sitemap.xml
User-agent: *
Disallow: /wp-admin/
Как видите по моему файлу, для Яндекса нужно закрыть все основные раздела wordpress сайта, в том числе wp-json и wp-login. А далее вам уже нужно лезть в исходный код своего сайта и вычислять какие ссылки ещё необходимо закрыть от Яндекса. Делается это очень просто, открываете любую запись своего сайта, переходите в исходный код, находите все ссылки (href) и закрываете все ссылки в файле robots, которые отображаются в каждой записи (в исходном коде).
К примеру у меня есть скрипт simplebox, для открытия изображений, в каждой записи есть ссылка на данный скрипт (в исходном коде). «Все ссылки» это не все ссылки сайта, это ссылки которые не нужны для индексации, которым нет смысла находится в поиске, пример — https://info-effect.ru/wp-json/oembed/1.0/embed?url=http%3A%2F%2Finfo-effect.ru%2Fkak-sdelat-izobrazhenie-adaptivnym-masshtabiruemym-chtoby-rastyagivalos.html
Повторюсь, для гугла нет смысла что-то скрывать в файле robots, за исключением wp-admin, чтобы гугл не сканировал административную часть сайта. А чтобы гугл не добавлял в поиск определённые страницы и разделы, нужно добавлять на сайт специальные мета теги и плагины. Что касается дублей, то у гугла в кабинете вебмастера есть специальный инструмент — «Параметры URL», который автоматически определяет что к чему.
На данный момент, такой вариант файла robots меня полностью устраивает и самое главное он устраивает поисковые системы Яндекс и Google. Индексация наладилась, всё в норме, в поиск попадают только необходимые страницы и записи, ничего лишнего. Совет вам вот какой — обязательно настройте правильно файл robots txt и следите за индексацией сайта, причём на постоянной основе. Успехов вам !