Поделись, не будь жмотом

Данной статьей открываю раздел для новичков. Думаю, среди подписчиков есть такие. Ставьте лайки после прочтения статьи, посмотрим, сколько вас.

robots

Robots.txt — это текстовый файл формата «.txt», где прописываются различные инструкции для поисковых роботов. Данный файл должен располагаться в корневой папке вашего сайта.

Для того, чтобы проверить, есть ли robots.txt у вас на сайте, введите после вашего доменного имени в браузере /robots.txt. Например, yandex.ru/robots.txt

Данный файл рекомендуется делать абсолютно всем сайтам, чтобы роботам поисковых систем было проще индексировать ваш ресурс.

Иногда в файле можно встретить знак #, он применяет, чтобы оставить комментарий. Так делают некоторые разработчики или оптимизаторы, чтобы было понятно, что они закрывают или открывают.

Если вы обнаружили на вашем сайте готовый роботс, хотя его никогда не настраивали, не удивляйтесь, админка сама сделала самый распространенный вариант robots.txt. Например, если у вас woprdpress, то там уже в шаблоне может быть настроен стандартный файл.

Что можно закрыть в robots.txt

  • страницы, которые по вашему мнению не должны участвовать в поиске
  • «мусорные страницы». Такие как — страницы с результатами поиска по сайту, с личной информацией пользователей, корзина, регистрация, различные файлы, статистика посещаемости сайта, сервисные страницы баз данных, пустые страницы или с мизерным количеством контента
  • дубли

Страницы дубли достаточно распространенная проблема, с которой встречаются вебмастера. Вот некоторые примеры

Страницы с www и без

Со слешем на конце урла и без

С различными подстановками после урла. Например, index.php, index.html

С GET-параметрами

Зачем закрывать от индексации дубли и мусорные страницы

  • данные виды страниц влияют негативным образом на релевантность и ранжирование сайта в поисковых системах. Дубли могут запросто заменить основную продвигаемую страницу в поисковой выдаче и тем самым сильно потерять в позициях.
  • у поисковых роботов есть так называемый краулинговый бюджет на индексацию вашего сайта. Т.е. если у вас 100 тысяч страниц и большой процент дублей, то роботы могут не индексировать нужные страницы, т.к. тратят бюджет на дубли
  • большое количество дублей в индексе может способствовать снижению трафика, особенно в Гугле

Как создать файл robots.txt

Все очень просто — открываем блокнот, прописываем нужные вам правила, сохраняем в формате txt (просто нажимаете кнопку сохранить). Имя файла указываем robots. Отправляем файл на сервер в корневую папку сайта.

Есть различные онлайн сервисы по созданию данного файла, но, на мой взгляд, проще сделать его вручную.

Основные правила и инструкции robots.txt

User-agent

Указывает каким поисковым роботам нужно будет посмотреть инструкции, которые указаны в robots.txt.

Роботов огромное количество, поэтому если вы хотите создать инструкцию для всех, то прописывается:

User-agent: *

Робот Гугла — Googlebot

Робот Яндекса — Yandex

Disallow

Запрещает роботам сканировать указанную информацию.

Например, чтобы запретить роботу индексировать весь сайт необходимо прописать

Dissallow: /

Важно! Не забывайте, что если не убрать это правило, сайт будет отсутствовать в поисковой выдаче.

Пример, давайте попробуем закрыть папку /erunda/ для всех роботов

User-agent: *

Dissallow: /erunda/

Allow

Разрешает роботам сканировать указанную информацию (определенные страницы или разделы сайта).

Например, давайте для Яндекса разрешим сканировать только папку /erunda/

User-agent: *

Allow: /erunda/

Dissallow: /

Robots.txt - что это за файл, как его настраивать и использовать

Примечание. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.

Crawl-delay

Директива, которая помогает справляться сайту с нагрузкой, если сервер перегружается и не успевает обрабатывать запросы робота.

Актуально если у вас слабенький хостинг, который ложится при малейшей нагрузке. Или у вашего ресурса огромное количество страниц.

Пример

User-agent: Yandex
Crawl-delay: 2.0

Здесь мы дали рекомендацию роботу Яндекса обращаться к страницам сайта не чаще, чем 1 раз в две секунды (т.е. замедлили скорость обхода). Чтобы ускорить, в директиве прописываем сотые доли секунд. например 0,1

Robots.txt - что это за файл, как его настраивать и использовать

Host

Директива, которая указывает поисковым ботам на главное зеркало сайта.

Например, вы перешли на https версию сайта. В robots.txt вы указываете:

User-agent: Yandex

Host: https://ваш_сайт.ru/

Гугл и остальные поисковики, кроме Яндекса, эту команду не распознают.

Clean-param

Директива помогает исключить из поиска страницы с динамическими параметрами.

Robots.txt - что это за файл, как его настраивать и использовать

Таким образом, вы помогаете роботу не использовать краулинговый бюджет на ненужные страницы.

Sitemap

Директива, которая указывает путь к карте сайта в формате xml. Сайтмепов может быть несколько

Пример

User-agent: *

sitemap: https://site.com/sitemaps1.xml

sitemap: https://site.com/sitemaps2.xml

Спецсимволы

Значок звёздочка — *

По умолчанию каждому правилу в конце присваивается любая последовательность символов в файле. Спецсимвол звездочка означает любую последовательность символов

Пример

Robots.txt - что это за файл, как его настраивать и использовать

Значок доллар — $

Данный спецсимвол означает полное соответствие указанному правилу. Т.е. исключает правило символа *

Например, вам нужно закрыть только папку /erunda/ при этом оставить открытой папку /erunda/polnaya/

User-agent: *

Dissallow: /erunda/$

Некоторые нюансы при составлении файла

  • рекомендуется прописывать правила для каждого поисковика отдельно. Для Яндекса свое, для Гугла свое
  • гуглу рекомендуется дополнительно разрешать к индексации картинки, фото, java скрипты, css. Иначе на мобильных сайт может выглядеть неправильно
  • когда прописываете в user agent правила для всех поисковиков, не забывайте ставить звездочку. Просто пробел не работает.

Как проверить robots.txt

В Яндексе здесь

В Гугле здесь

Хочу вас предупредить — данный файл не игрушка, если вы не уверены в том, что хотите запретить или разрешить роботу, лучше обратитесь в специалисту. А то закроете пол сайта от индексации и будете ждать результатов)

Если остались какие-то непонятные моменты, можете почитать официальную справку Яндекса


Отправить ответ

avatar
  Подписаться  
Уведомление о