Размышления на тему – как написать robots.txt правильно – в теории

Сегодняшняя заметка о файле robots.txt…. Что это за файл такой, зачем он нужен и, как написать robots.txt правильно – вопросы на  которые предстоит найти ответы жирафе…

Толчком для более подробного изучения данного материала послужила рекомендация Гугла о желательном переводе всех ресурсов на защищённое соединение – протокол https…

Естественно опыты по переходу с http на https жирафа будет проводить на Блогостройке – ведь для этого мне этот ресурс и нужен…

А причём тут robots.txt спросите Вы?

Дело в том, что я вычитала, что при переходе на https нужно будет обязательно указать это в данном файле. Полезла искать, как это сделать и…. застряла… запуталась в куче информации о том, как написать robots.txt правильно…

Возникло желание разобраться хоть чуть-чуть…

А так как я в этом практически ничего не понимаю, то воспользуюсь материалами, которые мне больше понравились (чисто женская логика)))

Давайте, всё по порядку…

Что такое файл robots.txt и зачем он нужен

kak-napisat-robots-txt-pravilno-3

robots.txt – это текстовой файл, в котором содержатся рекомендации об правилах индексации Вашего ресурса, написанные Вами для поисковых роботов.

И нужен он для тех же самых поисковых роботов, чтобы они понимали Ваши предпочтения относительно индексации своего ресурса.

В файле robots.txt  прописываются условия индексации: что нужно индексировать роботу, а что не нужно

Может ли сайт существовать без robots.txt? – Да, может…

Но, в этом случае, в индекс попадёт всё!

И то, что туда совершенно не должно попасть – страничка входа в административную панель, например.

Кстати, такой же результат будет и при неправильном написании файла, роботы просто будут его игнорировать…

…как будто его вовсе нет…

Поэтому довольно важно знать, как написать robots.txt правильно, дабы в нём был какой то смысл)))

10 правил составления файла или, как написать robots.txt правильно

как написать robots.txt правильно

  1. Файл должен называться robots.txt и никак иначе – это значит, что данный файл у всех должен быть назван, именно, так, как написано – с маленькой буквы, маленькими буквами и с s на конце перед расширением .txt
  2. Лежать он должен в корневой папке сайта . На хостинге нажимаем папку с названием сайта , именно в ней и должен находиться данный файл
  3. Правила пишутся для каждого робота отдельно (User-Agent: ). Самые известные роботы – это, конечно, Google и Yandex, но есть и другие… Для каждого в файле robots.txt можно прописать правила отдельно
  4. Можно назначить правила для всех роботов сразу (User-agent: *) – тут без комментариев, обратная функция пункта №4 (см. выше по тексту)… но… для Яндекса всё же нужно прописать всё отдельно.
  5. Директива Host пишется только один раз и только для Яндекса. В директиве Host прописывается адрес сайта.

Важно! При написании директивы Host указывать протокол http не нужно.

А вот защищённый протокол https необходимо указать

  1. В одной строчке – одно правило, никаких перечислений. Здесь всё, по-моему, ясно
  2. Disallow – запрещает доступ, Allow – разрешает доступ. Маленькая ремарка – в статье, откуда я взяла информацию по этой теме указано, что важно соблюдать последовательность и очерёдность этих команд. Сначала разрешающие, затем запрещающие… вообще статья интересная, почитайте… но… В комментариях к ней есть опровержение данного факта со ссылкой на требования Яндекса… И хотя мне очень импонируют последовательные действия (так, просто на мой взгляд, самому удобнее) возникло желание всё ж ознакомится с материалами так сказать «из первых рук», т.е. почитать мемуары Яндекса о том, как составить robots.txt
  3. Закрывайте все технические разделы (плагины, админку и т.д.). Кто забыл, что такое плагины, смотрим здесь>>>. А кому неизвестен термин админка – сюда, пожалуйста>>>
  4. Закрывайте дубликаты основных страниц. О! это отдельная тема…
  5. Не закрывайте картинки от индексации – надо посмотреть в своём роботсе…

Заключение

kak-napisat-robots-txt-pravilno-2

Ну, что ж… в теории жирафе вполне понятно, как написать robots.txt правильно…

Осталось проверить своё понимание на практике….

Друзья!

Если хотите быть в курсе всех глупостей публикуемых Жирафой, то введите Ваш адрес электронной почты e-mаil в окошко ниже:

подписка на рассылку

Не забудьте подтвердить подписку в письме, которое придёт Вам по указанному адресу 🙂

10 комментариев

  1. Помню при построении первого сайта тоже прописывала robots.txt. Делала это с лёгкой руки тренеров, особо не понимая что и зачем нужно. Сейчас,конечно, ничего не помню))
    Леночка, не знаю какими материалами ты пользовалась, но посмотри вот эту статью(ссылка ниже), как мне кажется довольно доступно написано.
    //sky-fi.info/vnutrennyaya-optimizaciya/pravilnaya-nastrojka-robots-txt.html

    1. Женечка, спасибо))) У меня роботс тоже давненько написан и я тоже ничего не помню))) вот освежаю свою память))) за ссылочку спасибо, посмотрела, дельная информация)))

      1. Леночка,буду рада если она тебе поможет. Мне всё это не грозит, поскольку настройки для меня не доступны.
        И немного не в тему. Лена, ты писала, что при входе на мой блог возникают у тебя проблемы. Об этом и Лара говорила. Я со своей стороны сделала всё, что могла. В чём причина не знаю. Проблема возникает не у всех, проверяла. Может у тебя есть идеи почему так происходит?И что делать. Или перейти на другую платформу? Вопрос только на какую?

        1. Честно, не знаю из-за чего так… перейти на другую платформу? в смысле хостинг?))) или движок?))) о движках – ничего сказать не могу, мне сравнивать не из чего – вордпресс да гугловский блогер))) – они разные… для таких как мы с тобой оба не особо сложные, если не ковырятся… а насчёт хостинга – перед тем как будешь об этом думать определись для чего тебе блог нужен, отсюда выбор бесплатный или платный))) да и при смене хостинга в твоём случае, впрочем, как и движка поменяются все урлы статей – это не страшно, их просто нужно будет перенаправить… но всё ж работки прибавится… вот и думай оно тебе надо?)))

          1. Леночка, мне это не надо)) Вордпресс выбрала потому, что когда то осваивала на нём платный сайт. Всё просто и понятно. От платника отказалась, для меня это не оправданная трата денег. Блогом почти не занимаюсь, так по мере возможностей, для души.
            А работы и тут придостаточно, надо разбираться с ужимками фото))

  2. По поводу п. 8 — ситуация весьма спорная.
    С одной стороны, движки на общеизвестных CMS можно определить несколькими способами. С другой, зловреды могут заглядывать в robots и искать запрещающие правила.
    Допустим, с помощью плагина изменена страница для входа. Ломится бот на /wp-admin/ и получается 404. Ну, что делать, бывает. А теперь представим, что изменили название на /my-wp-admin/ и прописали это в роботсе. Открывает злыдень этот файл, и ему сразу понятно становится, куда надо обратиться, чтобы попытаться сбрутить пароль 🙂
    Это пример распространённого движка. А есть ещё самописы. Вот не уделил человек внимания безопасности, понадеялся, что запрос /nebeliberda/ никому в голову не придёт, а не стал заморачиваться с формой авторизации, а чтобы поисковые боты случайно не заиндексировали админку, добавил адрес для disallow в роботс. Честные боты, конечно, в индекс не запихнут (хотя накладки возможны), но вот для нехороших людей это будет подарком.

    1. Андрей, если честно, то что ты сейчас написал я поняла, но на интуитивном уровне…об этом я не то что не думала, но даже и не знала… т.ч. в заметке имелось ввиду не адрес входа в админку, а непосредственно сама админпанель(консоль), ну где мы заметки пишем… это опять же я так понимаю на данный момент))) короче мне ещё вникать и вникать…

Оставить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *