У меня не один сайт сделан и на разных движках. Как бы не новичок. Везде привык дублировать потому что раньше так рекомендовали при правильном написании роботс. Даже не задумывался. Сейчас просмотрев инфу понимаю что можно от этого пережитка прошлого и отказаться. Но что значит это? User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
Следующим роботам Яндекса можно указать отдельные директивы:
'YandexBot' — основной индексирующий робот;
'YandexMedia' — робот, индексирующий мультимедийные данные;
'YandexImages' — индексатор Яндекс.Картинок;
'YandexCatalog' — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
Для каждого из них также действительно правило: если обнаружены директивы для конкретного робота, директивы 'User-agent: Yandex' и 'User-agent: *' не используются.
Пример:
User-agent: YandexBot # будет использоваться только основным индексирующим роботом
Disallow: /*id=
User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
Я не просто так по закрывал: registration, plugins, mainpreview, profile, people. Гугл вебмастер это все проиндексировал.
Закрыл discussed, question, link, top Так как это по сути дубли одного и того же контента.
По правилам создания роботс для Яши нужно ( по крайне мере рекомендуют) отдельно прописывать правила. Если Гугл сообразительный то Яша требует прописывать и карту сайта и основной домен в роботс.
Вопрос. Что такое /robotstxt/$
Да. Гугл вебмастер с какой то балды начал индексировать плагины /mainpreview/ Вот и решил вообще папку /plugins закрыть. И если он такой стал шустрый то не чего ему делать и в шаблонах.
User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
Следующим роботам Яндекса можно указать отдельные директивы:
'YandexBot' — основной индексирующий робот;
'YandexMedia' — робот, индексирующий мультимедийные данные;
'YandexImages' — индексатор Яндекс.Картинок;
'YandexCatalog' — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
'YaDirectFetcher' — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
'YandexBlogs' — робот поиска по блогам, индексирующий посты и комментарии;
'YandexNews' — робот Яндекс.Новостей;
'YandexPagechecker' — валидатор микроразметки;
‘YandexMetrika’ — робот Яндекс.Метрики;
‘YandexMarket’— робот Яндекс.Маркета;
‘YandexCalendar’ — робот Яндекс.Календаря.
Для каждого из них также действительно правило: если обнаружены директивы для конкретного робота, директивы 'User-agent: Yandex' и 'User-agent: *' не используются.
Пример:
User-agent: YandexBot # будет использоваться только основным индексирующим роботом
Disallow: /*id=
User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего
User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
Закрыл discussed, question, link, top Так как это по сути дубли одного и того же контента.
Вопрос. Что такое /robotstxt/$