Разберемся с robots.txt

Поскольку эта тема ещё не поднималась, решил обсудить ее здесь и развеить в первую очередь свои сомнения, а затем сохранить тему для потомков :)

Итак, для новичков: robots.txt это файл который кладется в корневую папку вашего сайта и служит для дачи указаний поисковым ботам (google, yandex, rambler...), что можно индексировать, а что нет. Если эту опцию не настроить, то могут возникнуть проблемы, допустим пользователь перешел через запрос к вам на сайт, но попал на страницу где есть несколько топиков (страницп блога, страница с тегами...), а ему нужен один конкретный топик, не увидя искомое, может просто покинуть страницу.

Итак, я считаю, что некоторые части сайта необходимо запретить для индексации поисковиками, а именно реврайты: люди, список блогов, тэги, топ, весь эфир, разговоры и поиск. И папки: classes, config, include, logs и templates.


User-agent: *
Disallow: /people
Disallow: /blogs
Disallow: /tags
Disallow: /top
Disallow: /comments
Disallow: /talk
Disallow: /search
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /logs
Disallow: /templates


В чем я прав? В чем не прав?

50 комментариев

avatar
я бы помог ) если бы лучше знал структуру LS, вопрос где хранятся картинки? Так же я сомневаюсь что темплейт надо закрывать…

кто ещё как думает?
avatar
А какие могут быть последствия? В идеале я думаю, что индексироваться должны только топики, со своими комментариями, остальное может только сбивать с толку пользователя О_о
avatar
Не считаю нужным
Disallow: /people
Disallow: /blogs
Disallow: /tags
Disallow: /top
Disallow: /comments


Например tags очень помогает в индексации, и может помочь вылезти по СЧ.
avatar
А чем tag помогает при индексации, я вот допустим на хабре он запрещен. Я думаю, что мало приятного когда ищешь одно что-то, а тебе выходит список с разными топиками и ты затем ищешь, тот что тебе нужен… Хотя я могу ошибаться, но когда я ищу через гугл, мне сначала выходит страница с тагом, а затем страницы содержащие это слово.
avatar
Упс, пол сообщения скушалось случайно, ладно, надеюсь из за этого, то что есть не сильно грубо выглядит.
avatar
Disallow: /rss

тоже целесообразно
avatar
Почему?
avatar
обоснуйте. зачем?
avatar
Я все ещё не понял, чем помогает индексировать копии или неполную информацию в продвижении сайта?
avatar
Кстати насчет rss не совсем согласен, я думаю тут стоить отключить для всех, но добавить для некоторых ботов которые могут быть нужны (допустим индексатор блогов от яндекса...).
avatar
Ну так что тема закрыта? или ещё есть дополнения?
avatar
Ну я пока для себя понял, что надо разрешить поисковым ботам доступ только к ./blog, то есть к самим статьям. Но со мной не кое-кто не согласен. Мои рассуждения основаны на том, что я считаю, что только нужная пользователям информация должна индексироваться, а кто не согласен приводит какие-то доводы по seo, которые я не понимаю.
avatar
это зависит еще и от задач проекта. и от того, каким образом он собирается монетизироваться
avatar
Мой robots.txt:
User-agent: *
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /logs
Disallow: /templates
Disallow: /uploads
Disallow: /search
Disallow: /registration
Disallow: /login
Disallow: /people
Disallow: /profile
Disallow: /my
avatar
А какой смысл роботс запихивать такие вот адреса?
Disallow: /classes
Disallow: /config
Disallow: /include

В этих папках нет файлов, которые могли бы попасть в индекс
avatar
просто в robots.txt от Joomla тоже прописаны директории, которые вроде как не могут попасть в индекс но всё таки прописаны. я уверен что когда они их прописывали они чем то руководствовались. Были случаи когда пауки как то залазили в ЛС SMF 1.1 и тоже приходилось даже ЛС запрещать.
avatar
странно, но тут на livestreet.ru вот такой robots.txt:

User-agent: Yandex
Disallow: /rss
Host: livestreet.ru
Crawl-delay: 0.3

User-agent: *
Disallow: /rss
Crawl-delay: 0.5
avatar
А чего в нем странного? На Хабре, кстати, аналогичный был, если правильно помню. У меня такой же стоял, пока страницы не стали вылетать из индекса Яндекса.
Хотя сейчас к дублированию контента в пределах одного сайта при нормальных сайтах относятся довольно лояльно, но сейчас использую такой:

User-agent: *
Disallow: /rss
Disallow: /people
Disallow: /blogs
Disallow: /tags
Disallow: /top
Disallow: /comments
Disallow: /talk
Disallow: /search
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /templates
Disallow: /uploads
Disallow: /logs
Disallow: /registration
Disallow: /login
Disallow: /profile
Disallow: /my
Host: ***
Crawl-delay: 0.5
avatar
Можно вопрос, а Disallow: /uploads зачем закрыли? Также как и blogs и logs, что тогда открыто для поисковиков?
avatar
например, blog, то бишь просмотр топиков, просмотр блога и тд
avatar
uploads и logs — там, конечно, выводить нечего, но по примеру Джумлы привык закрывать. Вреда от этого, насколько понимаю, никакого.
blogs — я предпочел бы не видеть в выдаче результатов поиска списка всех блогов. Благо если на сайте идет более-менее активное обсуждение темы — она в индекс и так без труда попадает.
Остались блоги (blog). То есть все топики и комментарии к ним.
avatar
А, понял в чем проблема. Вы перепутали «blogs» и «logs» с «blog» и «log».
Это принципиально разные вещи :)
avatar
Да именно, спасибо за разъяснения
avatar
/comments не надо было закрывать, поскольку юзеры генерируют уникальный контент.
/uploads тоже можно было не закрывать, поскольку трафик можно получать с изображений.
avatar
можно я думаю еще добавить:
User-agent: Googlebot-Image
 Disallow:
 Allow: /*
 # разрешаем индексировать изображения

User-agent: YandexBlog
 Disallow:
 Allow: /*
 # разрешаем индексировать rss-ленту
avatar
А почему не просто вот так:
User-agent: *
avatar
это помимо перечисленных выше…
в User-agent перечисляются роботы…
для роботов Googlebot-Image и YandexBlog обычно разрешают все индексировать. Если нужен трафик по поиску картинок с сайта, а также если есть трансляция rss в яндексблогах
avatar
Звездочка — это и есть ВСЕ боты, включая Googlebot-Image и YandexBlog.
avatar
конечно-конечно :)) просто Disallow: — это запрет на индексацию, а Allow: /* разрешает индексировать все, что было запрещено выше :))
avatar
У меня яндекс и гугл в индекс внесли все найденые страницы, включая форму регистрации, авторицации, страницы пользователей и страницы поиска, так что вариант
User-agent: *

отпадает, так как надо закрывать некоторые пути
avatar
поэтому я себе сделала такой файл, спешиал для яндекса:
User-agent: *
Disallow: /rss
Disallow: /people
Disallow: /blogs
Disallow: /tags
Disallow: /top
Disallow: /comments
Disallow: /talk
Disallow: /search
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /templates
Disallow: /uploads
Disallow: /logs
Disallow: /registration
Disallow: /login
Disallow: /profile
Disallow: /my
Disallow: /*?*
Disallow: /*?
 
User-agent: yandex
Disallow: /rss
Disallow: /people
Disallow: /blogs
Disallow: /tags
Disallow: /top
Disallow: /comments
Disallow: /talk
Disallow: /search
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /templates
Disallow: /uploads
Disallow: /logs
Disallow: /registration
Disallow: /login
Disallow: /profile
Disallow: /my
Disallow: /*?*
Disallow: /*?
 Host: вашсайт.ru
  
User-agent: Googlebot-Image
 Disallow:
 Allow: /*


User-agent: YandexBlog
 Disallow:
 Allow: /*
avatar
Ох, господа, дурью вы маетесь, честное слово.
avatar
кому как… если конечно сайт только для избранных, то да… но яндекс и гугл любят «сопли» убирать из поиска, соответственно и трафик снизится.
avatar
Во-первых, вы не очень-то знаете посещаемость моих ресурсов, да? Так что не будем, пожалуй мереться.
Во-вторых, вы для user-agent: yandex копируете то же, что и для всех остальных просто для красоты?
И, наконец, вы так уверены, что без полного доступа Googlebot-Image ко всему сайту, когда ему придется лопатить кучу мусора, гугл не проиндексирует картинки? :)))
avatar
ужас, что за самомнение такое, где вы увидели что я с вами чем-то меряюсь… :))
почитайте лучше вы матчасть, а я использую на практике:
Во-вторых, вы для user-agent: yandex копируете то же, что и для всех остальных просто для красоты?

на практике в панели вебмастера, робот яша не видит то что для всех — а только ту секцию что именно для него!))
И, наконец, вы так уверены, что без полного доступа Googlebot-Image ко всему сайту, когда ему придется лопатить кучу мусора, гугл не проиндексирует картинки? :)))
этот бот заточен именно для картинок, и ваше дело как для него писать правила, но еще раз повторю — это лишь конкретные правила для добавления всех картинок в гугл-картинки. а это допрафик… иногда и в /uploads который вы закрыли от поисковиков, находятся картинки… но конечно, как я могу утверждать за робота… ))
«А почему это ребятки не делают таких монстров?».
спросите у них, если вам это интересно)) ради вашего же любопытства.
avatar
Мда. Упертый лузер. Вопросов больше не имею.
avatar
мда уж… хочешь как лучше… а тут на тебе… :))
avatar
Ради любопытства, посмотрите robots.txt на популярных ресурсах (да хоть на том же Хабре), полистайте матчасть и ответьте сами себе на вопрос: «А почему это ребятки не делают таких монстров?».
avatar
не делают потому что не надо, так как хватает 5 -7 строк
avatar
А инструкция Allow разве существует? Может старый мануал читал, но там четко сказано, что ее нет)
avatar
Что то я так и не понял нужен вообще robots.txt или нет? Если да то как лучше его составить?
avatar
А чем плох? :)
livestreet.ru/robots.txt

И тут все в порядке

Наизобретали велосипедов в теме…
avatar
Кстати, объясните какую функцию выполняет Crawl-delay: 0.3 и Crawl-delay: 0.5, зачем оно нужно?
avatar
Этот параметр указывает роботу с какой частотой делать обращение к страницам сайта в секундах (т.е. «съел» одну, выждал 0.3 сек и «съел» другую и т.д.)
Этому параметру стоит уделить особое внимание, если у Вас «слабый» хостинг в противном случае он особо не нужен, но и не помешает
avatar
ну вот как раз у LiveStreet посмотрел, а потом нашел эту тему и так сказать, впал в ступор )) спасибо за отметание сомнений ))
avatar
Скажите пожалуйста, как срыть от робота закрытые блоги?
avatar
боюсь что с помощью robots.txt никак
avatar
Даже вручную? Как правильно прописать их url-ы? Или это дело в sitemap делается?
avatar
уже писали как вручную
avatar
Disallow никак не поможет?
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.