Разберемся с robots.txt
Поскольку эта тема ещё не поднималась, решил обсудить ее здесь и развеить в первую очередь свои сомнения, а затем сохранить тему для потомков :)
Итак, для новичков: robots.txt это файл который кладется в корневую папку вашего сайта и служит для дачи указаний поисковым ботам (google, yandex, rambler...), что можно индексировать, а что нет. Если эту опцию не настроить, то могут возникнуть проблемы, допустим пользователь перешел через запрос к вам на сайт, но попал на страницу где есть несколько топиков (страницп блога, страница с тегами...), а ему нужен один конкретный топик, не увидя искомое, может просто покинуть страницу.
Итак, я считаю, что некоторые части сайта необходимо запретить для индексации поисковиками, а именно реврайты: люди, список блогов, тэги, топ, весь эфир, разговоры и поиск. И папки: classes, config, include, logs и templates.
В чем я прав? В чем не прав?
Итак, для новичков: robots.txt это файл который кладется в корневую папку вашего сайта и служит для дачи указаний поисковым ботам (google, yandex, rambler...), что можно индексировать, а что нет. Если эту опцию не настроить, то могут возникнуть проблемы, допустим пользователь перешел через запрос к вам на сайт, но попал на страницу где есть несколько топиков (страницп блога, страница с тегами...), а ему нужен один конкретный топик, не увидя искомое, может просто покинуть страницу.
Итак, я считаю, что некоторые части сайта необходимо запретить для индексации поисковиками, а именно реврайты: люди, список блогов, тэги, топ, весь эфир, разговоры и поиск. И папки: classes, config, include, logs и templates.
User-agent: *
Disallow: /people
Disallow: /blogs
Disallow: /tags
Disallow: /top
Disallow: /comments
Disallow: /talk
Disallow: /search
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /logs
Disallow: /templates
В чем я прав? В чем не прав?
50 комментариев
кто ещё как думает?
Например tags очень помогает в индексации, и может помочь вылезти по СЧ.
тоже целесообразно
User-agent: *
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /logs
Disallow: /templates
Disallow: /uploads
Disallow: /search
Disallow: /registration
Disallow: /login
Disallow: /people
Disallow: /profile
Disallow: /my
В этих папках нет файлов, которые могли бы попасть в индекс
User-agent: Yandex
Disallow: /rss
Host: livestreet.ru
Crawl-delay: 0.3
User-agent: *
Disallow: /rss
Crawl-delay: 0.5
Хотя сейчас к дублированию контента в пределах одного сайта при нормальных сайтах относятся довольно лояльно, но сейчас использую такой:
User-agent: *
Disallow: /rss
Disallow: /people
Disallow: /blogs
Disallow: /tags
Disallow: /top
Disallow: /comments
Disallow: /talk
Disallow: /search
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /templates
Disallow: /uploads
Disallow: /logs
Disallow: /registration
Disallow: /login
Disallow: /profile
Disallow: /my
Host: ***
Crawl-delay: 0.5
blogs — я предпочел бы не видеть в выдаче результатов поиска списка всех блогов. Благо если на сайте идет более-менее активное обсуждение темы — она в индекс и так без труда попадает.
Остались блоги (blog). То есть все топики и комментарии к ним.
Это принципиально разные вещи :)
/uploads тоже можно было не закрывать, поскольку трафик можно получать с изображений.
в User-agent перечисляются роботы…
для роботов Googlebot-Image и YandexBlog обычно разрешают все индексировать. Если нужен трафик по поиску картинок с сайта, а также если есть трансляция rss в яндексблогах
User-agent: *
отпадает, так как надо закрывать некоторые пути
Во-вторых, вы для user-agent: yandex копируете то же, что и для всех остальных просто для красоты?
И, наконец, вы так уверены, что без полного доступа Googlebot-Image ко всему сайту, когда ему придется лопатить кучу мусора, гугл не проиндексирует картинки? :)))
почитайте лучше вы матчасть, а я использую на практике:
на практике в панели вебмастера, робот яша не видит то что для всех — а только ту секцию что именно для него!)) этот бот заточен именно для картинок, и ваше дело как для него писать правила, но еще раз повторю — это лишь конкретные правила для добавления всех картинок в гугл-картинки. а это допрафик… иногда и в /uploads который вы закрыли от поисковиков, находятся картинки… но конечно, как я могу утверждать за робота… )) спросите у них, если вам это интересно)) ради вашего же любопытства.
livestreet.ru/robots.txt
И тут все в порядке
Наизобретали велосипедов в теме…
Этому параметру стоит уделить особое внимание, если у Вас «слабый» хостинг в противном случае он особо не нужен, но и не помешает