robots.txt для Livestreet

Самый оптимальный вариант для Livestreet проверенно!!!
User-agent: Yandex
Crawl-delay: 2
Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /special/
Host: ваш домен
User-agent: Googlebot
Crawl-delay: 2
Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /special/
Host: ваш домен

User-agent: Slurp
Crawl-delay: 8
Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /special/
Host: ваш домен

User-agent: *
Crawl-delay: 10
Disallow: /special/
Disallow: /js/
Host: ваш домен

Поддомены для юзеров и индексация

Здравствуйте.

Хочу сделать поддомены для юзеров, но волнует вопрос индексации. Я хочу закрыть от индексации все поддомены юзеров (но не те, которые создам сам). Возможно будет как-то это с помощью robots.txt сделать?

Поддомены хочу закрыть потому, что иначе будет очень большое количество дублей всех страниц. Спасибо.

Toolbar не прикреплен. Баг в JS. Отсутствие robots.txt

Добрый день. На официальном сайте было сказано — об ошибках постите в багтрекер, но прав у меня на это нету… Надеюсь этот пост увидят, а ошибки исправят… На самом деле я только поставил эту CMS и начал ее щупать однако недочеты заметил…

Читать дальше →

О robots.txt и отказах



Достаточно регулярно возникает тема нужности индексации (или наоборот закрытии индексации) страниц тэгов, категорий. Я не буду вдаваться в SEO тонкости, а просто приведу конкретные примеры из своей практики. Итак имеем сайт, стандартная пагинация:

site.com
site.com/index/page2/
site.com/index/page3/
site.com/index/page4/
site.com/index/pageXXX/


Сайт часто обновляется, материал «уходит» вниз, т.е. к примеру сегодня он на site.com, завтра на site.com/index/page2, и далее вниз. Поисковик индексирует как сами топики (site.com/blog/xxx/topic.html), так и страницы вида site.com/index/pageXXX.

Читать дальше →

Robot.txt как правильно писать.

Доброго.

Вопрос следующий.
Как правильно написать robot.txt для движка LS.

Контент должен быть полностью открыт, закрыть только функциональные страницы и те что дублируют контент.

С уважением Qusco.

Бот Яндекса по данным логов сервака находит на сайте странные пути оО

Друзья, а сталкивался ли кто-либо из вас в процессе продвижения LS в поисковиках (в частности — в Яндексе) с вот такой вот мурней в логах сервака:

77.88.27.26 - - [23/Oct/2009:23:28:41 +0400] "GET /index.php/g3n0m/comment/page3/ HTTP/1.0" 404 1403 "-" "Yandex/1.01.001 (compatible; Win16; I)"

Откуда Яша нашел этот пусть /index.php/g3n0m/comment/page3/??? Может ли на это как то влиять .htaccess или robots.txt (насчет последнего я не уверен, но все же спрошу).

Очень странно, и такой мурни, признаться, много у меня в логах. Это меня если честно напрягает сильно.

Разберемся с robots.txt

Поскольку эта тема ещё не поднималась, решил обсудить ее здесь и развеить в первую очередь свои сомнения, а затем сохранить тему для потомков :)

Итак, для новичков: robots.txt это файл который кладется в корневую папку вашего сайта и служит для дачи указаний поисковым ботам (google, yandex, rambler...), что можно индексировать, а что нет. Если эту опцию не настроить, то могут возникнуть проблемы, допустим пользователь перешел через запрос к вам на сайт, но попал на страницу где есть несколько топиков (страницп блога, страница с тегами...), а ему нужен один конкретный топик, не увидя искомое, может просто покинуть страницу.

Читать дальше →