О robots.txt и отказах



Достаточно регулярно возникает тема нужности индексации (или наоборот закрытии индексации) страниц тэгов, категорий. Я не буду вдаваться в SEO тонкости, а просто приведу конкретные примеры из своей практики. Итак имеем сайт, стандартная пагинация:

site.com
site.com/index/page2/
site.com/index/page3/
site.com/index/page4/
site.com/index/pageXXX/


Сайт часто обновляется, материал «уходит» вниз, т.е. к примеру сегодня он на site.com, завтра на site.com/index/page2, и далее вниз. Поисковик индексирует как сами топики (site.com/blog/xxx/topic.html), так и страницы вида site.com/index/pageXXX.

Достаточно часто, вес последних в глазах поисковика «выше», чем сам топик (это уже вопрос СЕО магии). Соответственно пользователь, по запросу попадает не в сам топик, а в страницу, которая уже не содержит той информации, которая ему нужна (сайт уже обновился). Посмотрев на контент, он чуть покрутится и уйдет. Точно такая же ситуация наблюдается и с тегами.

Очень рекомендую поставить Яндекс.Метрику и понаблюдать за пользователями через ВебВизор. Посмотрите, какое кол-во пользователей попадает на ваш сайт именно таким методом.

По просьбам трудящихся, привожу примеры закрывающие добавление в индекс определённого рода контента.


Disallow: /index/$

это убирается копия главной, доступна по site.com/index


Disallow: /blog/*/$

убирается дублирование контента через блоги


Disallow: /tags
Disallow: /tag

убираем таги


Disallow: /index/page*/$

убираем пагинацию

27 комментариев

avatar
Действительно вижу точки входа на этих страницах — но у меня их очень очень мало. ПС должны определять, что это всего лишь страницы категорий с анонсами, ведущими на основные страницы, плюс у них нет даже заголовков. Поэтому просто пользуйтесь cut'ом, не выделяйте ничего жирным в начале и не добавляйте лишнего веса этим страницам.
avatar
во всех темах основной фид в страницах ничем не отличается по форматированию от того, что в топиках, т.е. там присутствуют H1, Title и т.п.
Потом, если сама новость заключается в 3-4 предложениях, её бессмысленно убирать под CUT.
Т.е. хочется что бы сайт был прежде всего для людей, но в этом плане страдает SEO.

Да нужно заметить, что проблему я решил уже давно, написав грамотный robots, скрывающий всё, кроме топиков.
avatar
Грамотный robots, грамотный robots…
Disallow: /index/
что ли? :D
avatar
Не совсем так :)
avatar
Ну так может расскажете уже, что это за такой «грамотный robots»? Или для чего вы эту тему создали?
avatar
я решил уже давно, написав грамотный robots


Ну так поделитесь с сообществом. Не будьте голословны.
avatar
Суть то статьи не в примерах robots.txt, а том, что из за не правильной индексации может страдать Юзабилити сайта.
avatar
Не совсем понятно, вы держите в секрете что-ли robots.txt? Ведь вы сказали, что решили проблему, люди спросили, а много тех кто прочитал, но не стал спрашивать. Почему бы просто не дать пример, проблема поведенческих факторов, о которой вы упомянули, во многом решается robots.txt (по крайней мере пока не будет предложен более действующий вариант (если таковой имеется, с минимальными затратами). Так почему бы не привести пример? Просто мне не понятно, зачем тогда писать, если потом не показывать? Тем более мы же тут вроде как пытаемся общаться, а какое может быть общение, если каждый будет скрывать что-то
avatar
Почему бы просто не дать пример
все очень просто — как попрошайничать или получать чтото халявно так тут лес рук, а как чтото сделать для сообщества так — "я шланг"
avatar
Для начала тебе было бы неплохо узнать, что значит слово «юзабилити». После чего ты без посторонней помощи поймёшь, что твой комментарий выше представляет собой бессмысленную чепуху.
avatar
Всё просто, человек приходит на сайт, по конкретному запросу — и не находит этой информации, в том месте, куда приводит его поисковик.
avatar
это не имеет отношения к юзабилити, я потому и предложил тебе узнать значение этого термина
avatar
«степень, с которой продукт может быть использован определёнными пользователями при определённом контексте использования для достижения определённых целей с должной эффективностью, продуктивностью и удовлетворённостью»

В данном случае — степень использования сайта стремится к 0. О чём я и написал выше, ты можешь не согласиться с этим.
avatar
Это очередной пример слепого доверия русскоязычной википедии со стороны непросвящённых масс. То, что ты процитировал, это буквальный перевод термина Usability из международного стандарта ISO 9241-11, который имеет отношение к эргономике и инженерной психологии в общем, а не к узкому вопросу разработки веб-интерфейсов. Его бездумно скопировали из соответствующей англоязычной статьи не разобравшись, что в английском языке этот термин охватывает любой результат инженерной работы, а в России он прежде всего ассоциируется с удобством использования сайтов.

В этой связи следует говорить о Web usability, это специальное направление эргономики всестороне исследует взаимодействие человека и информационной системы посредством графического интерфейса пользователя и никоим образом не учитывает действие сторонних факторов и третьих сил в виде постоянно меняющихся алгоритмов и особенностей работы поисковых машин.

То, о чём ты пишешь — это одна из сторон поисковой оптимизации, взаимодействия сайта и поисковых машин, которая никак не вязана с Web Usability. За последний год среди оптимизаторов стало модно бросаться словечком «юзабилити», это нравится клиентам и выглядит очень солидно. И если опытные оптимизаторы обратили внимание на этот аспект исключительно с целью расширения сокращающихся бюджетов на фоне падения доверия клиентов к оптимизаторским «конторам», то начинающие «сеошники» и cочувствующие им энтузиасты банально не понимают значения используемых ими терминов и зачастую не могут объяснить смысл, который они в них вкладывают.
avatar
Я написал про юзабилити конкретного сайта, сайт по сути и является продуктом потребления.
avatar
Давайте вместе напишем все, кто понимает что такое robots и людям выложим, чтобы применяли, вижу тема не раскрытая.

Кому интересно, могу выложить готовый robots, но попозже, сайт еще в сеть даже не выложила )

А пока давайте думать какие папки закрывать:

1) Disallow: /index/
2) Disallow: /new/
3) Disallow: /blog/new/
4) Disallow: /blog/bad/
5) Disallow: /personal_blog/
6) Disallow: /personal_blog/new/
7) Disallow: /personal_blog/bad/
8) Disallow: /top/

Дальше специально продолжать не буду, подключайтесь :)

Я потом подумаю как вообще одной строкой закрыть всё, кроме публикаций одиночных, пошла покупать домен для сайта…
  • Dina
  • 0
avatar
dima_1st

Подсказываю.

Можно сделать условие в одной строке, которое будет закрывать ВСЁ кроме ссылок заканчивающихся на
.html
  • Dina
  • -1
avatar
не понимаю, зачем это?

3) Disallow: /blog/new/
4) Disallow: /blog/bad/
5) Disallow: /personal_blog/
6) Disallow: /personal_blog/new/
7) Disallow: /personal_blog/bad/

Вы хотите без посетителей остаться?
avatar
это была чья-то глупая шутка, вряд ли можно предлагать такое всерьёз
avatar
Мотивируйте. Или пишите как надо? или напишите почему не так.

Все посты выводятся в виде site.ru/blog/xxxxx.html Посмотрите вверху вашего браузера на адрес этой страницы.

Всё что остальное — это дублирование всего того что уже есть в постах. Поисковики дубли не любят и иногда даже банят сайты за это, редко но все же. Но это уже другая тема.

Вывод — то что мной написано вверху — все правильно и посетители будут и вывод в поиске будет адекватным и в глазах Яши и Гугла будем выглядеть белыми и пушистыми.

Видела уже не один сайт на этой системе у которых в индексе у Яши 0 старниц, а у Гугла менее 10% не под фильтрами.

Подумайте dimashmailov и onthefly, погуглите тему — АГС 30 и АГС 17 и вообще про баны от поисковиков и как правильно составлять robots.txt и нужен ли он.

Я тут новенькая в этой системе и вижу ребята тут в вопросах СЕО или не разбираются вообще или слабоваты ))

И не пишите — НЕ ТАК — пишите что не так и мотивируйте.
  • Dina
  • -1
avatar
Баранов я тебе не дам, но дам добрый совет: такие темы лучше обсуждать на сёрче, а не здесь. Не потому, что здесь в этих вопросах никто не сведущ, а потому, что тебе там быстрее объяснят, почему твой комментарий выше представляет собой не что иное, как текст, не имеющий отношения к реальности. Заодно и наставят на путь истинный — для тебя же полезнее будет, чем попусту вываливать сюда фантазии и убеждать себя в своей правоте.
avatar
)) опять без объяснений. У меня просто опыт по Вордпрессу есть, так куча дублей, а тут вижу их еще больше. Но серче тоже пообщаюсь. Но мои рассуждения логичны и обоснованы. И у себя я буду делать именно так.
onthefly напишите мне в личку, в чем я не права.
avatar
Извини, но никуда писать не буду, равно как и развивать дискуссию на эту тему, комментируя, где ты ошиблась в своих рассуждениях. Я предлагаю пообщаться на эту тему на профильном ресурсе и не вводить в заблуждение пользователей этого сайта сомнительными логическими выкладками. Там ты сможешь извлечь из обсуждения для себя гораздо большую выгоду.
avatar
По твоим словам, тут на сайте только Бараны сидят и не в чем не шарят, а ты из них самый умный, но показывать на деле ум не хочешь ))
Не вижу причин, чтобы именно на этом сайте не обсуждать эту тему, тем более название у нее подходящее.

onthefly ты как зазывала на другой сайт, как спамеры пишут: Тема хорошая, но тут мало инфы = переходите на мой сайт там и обсудим, у меня там и инфа получше и люди поумнее.

Не спорю, что Серч более посещаемый и затрагивает много тем, но и тут можно пообщаться. Еще раз обращу твое внимание на тему поста этого — О robots.txt и отказах НА сайте LiveStreet CMS

dima_1st спасибо что выложил пример своего robots.txt, если не сложно, выложи ниже поностью (можно без ссылок =) ) и используешь ли ты карту сайта?
avatar
0 страниц в Яще на 99 процентов из-за сап, прочих бирж и тд, без роботса сайты прекрасно живут и «белость и пушистость» их вобще никакх от него не зависит, прежде чем утверждать, что в вопросах Сео тут или где-либо еще слабоваты лучше сами поднатаскайтесь, никто никому ничего не должен и мотивировать в том числе, если у вас такой роботс на здоровье, расскажете о результатах через пару месяцев, не стоит всем подряд доказывать свою правоту и спорить, главное, чтобы вы сами в своих убеждениях были уверены.
avatar
вот так?

User-agent: Yandex
Crawl-delay: 2
Disallow:
allow: .html
Host: site.ru
Sitemap: http://site.ru/sitemap.xml 
avatar
А то я какого то динозавра создал)
User-agent: Yandex 
Crawl-delay: 2
Disallow: /rss
Disallow: /search
Disallow: /js
Disallow: /css
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /templates
Disallow: /logs
Disallow: /registration
Disallow: /login
Disallow: /login/reminder
Disallow: /my
Disallow: /talk
Disallow: /profile
Disallow: /blog/bad
Disallow: /personal_blog
Disallow: /blog/new
Disallow: /personal_blog/new
Disallow: /personal_blog/bad
Disallow: /top
Disallow: /top/topic/30d
Disallow: /top/topic/all
Disallow: /top/topic/7d
Disallow: /top/topic/24h
Disallow: /feed
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

User-agent: Googlebot
Crawl-delay: 2
Disallow: /rss
Disallow: /search
Disallow: /js
Disallow: /css
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /templates
Disallow: /logs
Disallow: /registration
Disallow: /login
Disallow: /login/reminder
Disallow: /my
Disallow: /talk
Disallow: /profile
Disallow: /blog/bad
Disallow: /personal_blog
Disallow: /blog/new
Disallow: /personal_blog/new
Disallow: /personal_blog/bad
Disallow: /top
Disallow: /top/topic/30d
Disallow: /top/topic/all
Disallow: /top/topic/7d
Disallow: /top/topic/24h
Disallow: /feed
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

User-agent: Slurp
Crawl-delay: 8
Disallow: /rss
Disallow: /search
Disallow: /js
Disallow: /css
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /templates
Disallow: /logs
Disallow: /registration
Disallow: /login
Disallow: /login/reminder
Disallow: /my
Disallow: /talk
Disallow: /profile
Disallow: /blog/bad
Disallow: /personal_blog
Disallow: /blog/new
Disallow: /personal_blog/new
Disallow: /personal_blog/bad
Disallow: /top
Disallow: /top/topic/30d
Disallow: /top/topic/all
Disallow: /top/topic/7d
Disallow: /top/topic/24h
Disallow: /feed
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

User-agent: *
Crawl-delay: 10
Disallow: /rss
Disallow: /search
Disallow: /js
Disallow: /css
Disallow: /classes
Disallow: /config
Disallow: /include
Disallow: /templates
Disallow: /logs
Disallow: /registration
Disallow: /login
Disallow: /login/reminder
Disallow: /my
Disallow: /talk
Disallow: /profile
Disallow: /blog/bad
Disallow: /personal_blog
Disallow: /blog/new
Disallow: /personal_blog/new
Disallow: /personal_blog/bad
Disallow: /top
Disallow: /top/topic/30d
Disallow: /top/topic/all
Disallow: /top/topic/7d
Disallow: /top/topic/24h
Disallow: /feed
Host: site.ru
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.