Пагинация
В очереной раз я наткнулся на SEO-беозабразие в LS. На этот раз я обнаружил, что пагинация плодит дубли страниц.
Я заметил, что в индексе ПС оказалось сразу три главных страницы сайта :
Не долго думая, я хотел было решить проблему 301 редиректом и склеить все дубли с мордой. После того, как я написал одну строчку в /.htaccess, меня озарило и я обнаружил у всех элементов, содержащих пагинацию, дубли, например:
полностью дублирует
Хотелось бы узнать, есть ли какой-либо вариант решения этой проблемы?
идеальным решение с точки зрения SEO стало бы полное отсутсвие этих страниц, ввиду того, что это сделать невозможно, необходимо составить конструкцию для .htaccess. Для редиректа главной я составил вот такую конструкцию:
Как поставить редирект с директории /index/ я не знаю, аналогично не знаю как справится с дублями в блогах.
P.S.S закрывать страницы в роботс.тхт, как это зказано в этой теме некорректно!
UPD
Для тех, кто не считает «у многих так» аргументом, фикс кривой, но какой есть:
что делать с дублями в блогах — дело ваше, если как таковой «Архив новостей» не нужен, то закрывайте все /page$/.
Относительно того, что писал наш Папа: произвольные запросы с "?" закрываем в роботах таким правилом:
Если конкуренты продолжают совать в аддурилку произвольные запросы, то составляем в .htacess правило, которое отдает 404 страницу на любой запрос, кроме / и .html
Я заметил, что в индексе ПС оказалось сразу три главных страницы сайта :
http://site.ru/
http://site.ru/index/
http://site.ru/index/page1/
Не долго думая, я хотел было решить проблему 301 редиректом и склеить все дубли с мордой. После того, как я написал одну строчку в /.htaccess, меня озарило и я обнаружил у всех элементов, содержащих пагинацию, дубли, например:
http://site.ru/blog/trololo/page1/
полностью дублирует
http://site.ru/blog/trololo/
Хотелось бы узнать, есть ли какой-либо вариант решения этой проблемы?
идеальным решение с точки зрения SEO стало бы полное отсутсвие этих страниц, ввиду того, что это сделать невозможно, необходимо составить конструкцию для .htaccess. Для редиректа главной я составил вот такую конструкцию:
RedirectPermanent /index/page1/ http://site.ru/
Как поставить редирект с директории /index/ я не знаю, аналогично не знаю как справится с дублями в блогах.
P.S.S закрывать страницы в роботс.тхт, как это зказано в этой теме некорректно!
UPD
Для тех, кто не считает «у многих так» аргументом, фикс кривой, но какой есть:
RedirectPermanent /index/page1/ http://site.ru/ - фикс дубля морды
<li>{$aLang.paging}:</li>
{if $aPaging.iCurrentPage>1}
<li><a href="{$aPaging.sBaseUrl}/{$aPaging.sGetParams}page1/">←</a></li>
{/if} - фиксим в файле пагинации ссылку на страницу /index/
Disallow: /index/$ - прописываем в роботс.тхт, закрывая директорию /index/
что делать с дублями в блогах — дело ваше, если как таковой «Архив новостей» не нужен, то закрывайте все /page$/.
Относительно того, что писал наш Папа: произвольные запросы с "?" закрываем в роботах таким правилом:
Disallow: /*?
Disallow: /*?*
Если конкуренты продолжают совать в аддурилку произвольные запросы, то составляем в .htacess правило, которое отдает 404 страницу на любой запрос, кроме / и .html
45 комментариев
Не верно. Верно — исключить на уровне CMS — это вопрос к разработчикам.
Мой роботс для примера:
Что имеем? В гугле — 100% индексация и 0 соплей.
можно попробовать конструкцию
запрещаем все где есть page
При это оставил возможность роботам ходить по страницам и ссылкам. В итоге — яндекс чуток поколбасился, но потом железно оставил в индексе главную и страницы топиков.
— vdenu : можете ознакомиться с этой статьей:
(наобум выдернул из Я). Какой из трех способов использовать — Ваш выбор. Мой 6-летний опыт работы SEO подталкивает меня к редиректу.
— CapLS : в совем роботс вы закрыли от индексации весь архив страниц в директории /index/, предлагаете закрыть все страницы с параметром page. Такая схема подойдет только для сбора НЧ из ПС по прямым переходам на страницу определенного топика. Шагнув выше, и взявшись двигать, допустим, блог с 15-20 топиками на борту (2 страницами блока) по СЧ ключу, Вы будете приятно удивлены ))
— dima_1st : аналогично. собираете траффик по НЧ запросам, двигаете отдельные топики.
логика есть и в чем то Вы правы, но зачем собирать мусор в страницах page и дубли в index — должно быть есть другое решение? Предложите свой вариант, или просто открыть? Хотелось бы увидеть пример «живой», поскольку не знаком еще с длительной индексацией LS/ Такие схемы работают в WP, DLE, Joomla.
К тому же, как озвучено выше, index и psge это откровенные дубли = с тз сео не есть айс. В чем их смысл?
И поскольку недавно начал осваивать LS не совсем понятно это
О том, что WP великолепно использует редирект, пример которого написано мною в теле топика вы можете убедиться, ознакомившись с моим постом ниже)
Понятное дело, что социальный блог не попадёт в выдачу по словам «Окна ПВХ».
Лично я закрыл от индексации пагинацию по причине юзабилити: livestreet.ru/blog/9915.html
— заходим, там висят 3 сайта. Хватаем любой из них. Я поймал 2 сайта с пагинацией далее вставляем в строку браузера конструкцию: сайт не отдает нам 404, а перебрасывает на главную. ОК. Тащим эту конструкцию сюда — и делаем вывод, что роботами дубли не убивают (точнее убивают те, кто не умеет по-другому)
Таким образом я уже убрал ссылку на /index/ и все сраницы архива не передают вес на дубль главной. С /page1/ прописан редирект на морду, как — см. в топике. Как настроить редирект с /index/ на морду, а так же как проделать такой же фокус с я не знаю ((
например:
site.ru/blog/?param=bla
site.ru/blog/?param2=foo
site.ru/blog/?param3=bar
news.yandex.ru/world.html?param=bar
news.yandex.ru/world.html?param=foo
это разные страницы или одинаковые с точки зрения поисковика?
market.yandex.ru/catalogmodels.xml?CAT_ID=108206&hid=90639
market.yandex.ru/catalogmodels.xml?CAT_ID=176217&hid=90564
Вот здесь верный ответ — livestreet.ru/blog/10374.html#comment159873
www.sosh1020.ru/Elementary/?mode=news
В ссылках сош все в порядка, ребята просто извратились с ЧПУ. А закрыть произвольные параметры можно в роботс.тхт, заставляя движок отдавать 404 на все несанкционированные хвосты.
Так к чему Вы хотите меня привести в этой беседе? К тому, что у нас 3 дубля главной и это хорошо?
Вы же своим решением (например, редирект /blog/page1/ на /blog/) избавляетесь только от одного дубля из множества (/blog/?param=foo и т.п.). Единственное и правильное решение изложил Chiliec
Я лишь хотел логически вас привести к нему, но видимо вам мешает 6-й опыт :)
Я прекращаю беседу, видимо это бесполезно.
А вы, вместо того, чтобы признать, что фейловая пагинация с любой страницы, кроме первой отдает стат. вес на /index/ и /index/page1/ рассказываете, что таких сайтов много. Я предложил самый простой вариант решенияданной и только данной проблемы с генерированием дублей самым движком. Если вы решите более глобальную проблему с использованием каноникал, то я буду только рад и искренне благодарен.
А что по делу? В каждом посте троЛЛЛят одни и те же «авторитетные» люди… а где совет, ответ…
Это разные страницы и все GET-параметры прекрасно индексируются… Взять те же p=174 в WordPress или viewtopic.php?f=1&t=37 в движках вроде phpBB. Ну локальные ссылки (#cut #photoset) естественно нет.
Редиректом можно решить, но правильнее всё же использовать мета-тег canonical, поддерживаемый всеми популярными поисковыми системами, включая Яндекс.
Насчет произвольных параметров в URL при появлении этого тега Devaka прокомментировал так:
devaka.ru/articles/link-rel-canonical
Я не говорил, что canonical пользоваться нельяз, наоборот, я написал
На мой взгляд, canonical подойдет для сайтов до 50 страниц, где есть возможность вручную править хеадер, для нас очень проблематично будет писать правило, подчиняясь которому движок будет вставлять саноникал в определенные страницы. Если редирект вам совсем не нравится, предлогаю вам написать скрипт, который будет ставить этот тег в страницы , так же все последующие trololo2 и trololo100500 так, чтобы не приходилось при создании нового блога дописывать правила для скрипта.
заранее спасибо