Добрый день. Основные проблемы с корректной индексацией сайтов, создаваемых на CMS 1C-Bitrix:
- Наличие дублей страниц (при некорректно настроенном .htaccess);
- Наличие большого количества технических виртуальных страниц (преимущественно, фильтры).
Для устранения данных проблем для правильной индексации сайта поисковыми системами и дальнейшего продвижения сайта на Bitrix нужно использовать правильный robots.txt и настроить корректную обработку дублей с помощью файла .htaccess.
Первый вариант правильного robots.txt для CMS 1C-Bitrix:
User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Host: sitename.ru
Sitemap: http://www.sitename.ru/sitemap.xml
Путём крайне хитрых манипуляций сокращаем данный код и получаем
Второй вариант правильного роботс для Битрикс:
User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Host: sitename.ru
Sitemap: http://www.sitename.ru/sitemap.xml
Дополнительно можно ещё использовать директиву Clean-param:
Например,
Clean-param: print&action&SHOWALL&PAGEN_1&PAGE_NAME&forgot_password&и_так_далее / #для всех страниц
Более подробно и с техническими особенностями описано в соответствующем разделе Справки Яндекса: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html
За сим прощаюсь. С вами был дедушка-сеошник из Санкт-Петербурга.
Удачного продвижения сайтов на Bitrix с помощью правильного robots.txt.
Что-то давненько уже новых интересных постов не видать…
добрый день!
А почему нужно запрещать все динамические параметры — «?» ?
upload не стоит закрывать
Отличная статья, буду использовать, спасибо большое!
Блин давно искал! Огромное вам спасибо за такую статью!