Правильный robots.txt для Bitrix (Битрикс)

Добрый день. Основные проблемы с корректной индексацией сайтов, создаваемых на CMS 1C-Bitrix:

  • Наличие дублей страниц (при некорректно настроенном .htaccess);
  • Наличие большого количества технических виртуальных страниц (преимущественно, фильтры).

Для устранения данных проблем для правильной индексации сайта поисковыми системами и дальнейшего продвижения сайта на Bitrix нужно использовать правильный robots.txt и настроить корректную обработку дублей с помощью файла .htaccess.

Первый вариант правильного robots.txt для CMS 1C-Bitrix:

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Host: sitename.ru
Sitemap: http://www.sitename.ru/sitemap.xml

Путём крайне хитрых манипуляций сокращаем данный код и получаем

Второй вариант правильного роботс для Битрикс:

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Host: sitename.ru
Sitemap: http://www.sitename.ru/sitemap.xml

Дополнительно можно ещё использовать директиву Clean-param:

Например,

Clean-param: print&action&SHOWALL&PAGEN_1&PAGE_NAME&forgot_password&и_так_далее / #для всех страниц

Более подробно и с техническими особенностями описано в соответствующем разделе Справки Яндекса: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html

За сим прощаюсь. С вами был дедушка-сеошник из Санкт-Петербурга.

Удачного продвижения сайтов на Bitrix с помощью правильного robots.txt.

Правильный robots.txt для Bitrix (Битрикс): Один комментарий

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *