Правильный robots.txt для MODx CMS

Приветствую вас на своём сайте. С вами снова добрый дед-сеошник.

Сегодня речь пойдёт о том, как составлять правильный файл robots.txt (он же «роботс») для CMS MODx Revo (Revolution) и Evo (Evolution). В этих CMS тоже существует проблема дублей, пусть и не очень существенная; тем более закрыть эти дубли от индексации при помощи robots.txt не составит абсолютно никаких проблем.

Для начала, не забываем включить ЧПУ в настройках сайта.

Составляем robots.txt для MODx Evo

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Disallow: /?
Disallow: /*?
Disallow: /index.php
Host: endseo.ru
Sitemap: https://endseo.ru/sitemap.xml

Теперь robots.txt для MODx Revo

User-agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?
Host: endseo.ru
Sitemap: https://endseo.ru/sitemap.xml

Некоторые советы по поводу составления «роботс» для CMS MODx

  • index.php — это дубль главной страницы сайта
  • с помощью *? мы удаляем дубли для всех страниц
  • Sitemap желательно не указывать в файле robots.txt, потому существуют не очень хорошие боты, которые таким образом парсят ваши сайты, используя эту директиву. Для нормальных поисковых систем карту сайта можно, при желании, загрузить через панель вебмастера. Но и это не так важно.

С вами был дедушка-сеошник, читайте блог и подписывайтесь на обновления.

Правильный robots.txt для MODx CMS: 14 комментариев

  1. Сергей

    Здравствуйте. Перенес 2 недели назад сайт с ДЛЕ на МОДЭКС Рево , по вашему примеру оформил роботс, но до сих пор страницы созданные сразу после переноса, ни в какую не хотят индексироваться. Может слишком мало прошло времени? Версия МОДЭКСа последняя.

    1. Дед-сеошник Автор записи

      Нормальное время для индексации страниц сайта до 2 месяцев — если больше, то уже есть повод бить тревогу и писать гневные письма Платонам. С помощью Твиттера и хороших ссылок можно загнать страницы в Яндексе почти моментально. А с помощью ссылок или инструмента в Гугл Вебмастерс можно загнать страницы в индексе в поисковой системе Google. Modx или прочие CMS тут не при чём =)

  2. Максим

    А если в папке assets есть следующие папки:
    cache
    css
    docs
    export
    files
    flash
    images
    import
    js
    media
    modules
    plugins
    site
    snippets
    templates
    index.php

    Какие закрывать обязательно, чтобы не дай бог не закрыть картинки и основной контент сайта?

  3. pshag

    Добрый день! Подскажите как запретить индексацию страниц блога, генерирующихся по тегу?

  4. Татьяна

    Почему вы рекомендуете закрывать /index.php в Disallow, если все нормальные люди просто настраивают 301 на / ?

  5. Андрей

    А насколько правильным будет убрать с robots.txt эти значения?
    Disallow: /?
    Disallow: /*?
    У меня потом из-за этого не заиндексируются дубли страниц?

  6. Павел

    Disallow: /?
    Disallow: /*?
    А при этом будут индексироваться разделы с постраничной навигацией, где ссылки имеют вид .html?page=2

  7. Mit@j

    Верны оба варианта.
    Параметр host передается с указанием протокола
    Посмотрите вебинары яндекса. Посмотрите как указываются зеркала в вебмастере…

  8. Хурма

    «Sitemap желательно не указывать в файле robots.txt»
    Как это? Яндекс, например, требует, чтобы сайтмэп был указан в robots.txt. Ну рекомендует. Если не прописать, то будет уведомление об ошибке. Всегда прописываю на всех сайтах, никаких проблем не возникает.

  9. Половой

    Кстати, директиву Host в роботсе уже не нужно указывать. Необходимо ставить редирект просто. Месяца 2 назад Яндекс объявил. Я убрал со всех своих сайтов.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *