Приветствую вас на своём сайте. С вами снова добрый дед-сеошник.
Сегодня речь пойдёт о том, как составлять правильный файл robots.txt (он же «роботс») для CMS MODx Revo (Revolution) и Evo (Evolution). В этих CMS тоже существует проблема дублей, пусть и не очень существенная; тем более закрыть эти дубли от индексации при помощи robots.txt не составит абсолютно никаких проблем.
Для начала, не забываем включить ЧПУ в настройках сайта.
Составляем robots.txt для MODx Evo
User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Disallow: /?
Disallow: /*?
Disallow: /index.php
Host: endseo.ru
Sitemap: http://endseo.ru/sitemap.xml
Теперь robots.txt для MODx Revo
User-agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?
Host: endseo.ru
Sitemap: http://endseo.ru/sitemap.xml
Некоторые советы по поводу составления «роботс» для CMS MODx
- index.php — это дубль главной страницы сайта
- с помощью *? мы удаляем дубли для всех страниц
- Sitemap желательно не указывать в файле robots.txt, потому существуют не очень хорошие боты, которые таким образом парсят ваши сайты, используя эту директиву. Для нормальных поисковых систем карту сайта можно, при желании, загрузить через панель вебмастера. Но и это не так важно.
С вами был дедушка-сеошник, читайте блог и подписывайтесь на обновления.
А отдельно для Яндекса не нужно делать инструкцию?
Не обязательно
Здравствуйте. Перенес 2 недели назад сайт с ДЛЕ на МОДЭКС Рево , по вашему примеру оформил роботс, но до сих пор страницы созданные сразу после переноса, ни в какую не хотят индексироваться. Может слишком мало прошло времени? Версия МОДЭКСа последняя.
Нормальное время для индексации страниц сайта до 2 месяцев — если больше, то уже есть повод бить тревогу и писать гневные письма Платонам. С помощью Твиттера и хороших ссылок можно загнать страницы в Яндексе почти моментально. А с помощью ссылок или инструмента в Гугл Вебмастерс можно загнать страницы в индексе в поисковой системе Google. Modx или прочие CMS тут не при чём =)
А если в папке assets есть следующие папки:
cache
css
docs
export
files
flash
images
import
js
media
modules
plugins
site
snippets
templates
index.php
Какие закрывать обязательно, чтобы не дай бог не закрыть картинки и основной контент сайта?
Добрый день! Подскажите как запретить индексацию страниц блога, генерирующихся по тегу?
Почему вы рекомендуете закрывать /index.php в Disallow, если все нормальные люди просто настраивают 301 на / ?
Татьяна, потому что лучше сделать и то, и то.
А насколько правильным будет убрать с robots.txt эти значения?
Disallow: /?
Disallow: /*?
У меня потом из-за этого не заиндексируются дубли страниц?
Disallow: /?
Disallow: /*?
А при этом будут индексироваться разделы с постраничной навигацией, где ссылки имеют вид .html?page=2
Верны оба варианта.
Параметр host передается с указанием протокола
Посмотрите вебинары яндекса. Посмотрите как указываются зеркала в вебмастере…
«Sitemap желательно не указывать в файле robots.txt»
Как это? Яндекс, например, требует, чтобы сайтмэп был указан в robots.txt. Ну рекомендует. Если не прописать, то будет уведомление об ошибке. Всегда прописываю на всех сайтах, никаких проблем не возникает.
Что закрывает функция Disallow: /assets/ в роботе?
Кстати, директиву Host в роботсе уже не нужно указывать. Необходимо ставить редирект просто. Месяца 2 назад Яндекс объявил. Я убрал со всех своих сайтов.