Автор: Санёк
января 16, 2009
92 комментария
Robots.txt для WordPress.
Как известно, поисковые системы не любят когда их забивают всяким мусором, поэтому очень важно правильно составить файл robots.txt . Поэтому предоставляю наиболее подходящий, на мой взгляд, вариант:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /xmlrpc.php
Allow: /wp-content/uploads
Следующие два параметра только для блогов с "правильными ссылками"
"Неправильными" я считаю ссылки вида domen.ru/?page_id=34
Disallow: /*?*
Disallow: /*?
Недавно Яндекс заявил, что их робот понимает новую директиву: Crawl-delay. Она поможет в индексации сайтов, размещенных на медленных серверах. С помощью этой директивы можно выставить timeout между закачками страниц. Это может значительно ускорить обход сайта роботом. С выходом новой версии WordPress это особенно актуально, так как WP cтал значительно прожорливей, что часто замедляет работу сайта. Если вы хотите выставить timeout в 5 секунд, это должно выглядеть так:
User-agent: Yandex
Crawl-delay: 5
Думаю этого вполне достаточно. Владельцы блогов - присылайте используемые вами директории))
Проголосовать на:
Рекомендую:
Тэги: robots.txt, WordPress, Yandex
Категория: WordPress | Комментировать (RSS) | Отклик
Еще по теме:







Как ссылки сделать правильными? В админке захожу в “постоянные ссылки”, пробовал там настраивать, не получилось…
Заходите в настройки-постоянные ссылки (ЧПУ) Затем в общих настройках ставите галочку на “произвольная структура” и вписываете “/%postname%” (без кавычек).
У меня почти такой же robots, вот только комменты я разрешаю индексировать, так как много с ПС трафа именно благодаря комментам.
А еще запрещаю xmlrpc.php:
Disallow: /xmlrpc.php
Спасибо, внес поправки.
У меня некоторые корневые /category/ имеют хороший PR…
И зачем я их буду закрывать?
Или закрыть остальные, PR не имеющие вообще?
А зачем вам PR на категориях? Лучше направьте его на главную и на посты. К тому же закрывая такие странички как “категория” вы избавляетесь от дублей контента на вашем сайте. Поисковики очень не любят дубли, потому что это мусор. Если у вас сателлит на WP и вам не важна посещаемость, то можно оставить категории. В этом случае дубли не помеха, наоборот нужно как можно больше страниц для размещения ссылок.
Вообще-то сателлит, но и посещаемость есть небольшая, на adsense кликают. Почему-то так получилось – фиг знает, сослался наверное кто-то…
Ну это вам виднее. Посмотрите в статистике откуда народ идет.
Я недавно начал разбираться во всем этом. Вы мне очень помогли. Спасибо.
Не за что))
Да не народ идет, а PR.
А мне он важнее, чем народ.
То Element – не забудь поставить плагин RusToLat.
Да кстати, забыл совсем…
Спасибо, но по комментариям не допонял
что именно?
Почему их стоит запретить?
Читайте внимательней статью
Прошу прощения, а в какую директорию кидать robots.txt?
В корень сайта.
Если дописать:
User-agent: Yandex
Crawl-delay: 5
То паук яндекса будет игнорировать то, что написано в User-agent: *
У меня все норм – ни одной левой странице в индексе нет.
_http://seo-bomj.ru/robots.txt
Если закрыли категории, тогда надо закрывать группировку по месяцам и календарь.
Спасибо, поправлю.
вот насчет категорий. думаю можно и не закрывать, если в шаблоне вывода постов в карегории выводить только заголовки а?
Приме:
seo.kg/topics/news/
И ещё, не у всех категории называются “category”, вот у меня “topics” или “go” бывает…
В данном примере можно и не закрывать, только так все равно никто не делает (я по крайней мере не видел).
Здравствуйте, подскажите такой робот достоен своего существования:
User-Agent: Yandex
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/upgrade/
Disallow: /wp-content/uploads/
Disallow: /wp-content/themes/classic/
Disallow: /wp-content/themes/default/
Host: domen .ru
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/upgrade/
Disallow: /wp-content/uploads/
Disallow: /wp-content/themes/classic/
Disallow: /wp-content/themes/default/
Заранее благодарю!
Всего доброго!
Да
Спасибо, а то я уж распереживался
Директива “Host” прописывается без “http://”
ага, это просто двиг глючит.
В Host: www-нужен
http://seo-bomj.ru/robots.txt – лучший учебник )
)))))
FА почему в Вашем файле robots.txt разрешен к индексации фидбернер?
Allow: /feedburner-evakuiruemsya
Allow: /tag/feedburner
Allow: /feedburner-evakuiruemsya —> это статья
Надо будет использовать, а то ошибки в вебмастер Яндексе уже задолбали
блин запретил яше к индексированию страницы вот так, а он все равно в индексе держит эти страницы, скажите я правильно же запретил их:
User-agent: *
Disallow: /stat*.htm
User-agent: Yandex
Disallow:
Disallow: /blog/comment*.html
Disallow: /blog/stat*.html
Disallow: /blog/search*.html
Host: mysite.ru
User-agent: Yandex
Disallow: /
Вот так надо
не так:
User-agent: Yandex
Disallow: /
он все не будет индексировать, а мне надо чтобы указанные страницы не индексировал
Disallow: — это лишнее
Зайди в яндекс вебмастер и проверь там, правильно ли составил robots.txt
спасибо.
я так понимаю ошибки пропадут после следующей индексаци?
Какие именно?
Хе-хе.. Один сайт точно Яшка принял.. Правда страничек для сапы поменьше стало, но ничего, хоть так.. Спс за инфу!
Спасибо, а то на меня начал гугл ругаться за то что я плагины удалил, а он из найти не может.
Теперь, думаю, все ок будет.
Спасибо, полезная информация – лажу ща по всем блогам собираюсь свой идеальный роботс.тхт по крупицам) Мне кажется у тебя для юзерагента * хост лишний – его ведь только яша понимает, вроде бы.
не лишний
Санёк, почему не лишний?
И еще – чем отличаются
Disallow: /trackback
Disallow: /feed
от
Disallow: */trackback
Disallow: */feed
Пробовал подставить /trackback для своих блогов для главной страницы, выдает 404, не совсем понятно что там запрещать.
Хотелось бы добавить, чтобы не забыли удалять
Disallow: /*?*
Disallow: /*?
если меняют ссылки на “по умолчанию”
Это и так понятно.
Disallow: /trackback
Disallow: /feed
Запрещает seo-bomj.ru/trackback
seo-bomj.ru/feed
Disallow: */trackback
Disallow: */feed
Запрещает seo-bomj.ru/*всякая фигня*/trackback
seo-bomj.ru/*всякая фигня*/feed
Синтаксис записи я понимаю)) Я не о том, зачем ты запрещаешь /trackback если такой страницы не существует. Потому как */trackback – понятно идет для отдельных постов.
а хз))) Может в индексе была. Я через роботс всякий мусор вычищал, например seo-bomj.ru/ddhdjjh.ru (не помню домен) Потом подправлю, спс
Спасибо за пост. Я как раз с robots.txt хотел разобраться на своих блогах. Наверное после того как мы все запретили то можно в конце и разрешить все остальное, что не под запретом:
Allow: /
В связи с пальбой из АГСа решил подредактировать на своих сайтах robots.txt, дофига всего начитался, но так и не понял, зачем прописывать отдельные правила для яндекса?
И нафига прописывать директорию Host?
Отдельные правила для Яндекса, потому что Яндекс тупой, а директива Host для того, чтобы тупой Яндекс не склеил ваш сайт с каким-нибудь другим.
А ошибки пропадут, из панели вебмастеров, после того как запретить индексировать, а то у меня ошибка 500 на некоторых висит и никак не убирается?
goto/http://
подскажите как его закрыть.
спасибо.
Disallow: /goto/*
спасибо. поставил.
иногда встречается, будто нужно показывать адрес сайт и sitemap.xml в robots. насколько можно согласиться с этим?
спасибо.
@Дилик, на все 100%
Спасибо, кое-что добавил.
Аха-ха
Рассмешил allow, где такое достал? Бред. Файл robots.txt запрещает, а не устанавливает, что нужно индексировать
Да, это очень смешно. Почитайте здесь
Не читайте википедию, читайте пояснения Яндекса.
Директива Allow есть, но не для того, чтобы указывать ему: “индексируй, сволочь, вот это”
– я так и не говорил. Эта директива необходима разрешения индексации некоторых страниц, которые попадают под директиву Disallow
Не читайте википедию, читайте пояснения Яндекса.
Директива Allow есть, но не для того, чтобы указывать ему: “индексируй, сволочь, вот это”
Мне кажется, вы сами не понимаете о чем говорите. Allow – это исключение из директивы Disallow. Например:
Disallow: /wp-content/uploads #запрещаем индексацию содержимого папки uploads
Allow: /wp-content/uploads/foto #кроме папки foto
Классный обзор, попробую вашим robots попользоваться!Спасибо!
Спасибо за полезную информацию. Очень полезно. Решил взять robots.txt с Вашего сайта полностью.
Спасибо, сейчас составляю robots.txt для своего блога. А то, кажется, под фильтр какой-то попал – всего 19 страниц в индексе. Так и живем
Я новичок во всём этом, мне данная информация была очень полезна. Спасибо автору.
подскажите пожалуста где находится эта гребаная корневая дериктория сайта и куда вообщето надо кидать этот robots.txt
Это папка, в которой лежат все ваши файлы.
domen.ru/robots.txt – надеюсь так понятней)
я добавляю этот файл robots.txt но всё равно пишет что Ваш сайт не проиндексирован (Индексирование сайта запрещено в robots.txt) но веть у меня в роботе не поставлено \\ на Disallow
У Вас прописано:
User-agent: *
Disallow: /
Что как раз подразумевает запрет индексации всех страниц для всех поисковиков.
User-agent: *
Disallow:
у меня без этой палоки
_http://alienware.3dn.ru/robots.txt
Посмотрите сами.
но вот в этом и проблема когда я его создаю он без этой палки а там он почему то есть
@Прям, не может такого быть)) Вы создаете документ, сохраняете, заливаете в папку с сайтом и все. Сами поисковики этот файл не меняют.
скиньте пожалуста тогда готовый робот если сможете
Дык я не знаю какие страницы нужно запретить от индексации.
мне ненадо ничего запрещать
ну если так то
\admin
User-agent: *
Disallow: /admin
у меня ща мозги лопнут бред какой то
всё равно пишет
User-agent: *
Disallow: /
Вы уверены, что поменяли файлы?
да да да да да да да и ещё раз да
Управление – файловый менеджер – выбираете robots.txt и правите прямо там, сохраняете.
я нарыл кое-что
читай
# Добавлено:Пт Янв 29, 2010 7:35 pm
Ответить с цитатой
ivan45767, поставили такое ограничение, у только что созданных сайтов нельзя редактировать robots.txt
А, да. Есть у них такая фигня. А как 300 уников нагнали?
а на серве в КС есть реклама
почему этот грёбаный яндекс пишет что робот его не пускает
Спасибо большое за роботс, сегодня поставил, надеюсь индексация будет нормальной.