#1 RX pharmacy affiliate program!

Robots.txt для WordPress.

Как известно, поисковые системы не любят когда их забивают всяким мусором, поэтому очень важно правильно составить файл robots.txt . Поэтому предоставляю наиболее подходящий, на мой взгляд, вариант:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /xmlrpc.php
Allow: /wp-content/uploads

Следующие два параметра только для блогов с "правильными ссылками" :) "Неправильными" я считаю ссылки вида domen.ru/?page_id=34

Disallow: /*?*
Disallow: /*?

Недавно Яндекс заявил, что их робот понимает новую директиву: Crawl-delay. Она поможет в индексации сайтов, размещенных на медленных серверах. С помощью этой директивы можно выставить timeout между закачками страниц. Это может значительно ускорить обход сайта роботом. С выходом новой версии WordPress это особенно актуально, так как WP cтал значительно прожорливей, что часто замедляет работу сайта. Если вы хотите выставить timeout в 5 секунд, это должно выглядеть так:

User-agent: Yandex
Crawl-delay: 5

Думаю этого вполне достаточно. Владельцы блогов - присылайте используемые вами директории))

Проголосовать на:


Поделиться постом
70 комментариев на “Robots.txt для WordPress.”
  1. Element пишет:

    Как ссылки сделать правильными? В админке захожу в “постоянные ссылки”, пробовал там настраивать, не получилось…

    admin Reply:

    Заходите в настройки-постоянные ссылки (ЧПУ) Затем в общих настройках ставите галочку на “произвольная структура” и вписываете “/%postname%” (без кавычек).

  2. 9SEO пишет:

    У меня почти такой же robots, вот только комменты я разрешаю индексировать, так как много с ПС трафа именно благодаря комментам.
    А еще запрещаю xmlrpc.php:

    Disallow: /xmlrpc.php

    admin Reply:

    Спасибо, внес поправки.

  3. isps пишет:

    У меня некоторые корневые /category/ имеют хороший PR…
    И зачем я их буду закрывать?
    Или закрыть остальные, PR не имеющие вообще?

    admin Reply:

    А зачем вам PR на категориях? Лучше направьте его на главную и на посты. К тому же закрывая такие странички как “категория” вы избавляетесь от дублей контента на вашем сайте. Поисковики очень не любят дубли, потому что это мусор. Если у вас сателлит на WP и вам не важна посещаемость, то можно оставить категории. В этом случае дубли не помеха, наоборот нужно как можно больше страниц для размещения ссылок.

  4. isps пишет:

    Вообще-то сателлит, но и посещаемость есть небольшая, на adsense кликают. Почему-то так получилось – фиг знает, сослался наверное кто-то…

    admin Reply:

    Ну это вам виднее. Посмотрите в статистике откуда народ идет.

  5. Bohdan пишет:

    Я недавно начал разбираться во всем этом. Вы мне очень помогли. Спасибо.

    admin Reply:

    Не за что))

  6. isps пишет:

    Да не народ идет, а PR.
    А мне он важнее, чем народ. :)

  7. Xager пишет:

    То Element – не забудь поставить плагин RusToLat.

    admin Reply:

    Да кстати, забыл совсем…

  8. z0r пишет:

    Спасибо, но по комментариям не допонял

    admin Reply:

    что именно?

  9. z0r пишет:

    Почему их стоит запретить?

    admin Reply:

    Читайте внимательней статью

  10. Dimka пишет:

    Прошу прощения, а в какую директорию кидать robots.txt? =)

    admin Reply:

    В корень сайта.

  11. Mazurbat пишет:

    Если дописать:
    User-agent: Yandex
    Crawl-delay: 5
    То паук яндекса будет игнорировать то, что написано в User-agent: *

    admin Reply:

    У меня все норм – ни одной левой странице в индексе нет.
    _http://seo-bomj.ru/robots.txt

  12. Если закрыли категории, тогда надо закрывать группировку по месяцам и календарь.

    admin Reply:

    Спасибо, поправлю.

  13. seo.kg пишет:

    вот насчет категорий. думаю можно и не закрывать, если в шаблоне вывода постов в карегории выводить только заголовки а?
    Приме:
    seo.kg/topics/news/
    И ещё, не у всех категории называются “category”, вот у меня “topics” или “go” бывает…

    admin Reply:

    В данном примере можно и не закрывать, только так все равно никто не делает (я по крайней мере не видел). :gamer1:

  14. Ant пишет:

    Здравствуйте, подскажите такой робот достоен своего существования:

    User-Agent: Yandex
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/languages/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/upgrade/
    Disallow: /wp-content/uploads/
    Disallow: /wp-content/themes/classic/
    Disallow: /wp-content/themes/default/
    Host: domen .ru

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/languages/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/upgrade/
    Disallow: /wp-content/uploads/
    Disallow: /wp-content/themes/classic/
    Disallow: /wp-content/themes/default/

    Заранее благодарю!
    Всего доброго!

    admin Reply:

    Да :gamer1:

    Ant Reply:

    Спасибо, а то я уж распереживался :)

    Игорь Reply:

    Директива “Host” прописывается без “http://”

    admin Reply:

    ага, это просто двиг глючит.

  15. WWWW пишет:

    В Host: www-нужен

  16. foplop пишет:

    http://seo-bomj.ru/robots.txt – лучший учебник )

    Санёк Reply:

    )))))

  17. Самостоятельный Путешественник пишет:

    FА почему в Вашем файле robots.txt разрешен к индексации фидбернер?

    Allow: /feedburner-evakuiruemsya
    Allow: /tag/feedburner

    Санёк Reply:

    Allow: /feedburner-evakuiruemsya —> это статья

  18. Надо будет использовать, а то ошибки в вебмастер Яндексе уже задолбали

  19. Глеб пишет:

    блин запретил яше к индексированию страницы вот так, а он все равно в индексе держит эти страницы, скажите я правильно же запретил их:

    User-agent: *
    Disallow: /stat*.htm

    User-agent: Yandex
    Disallow:
    Disallow: /blog/comment*.html
    Disallow: /blog/stat*.html
    Disallow: /blog/search*.html
    Host: mysite.ru

    Санёк Reply:

    User-agent: Yandex
    Disallow: /
    Вот так надо :)

  20. Глеб пишет:

    не так:

    User-agent: Yandex
    Disallow: /

    он все не будет индексировать, а мне надо чтобы указанные страницы не индексировал

    Санёк Reply:

    Disallow: — это лишнее
    Зайди в яндекс вебмастер и проверь там, правильно ли составил robots.txt

  21. PoliteX пишет:

    спасибо.
    я так понимаю ошибки пропадут после следующей индексаци?

    Санёк Reply:

    Какие именно?

  22. Shults99 пишет:

    Хе-хе.. Один сайт точно Яшка принял.. Правда страничек для сапы поменьше стало, но ничего, хоть так.. Спс за инфу!

  23. АлаичЪ пишет:

    Спасибо, а то на меня начал гугл ругаться за то что я плагины удалил, а он из найти не может.
    Теперь, думаю, все ок будет.

  24. Tod пишет:

    Спасибо, полезная информация – лажу ща по всем блогам собираюсь свой идеальный роботс.тхт по крупицам) Мне кажется у тебя для юзерагента * хост лишний – его ведь только яша понимает, вроде бы.

    Санёк Reply:

    не лишний

  25. Tod пишет:

    Санёк, почему не лишний?
    И еще – чем отличаются
    Disallow: /trackback
    Disallow: /feed

    от

    Disallow: */trackback
    Disallow: */feed

    Пробовал подставить /trackback для своих блогов для главной страницы, выдает 404, не совсем понятно что там запрещать.

  26. Shults99 пишет:

    Хотелось бы добавить, чтобы не забыли удалять

    Disallow: /*?*
    Disallow: /*?

    если меняют ссылки на “по умолчанию”

    Санёк Reply:

    Это и так понятно.

  27. Санёк пишет:

    Disallow: /trackback
    Disallow: /feed
    Запрещает seo-bomj.ru/trackback
    seo-bomj.ru/feed
    Disallow: */trackback
    Disallow: */feed
    Запрещает seo-bomj.ru/*всякая фигня*/trackback
    seo-bomj.ru/*всякая фигня*/feed

  28. Tod пишет:

    Синтаксис записи я понимаю)) Я не о том, зачем ты запрещаешь /trackback если такой страницы не существует. Потому как */trackback – понятно идет для отдельных постов.

    Санёк Reply:

    а хз))) Может в индексе была. Я через роботс всякий мусор вычищал, например seo-bomj.ru/ddhdjjh.ru (не помню домен) Потом подправлю, спс

  29. mind3 пишет:

    Спасибо за пост. Я как раз с robots.txt хотел разобраться на своих блогах. Наверное после того как мы все запретили то можно в конце и разрешить все остальное, что не под запретом:
    Allow: /

  30. Роман пишет:

    В связи с пальбой из АГСа решил подредактировать на своих сайтах robots.txt, дофига всего начитался, но так и не понял, зачем прописывать отдельные правила для яндекса?
    И нафига прописывать директорию Host?

    Санёк Reply:

    Отдельные правила для Яндекса, потому что Яндекс тупой, а директива Host для того, чтобы тупой Яндекс не склеил ваш сайт с каким-нибудь другим.

  31. Ирина пишет:

    А ошибки пропадут, из панели вебмастеров, после того как запретить индексировать, а то у меня ошибка 500 на некоторых висит и никак не убирается? *UNKNOWN*

  32. Дилик пишет:

    goto/http://
    подскажите как его закрыть.

    спасибо.

    Санёк Reply:

    Disallow: /goto/*

  33. Дилик пишет:

    спасибо. поставил.
    иногда встречается, будто нужно показывать адрес сайт и sitemap.xml в robots. насколько можно согласиться с этим?
    спасибо.

    Санёк Reply:

    @Дилик, на все 100%

  34. Dobrejshij пишет:

    Спасибо, кое-что добавил.

  35. Shtirlitz пишет:

    Аха-ха :-D Рассмешил allow, где такое достал? Бред. Файл robots.txt запрещает, а не устанавливает, что нужно индексировать

    Санёк Reply:

    Да, это очень смешно. Почитайте здесь http://ru.wikipedia.org/wiki/Robots.txt

  36. Shtirlitz пишет:

    Не читайте википедию, читайте пояснения Яндекса.
    http://help.yandex.ru/webmaster/?id=996567
    Директива Allow есть, но не для того, чтобы указывать ему: “индексируй, сволочь, вот это”

    Санёк Reply:

    “индексируй, сволочь, вот это”

    – я так и не говорил. Эта директива необходима разрешения индексации некоторых страниц, которые попадают под директиву Disallow

  37. Shtirlitz пишет:

    Не читайте википедию, читайте пояснения Яндекса.
    http://help.yandex.ru/webmaster/?id=996567
    Директива Allow есть, но не для того, чтобы указывать ему: “индексируй, сволочь, вот это”

    Санёк Reply:

    Мне кажется, вы сами не понимаете о чем говорите. Allow – это исключение из директивы Disallow. Например:
    Disallow: /wp-content/uploads #запрещаем индексацию содержимого папки uploads
    Allow: /wp-content/uploads/foto #кроме папки foto

  38. Индустриальный Эльф пишет:

    Классный обзор, попробую вашим robots попользоваться!Спасибо!

  39. Denis пишет:

    Спасибо за полезную информацию. Очень полезно. Решил взять robots.txt с Вашего сайта полностью.

  40. ram32 пишет:

    Спасибо, сейчас составляю robots.txt для своего блога. А то, кажется, под фильтр какой-то попал – всего 19 страниц в индексе. Так и живем :(

Написать ответ