Robots.txt для WordPress.

Как известно, поисковые системы не любят когда их забивают всяким мусором, поэтому очень важно правильно составить файл robots.txt . Поэтому предоставляю наиболее подходящий, на мой взгляд, вариант:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /xmlrpc.php
Allow: /wp-content/uploads

Следующие два параметра только для блогов с "правильными ссылками" icon smile Robots.txt для WordPress. "Неправильными" я считаю ссылки вида domen.ru/?page_id=34

Disallow: /*?*
Disallow: /*?

Недавно Яндекс заявил, что их робот понимает новую директиву: Crawl-delay. Она поможет в индексации сайтов, размещенных на медленных серверах. С помощью этой директивы можно выставить timeout между закачками страниц. Это может значительно ускорить обход сайта роботом. С выходом новой версии WordPress это особенно актуально, так как WP cтал значительно прожорливей, что часто замедляет работу сайта. Если вы хотите выставить timeout в 5 секунд, это должно выглядеть так:

User-agent: Yandex
Crawl-delay: 5

Думаю этого вполне достаточно. Владельцы блогов - присылайте используемые вами директории))

Проголосовать на:


Поделиться постом
92 комментария на “Robots.txt для WordPress.”
  1. Element пишет:

    Как ссылки сделать правильными? В админке захожу в “постоянные ссылки”, пробовал там настраивать, не получилось…

    • admin пишет:

      Заходите в настройки-постоянные ссылки (ЧПУ) Затем в общих настройках ставите галочку на “произвольная структура” и вписываете “/%postname%” (без кавычек).

  2. 9SEO пишет:

    У меня почти такой же robots, вот только комменты я разрешаю индексировать, так как много с ПС трафа именно благодаря комментам.
    А еще запрещаю xmlrpc.php:

    Disallow: /xmlrpc.php

  3. isps пишет:

    У меня некоторые корневые /category/ имеют хороший PR…
    И зачем я их буду закрывать?
    Или закрыть остальные, PR не имеющие вообще?

    • admin пишет:

      А зачем вам PR на категориях? Лучше направьте его на главную и на посты. К тому же закрывая такие странички как “категория” вы избавляетесь от дублей контента на вашем сайте. Поисковики очень не любят дубли, потому что это мусор. Если у вас сателлит на WP и вам не важна посещаемость, то можно оставить категории. В этом случае дубли не помеха, наоборот нужно как можно больше страниц для размещения ссылок.

  4. isps пишет:

    Вообще-то сателлит, но и посещаемость есть небольшая, на adsense кликают. Почему-то так получилось – фиг знает, сослался наверное кто-то…

  5. Bohdan пишет:

    Я недавно начал разбираться во всем этом. Вы мне очень помогли. Спасибо.

  6. isps пишет:

    Да не народ идет, а PR.
    А мне он важнее, чем народ. :)

  7. Xager пишет:

    То Element – не забудь поставить плагин RusToLat.

  8. z0r пишет:

    Спасибо, но по комментариям не допонял

  9. z0r пишет:

    Почему их стоит запретить?

  10. Dimka пишет:

    Прошу прощения, а в какую директорию кидать robots.txt? =)

  11. Mazurbat пишет:

    Если дописать:
    User-agent: Yandex
    Crawl-delay: 5
    То паук яндекса будет игнорировать то, что написано в User-agent: *

  12. Если закрыли категории, тогда надо закрывать группировку по месяцам и календарь.

  13. seo.kg пишет:

    вот насчет категорий. думаю можно и не закрывать, если в шаблоне вывода постов в карегории выводить только заголовки а?
    Приме:
    seo.kg/topics/news/
    И ещё, не у всех категории называются “category”, вот у меня “topics” или “go” бывает…

    • admin пишет:

      В данном примере можно и не закрывать, только так все равно никто не делает (я по крайней мере не видел). :gamer1:

  14. Ant пишет:

    Здравствуйте, подскажите такой робот достоен своего существования:

    User-Agent: Yandex
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/languages/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/upgrade/
    Disallow: /wp-content/uploads/
    Disallow: /wp-content/themes/classic/
    Disallow: /wp-content/themes/default/
    Host: domen .ru

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/languages/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/upgrade/
    Disallow: /wp-content/uploads/
    Disallow: /wp-content/themes/classic/
    Disallow: /wp-content/themes/default/

    Заранее благодарю!
    Всего доброго!

  15. WWWW пишет:

    В Host: www-нужен

  16. foplop пишет:

    http://seo-bomj.ru/robots.txt – лучший учебник )

  17. Самостоятельный Путешественник пишет:

    FА почему в Вашем файле robots.txt разрешен к индексации фидбернер?

    Allow: /feedburner-evakuiruemsya
    Allow: /tag/feedburner

  18. Надо будет использовать, а то ошибки в вебмастер Яндексе уже задолбали

  19. Глеб пишет:

    блин запретил яше к индексированию страницы вот так, а он все равно в индексе держит эти страницы, скажите я правильно же запретил их:

    User-agent: *
    Disallow: /stat*.htm

    User-agent: Yandex
    Disallow:
    Disallow: /blog/comment*.html
    Disallow: /blog/stat*.html
    Disallow: /blog/search*.html
    Host: mysite.ru

  20. Глеб пишет:

    не так:

    User-agent: Yandex
    Disallow: /

    он все не будет индексировать, а мне надо чтобы указанные страницы не индексировал

    • Санёк пишет:

      Disallow: — это лишнее
      Зайди в яндекс вебмастер и проверь там, правильно ли составил robots.txt

  21. PoliteX пишет:

    спасибо.
    я так понимаю ошибки пропадут после следующей индексаци?

  22. Shults99 пишет:

    Хе-хе.. Один сайт точно Яшка принял.. Правда страничек для сапы поменьше стало, но ничего, хоть так.. Спс за инфу!

  23. АлаичЪ пишет:

    Спасибо, а то на меня начал гугл ругаться за то что я плагины удалил, а он из найти не может.
    Теперь, думаю, все ок будет.

  24. Tod пишет:

    Спасибо, полезная информация – лажу ща по всем блогам собираюсь свой идеальный роботс.тхт по крупицам) Мне кажется у тебя для юзерагента * хост лишний – его ведь только яша понимает, вроде бы.

  25. Tod пишет:

    Санёк, почему не лишний?
    И еще – чем отличаются
    Disallow: /trackback
    Disallow: /feed

    от

    Disallow: */trackback
    Disallow: */feed

    Пробовал подставить /trackback для своих блогов для главной страницы, выдает 404, не совсем понятно что там запрещать.

  26. Shults99 пишет:

    Хотелось бы добавить, чтобы не забыли удалять

    Disallow: /*?*
    Disallow: /*?

    если меняют ссылки на “по умолчанию”

  27. Санёк пишет:

    Disallow: /trackback
    Disallow: /feed
    Запрещает seo-bomj.ru/trackback
    seo-bomj.ru/feed
    Disallow: */trackback
    Disallow: */feed
    Запрещает seo-bomj.ru/*всякая фигня*/trackback
    seo-bomj.ru/*всякая фигня*/feed

  28. Tod пишет:

    Синтаксис записи я понимаю)) Я не о том, зачем ты запрещаешь /trackback если такой страницы не существует. Потому как */trackback – понятно идет для отдельных постов.

    • Санёк пишет:

      а хз))) Может в индексе была. Я через роботс всякий мусор вычищал, например seo-bomj.ru/ddhdjjh.ru (не помню домен) Потом подправлю, спс

  29. mind3 пишет:

    Спасибо за пост. Я как раз с robots.txt хотел разобраться на своих блогах. Наверное после того как мы все запретили то можно в конце и разрешить все остальное, что не под запретом:
    Allow: /

  30. Роман пишет:

    В связи с пальбой из АГСа решил подредактировать на своих сайтах robots.txt, дофига всего начитался, но так и не понял, зачем прописывать отдельные правила для яндекса?
    И нафига прописывать директорию Host?

    • Санёк пишет:

      Отдельные правила для Яндекса, потому что Яндекс тупой, а директива Host для того, чтобы тупой Яндекс не склеил ваш сайт с каким-нибудь другим.

  31. Ирина пишет:

    А ошибки пропадут, из панели вебмастеров, после того как запретить индексировать, а то у меня ошибка 500 на некоторых висит и никак не убирается? *UNKNOWN*

  32. Дилик пишет:

    goto/http://
    подскажите как его закрыть.

    спасибо.

  33. Дилик пишет:

    спасибо. поставил.
    иногда встречается, будто нужно показывать адрес сайт и sitemap.xml в robots. насколько можно согласиться с этим?
    спасибо.

  34. Dobrejshij пишет:

    Спасибо, кое-что добавил.

  35. Shtirlitz пишет:

    Аха-ха :-D Рассмешил allow, где такое достал? Бред. Файл robots.txt запрещает, а не устанавливает, что нужно индексировать

  36. Shtirlitz пишет:

    Не читайте википедию, читайте пояснения Яндекса.
    http://help.yandex.ru/webmaster/?id=996567
    Директива Allow есть, но не для того, чтобы указывать ему: “индексируй, сволочь, вот это”

    • Санёк пишет:

      “индексируй, сволочь, вот это”

      – я так и не говорил. Эта директива необходима разрешения индексации некоторых страниц, которые попадают под директиву Disallow

  37. Shtirlitz пишет:

    Не читайте википедию, читайте пояснения Яндекса.
    http://help.yandex.ru/webmaster/?id=996567
    Директива Allow есть, но не для того, чтобы указывать ему: “индексируй, сволочь, вот это”

    • Санёк пишет:

      Мне кажется, вы сами не понимаете о чем говорите. Allow – это исключение из директивы Disallow. Например:
      Disallow: /wp-content/uploads #запрещаем индексацию содержимого папки uploads
      Allow: /wp-content/uploads/foto #кроме папки foto

  38. Индустриальный Эльф пишет:

    Классный обзор, попробую вашим robots попользоваться!Спасибо!

  39. Denis пишет:

    Спасибо за полезную информацию. Очень полезно. Решил взять robots.txt с Вашего сайта полностью.

  40. ram32 пишет:

    Спасибо, сейчас составляю robots.txt для своего блога. А то, кажется, под фильтр какой-то попал – всего 19 страниц в индексе. Так и живем :(

  41. BlogmenART пишет:

    Я новичок во всём этом, мне данная информация была очень полезна. Спасибо автору.

  42. Gost пишет:

    %) %) %) %)
    подскажите пожалуста где находится эта гребаная корневая дериктория сайта и куда вообщето надо кидать этот robots.txt

  43. Прям пишет:

    я добавляю этот файл robots.txt но всё равно пишет что Ваш сайт не проиндексирован (Индексирование сайта запрещено в robots.txt) но веть у меня в роботе не поставлено \\ на Disallow

    • Санёк пишет:

      У Вас прописано:
      User-agent: *
      Disallow: /
      Что как раз подразумевает запрет индексации всех страниц для всех поисковиков.

  44. Прям пишет:

    User-agent: *
    Disallow:
    у меня без этой палоки

  45. Санёк пишет:

    _http://alienware.3dn.ru/robots.txt
    Посмотрите сами.

  46. Прям пишет:

    но вот в этом и проблема когда я его создаю он без этой палки а там он почему то есть

    • Санёк пишет:

      @Прям, не может такого быть)) Вы создаете документ, сохраняете, заливаете в папку с сайтом и все. Сами поисковики этот файл не меняют.

  47. Прям пишет:

    скиньте пожалуста тогда готовый робот если сможете

  48. Прям пишет:

    мне ненадо ничего запрещать
    ну если так то
    \admin

  49. Санёк пишет:

    User-agent: *
    Disallow: /admin

  50. Прям пишет:

    у меня ща мозги лопнут бред какой то
    всё равно пишет
    User-agent: *
    Disallow: /

  51. Санёк пишет:

    Вы уверены, что поменяли файлы?

  52. Прям пишет:

    да да да да да да да и ещё раз да

  53. Санёк пишет:

    Управление – файловый менеджер – выбираете robots.txt и правите прямо там, сохраняете.

  54. Прям пишет:

    я нарыл кое-что
    читай
    # Добавлено:Пт Янв 29, 2010 7:35 pm
    Ответить с цитатой
    ivan45767, поставили такое ограничение, у только что созданных сайтов нельзя редактировать robots.txt

  55. Санёк пишет:

    А, да. Есть у них такая фигня. А как 300 уников нагнали?

  56. Прям пишет:

    а на серве в КС есть реклама

  57. Прям пишет:

    почему этот грёбаный яндекс пишет что робот его не пускает

  58. Дмитрий пишет:

    Спасибо большое за роботс, сегодня поставил, надеюсь индексация будет нормальной.

Написать ответ