• Никакой политики на форуме. Иначе - бан!
  • Вопрос без рабочей ссылки на проблему считается риторическим. Без ссылки и скриншота - провокацией!
  • Темы озаглавленные с маленькой буквы или капсом удаляются без предупреждения!

Как должен выглядеть файл robots.txt для интернет-магазина?

Mixon14

Форумчанин
Добрый день!

Хочу закрыть для роботов атрибуты (цвет, ID и т.п.), а то по нескольку тысяч в поиск добавляет. Как правильно прописать?

Вот мой роботс:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Allow: /wp-content/themes/Divi
Allow: /wp-includes/

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=

Host: kalitoys.ru
Sitemap: http://kalitoys.ru/sitemap.xml
 

Stork.71

Гуру
Местный
Вернемся к теме robots.txt

Я наконец глобально обновил сайт, ну и решил посмотреть все что с ним делается.
Одним из моментов был robots.txt, который лежит там от начала времен, ну и в принципе это стандартный вордпресовский robots
Проблема в том, что он сильно закрывает все подряд (в частности - скрипты и стили), и гугл при анализе видит "кривые" страницы, ругается на несовместимость с мобильными устройствами, ну и все такое прочее.

За основу я решил взять файлик из с статейки с сайта SEOgio. Как-то он мне показался интересным, нестандартными, да и автор ссылается на wp-kama, а это довольно авторитетный ресурс. Вот исходник роботса с комментами:

Код:
User-agent: *               # общие правила для роботов, кроме Яндекса и Google,
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет,
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать
                            # от индексирования, а удалять параметры меток,
                            # Google такие правила не поддерживает
Clean-Param: openstat       # аналогично

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS
# то пишем протокол, если нужно указать порт, указываем). Команду Host понимает
# Яндекс и Mail.RU, Google не учитывает.
Host: www.site.ru

Я же его чуть изменил, выкинул ненужное (что было написано в самом же исходнике), добавил пару деректив под интернет-магазин и с учетом моей темы и плагинов. Сейчас при проверке страниц через SearchConsole (Просмотреть как Googlebot) он ругается только на 2 недостающих ресурса - картинку reCaptcha с их сайта и скрипт /?wc-ajax=get_refreshed_fragments , оба с "низким" уровнем влияния.
Получилось вот так:

Код:
User-agent: *

Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /*add-to-cart=*                                      # рекомендация для woocommerce
Allow: */uploads
Allow: */jquery-vertical-mega-menu/*skin=         # для стилей одного из плагинов
Allow: */storefront/assets/fonts/                           # для символьных шрифтов, используемых в storefront

User-agent: GoogleBot
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /*add-to-cart=*
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php 
Allow: */jquery-vertical-mega-menu/*skin=
Allow: */storefront/assets/fonts/

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /*add-to-cart=*
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Allow: */jquery-vertical-mega-menu/*skin=
Allow: */storefront/assets/fonts/
Clean-Param: utm_source&utm_medium&utm_campaign 
Clean-Param: openstat

Host: akip.com.ua

Sitemap: http://akip.com.ua/sitemap_index.xml


Хочу критики, предложений, замечаний. Особенно с прицелом на woocommerce, может еще что-то стоит добавить?

Данная тема уже несколько устарела, но наверное лучше продолжать здесь, чем делать новую?
 
  • Like
Реакции: D&B

Oksana

Новичок
Вернемся к теме robots.txt

Я наконец глобально обновил сайт, ну и решил посмотреть все что с ним делается.
Одним из моментов был robots.txt, который лежит там от начала времен, ну и в принципе это стандартный вордпресовский robots
Проблема в том, что он сильно закрывает все подряд (в частности - скрипты и стили), и гугл при анализе видит "кривые" страницы, ругается на несовместимость с мобильными устройствами, ну и все такое прочее.

За основу я решил взять файлик из с статейки с сайта SEOgio. Как-то он мне показался интересным, нестандартными, да и автор ссылается на wp-kama, а это довольно авторитетный ресурс. Вот исходник роботса с комментами:

Код:
User-agent: *               # общие правила для роботов, кроме Яндекса и Google,
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет,
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать
                            # от индексирования, а удалять параметры меток,
                            # Google такие правила не поддерживает
Clean-Param: openstat       # аналогично

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS
# то пишем протокол, если нужно указать порт, указываем). Команду Host понимает
# Яндекс и Mail.RU, Google не учитывает.
Host: www.site.ru

Я же его чуть изменил, выкинул ненужное (что было написано в самом же исходнике), добавил пару деректив под интернет-магазин и с учетом моей темы и плагинов. Сейчас при проверке страниц через SearchConsole (Просмотреть как Googlebot) он ругается только на 2 недостающих ресурса - картинку reCaptcha с их сайта и скрипт /?wc-ajax=get_refreshed_fragments , оба с "низким" уровнем влияния.
Получилось вот так:

Код:
User-agent: *

Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /*add-to-cart=*                                      # рекомендация для woocommerce
Allow: */uploads
Allow: */jquery-vertical-mega-menu/*skin=         # для стилей одного из плагинов
Allow: */storefront/assets/fonts/                           # для символьных шрифтов, используемых в storefront

User-agent: GoogleBot
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /*add-to-cart=*
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Allow: */jquery-vertical-mega-menu/*skin=
Allow: */storefront/assets/fonts/

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /*add-to-cart=*
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Allow: */jquery-vertical-mega-menu/*skin=
Allow: */storefront/assets/fonts/
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Host: akip.com.ua

Sitemap: http://akip.com.ua/sitemap_index.xml


Хочу критики, предложений, замечаний. Особенно с прицелом на woocommerce, может еще что-то стоит добавить?

Данная тема уже несколько устарела, но наверное лучше продолжать здесь, чем делать новую?
Если на сайте есть страница сравнения или избранное тоже лучше закрыть, я еще закрываю корзину и страницу оплаты (на практике попадалась пара раз ситуация, когда при просмотре страниц в индексе находила страницу оформления со всеми данными заказчика, правда движок магазина был другой и к checkout добавлялся номер заказа в урле, но на всякий пожарный закрываю)
Disallow: /cart/
Disallow: /checkout/
 

Stork.71

Гуру
Местный
Спасибо, закрыл checkout (он у меня совмещенный с cart)
также решил добавить Disallow: /#alg_currency_selector . Страницы с таким окончанием создает плагин мультивалютности каждый раз при переключении валюты. Правда вот не знаю, как это повлияет на индексацию с разными валютами, может не стоит?
 

Oksana

Новичок
Зачем Вы пишете в файле "Allow:"? Разве бот не индексирует всё, что не запрещено?
Allow: */uploads
разрешает индексировать картинки, полный путь к этой папке /wp-content/uploads/ а папка /wp-content/ у нас закрыта директивой
Disallow: /wp-
таким образом мы закрыли папку, но разрешили индексацию вложенной в нее папку с картинками, для гугла также открываем к индексу скрипты и стили
 

antoha487

Новичок
Allow: */uploads
разрешает индексировать картинки, полный путь к этой папке /wp-content/uploads/ а папка /wp-content/ у нас закрыта директивой
Disallow: /wp-
таким образом мы закрыли папку, но разрешили индексацию вложенной в нее папку с картинками, для гугла также открываем к индексу скрипты и стили
Спасибо!
 
Сверху Снизу