Google: как заблокировать отладочный сайт

Index-Your-Content-Faster-With-the-Fetch-as-Google-Tool.png

Нередки случаи, когда Google успевает проиндексировать ваш промежуточный сайт (он же промежуточный сервер/сервер разработки/сервер тестирования/сайт отладки). Поэтому нужно тщательно их блокировать из поисковых систем и открывать их тем, кому нужен доступ.

Джон Мюллер из Google опубликовал в Google+ обзор, как удалить отладочный сервер из Google, а затем поделился способом, как лучше заблокировать его в будущем.

Итак, если эти серверы обнаружили, что Google проиндексировал их контент, самый быстрый способ удалить контент – через Google Search Console. Это означает, что вам нужно проверить URL-адрес промежуточного уровня с помощью Google Search Console, но это достаточно долго, пока вы не выполните метод удаления контента. После этого нужно закрыть сайт от внешнего мира:

Самый быстрый способ удалить промежуточный сайт из поиска - удалить его с помощью Search Console. Для этого вам необходимо подтвердить право собственности с помощью Search Console (по иронии судьбы, это означает, что вам придется снова сделать его доступным для поисковых систем). Затем вы можете сделать запрос на удаление сайта, что приведёт к блокировке имени хоста на срок до 90 дней. В этот период вы сможете разработать и внедрить общий план по блокировке промежуточного сайта в поиске.

Затем Джон поделился советами, как заблокировать доступ к серверу (т.е. заблокировать на стороне сервера HTTP-аутентификаию или список IP-адресов):

Моя рекомендация для промежуточных сайтов заключается в блокировании доступа к ним на уровне сервера при помощи защиты каталогов сервера паролем, либо с помощью белого списка IP-адресов (IP-адреса могут меняться, и это блокирует использование инструментов из дома и т.д., так что это стоит быть осторожным, пользоваться белым, а не черным списком).

Джон сообщил, что не любит другие альтернативы по следующим причинам:

Использование блокировки индексирования при помощи атрибута noindex означает, что страницы должны быть доступны (открыты для конкурентов, скраперов и т.д.).
Использование robots.txt означает, что вам нужно помнить об изменении файла robots.txt при переходе с этапа тестирования на публичную версию и может привести к индексированию URL без их содержимого (URL-адреса, заблокированные роботами .txt могут быть проиндексирован, даже если их содержимое не известно).

Джон дал более подробные советы на Google+, добавив, что для URL-адресов не требуется повторное сканирование в течение нескольких месяцев, поэтому, если вы добавляете какой-либо блок на уровне URL-адреса, то может потребоваться полтора года или больше для полной обработки всех URL-адресов. «Запрос на удаление сайта дает вам больше времени, и вы можете отправить еще один запрос, если понадобится его продлить», - сказал он.

Источник: Seroundtable