Семальт дает советы о том, как бороться с ботами, пауками и сканерами

Помимо создания URL-адресов, удобных для поисковых систем , файл .htaccess позволяет веб-мастерам блокировать доступ определенных веб-сайтов к своим веб-сайтам. Один из способов заблокировать этих роботов - через файл robots.txt. Однако Росс Барбер (Ross Barber), менеджер Semalt Customer Success, утверждает, что он видел, как некоторые сканеры игнорировали этот запрос. Один из лучших способов - использовать файл .htaccess, чтобы они не проиндексировали ваш контент.

Что это за боты?

Это тип программного обеспечения, используемого поисковыми системами для удаления нового контента из Интернета для целей индексации.

Они выполняют следующие задачи:

  • Посетите веб-страницы, на которые вы ссылались
  • Проверьте ваш HTML-код на наличие ошибок
  • Они сохраняют веб-страницы, на которые вы ссылаетесь, и видят, какие веб-страницы ссылаются на ваш контент.
  • Они индексируют ваш контент

Однако некоторые боты являются вредоносными и ищут на вашем сайте адреса электронной почты и формы, которые обычно используются для отправки вам нежелательных сообщений или спама. Другие даже ищут лазейки в безопасности в вашем коде.

Что нужно для блокировки веб-сканеров?

Перед использованием файла .htaccess вам необходимо проверить следующее:

1. Ваш сайт должен работать на сервере Apache. В настоящее время даже те веб-хостинговые компании, которые достаточно приличны в своей работе, предоставляют вам доступ к необходимому файлу.

2. У вас должен быть доступ к необработанным журналам сервера вашего веб-сайта, чтобы вы могли определить, какие боты посещали ваши веб-страницы.

Обратите внимание, что вы не сможете блокировать всех вредоносных ботов, если не заблокируете их всех, даже тех, кого считаете полезными. Новые боты появляются каждый день, а старые модифицируются. Самый эффективный способ - защитить ваш код и сделать так, чтобы боты не могли спамить вас.

Идентификация ботов

Боты могут быть идентифицированы по IP-адресу или по их «Строке пользовательского агента», которую они отправляют в заголовках HTTP. Например, Google использует «Googlebot».

Вам может понадобиться этот список с 302 ботами, если у вас уже есть имя бота, которого вы хотели бы скрыть, используя .htaccess

Другой способ - загрузить все файлы журнала с сервера и открыть их с помощью текстового редактора. Их расположение на сервере может меняться в зависимости от конфигурации вашего сервера. Если вы не можете их найти, обратитесь за помощью к своему веб-хостеру.

Если вы знаете, какую страницу посетили, или время посещения, проще прийти с нежелательным ботом. Вы можете искать файл журнала с этими параметрами.

Однажды вы отметили, каких ботов нужно блокировать; затем вы можете включить их в файл .htaccess. Обратите внимание, что блокировка бота недостаточно, чтобы остановить его. Он может вернуться с новым IP или именем.

Как их заблокировать

Загрузите копию файла .htaccess. Сделайте резервные копии, если требуется.

Способ 1: блокировка по IP

Этот фрагмент кода блокирует бота с использованием IP-адреса 197.0.0.1

Заказать Запретить, Разрешить

Запретить с 197.0.0.1

Первая строка означает, что сервер заблокирует все запросы, соответствующие указанным вами шаблонам, и разрешит все остальные.

Вторая строка говорит серверу о выдаче запрещенной страницы 403:

Способ 2: блокировка агентами пользователя

Самый простой способ - использовать движок переписывания Apache.

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Первая строка гарантирует, что модуль перезаписи включен. Вторая строка - это условие, к которому применяется правило. «F» в строке 4 указывает серверу вернуть 403: «Запрещено», а «L» означает, что это последнее правило.

Затем вы загрузите файл .htaccess на свой сервер и перезапишите существующий. Со временем вам нужно будет обновить IP бота. Если вы допустили ошибку, просто загрузите сделанную вами резервную копию.

mass gmail