- Методологія
- висновки Incapusla
- Юзер-агенти
- Імітація Google - життя бота
- погані боти
- Не всі боти погані
- Як дізнатися, що відвідування фейковий?
- Визначити поганого бота не дуже важко
- Як визначити поганого бота?
- підсумки
Випусковий редактор SEOnews
Минулого місяця агентство Incapusla Security звіт про стан гуглботов і їх шкідливих близнюків. І треба сказати, для тих, чий бізнес залежить від статистики сайту, новини не дуже хороші.
З 24 відвідувань сайту гуглботамі одне обов'язково робить фейк. При цьому більше 34% фейковий гуглботов використовуються для DDoS-атак, зломів, спаму і інших шкідливих дій.
Методологія
Експерти Incapusla проаналізували:
«... більш 400 млн відвідувань роботами пошукових систем 10 тисяч сайтів, в результаті яких було проіндексовано 2,19 млрд сторінок протягом 30 днів.
Інформація про гуглботах-самозванців (фейковий гуглботах) отримана внаслідок перевірки понад 50 млн відвідувань гуглботов-самозванців, а також зі звіту DDoS Threat Landscape, опублікованого раніше в цьому році ».
висновки Incapusla
Коли Incapusla звернули увагу на стандартного гуглбота, то помітили деякі цікаві моменти.
Для початку слід зазначити, що гуглботи сканують більше сторінок, ніж роботи всіх інших пошукових систем разом узяті, - 60,5%.
Те, що Incapusla виявили при аналізі цих відвідувань, також було трохи несподівано:
- Yahoo вибув з топ 5 пошукових роботів.
- Majestic 12 Bot, або бот WebCrawler Majestic SEO, зайняв четверте місце.
- Google не надає нікому заступництва.
- Немає практично жодної різниці між розміром майданчика і:
- Частотою індексації,
- Показником індексації,
- Глибиною індексації,
- SEO-продуктивністю.
Відомо, що Google - найбільший генератор відвідувань ботів і що ці відвідування ініціюються чимось іншим, ніж активністю сайту або SEO, і що він прислухається до думки користувачів.
В цілому, досить непогано. Але занепокоєння викликає не Google, а його «злі» близнюки, з якими слід бути обережніше (їх дуже багато - і деякі з них відмінно зроблені).
Юзер-агенти
Щоб дізнатися, які боти відвідують наш сайт необхідно подивитися відомості про них в лог файлах. Коли ми бачимо відповідний юзер-агентагент користувача, ми знаємо, з якої пошукової системи, з якого комп'ютера або браузера відбулося відвідування. Наприклад, юзер-агент може виглядати наступним чином:
Mozilla / 5.0 (Macintosh; Intel Mac OS X 10.9; rv: 30.0) Gecko / 20100101 Firefox / 30.0
Ця інформація говорить, що хтось використовує Mozilla / Firefox 30 на MacIntoch з операційною системою Mavericks. Вона також може розповісти про павуків, програмах і ботах, тобто про тих, хто «бігає» по нашим сайтам.
Імітація Google - життя бота
В ході дослідження Incapusla виявили, що «більше 4% ботів, які здавалися гуглботом, насправді їм не є». І тут переможцем стає Бразилія з часткою фейковий гуглботов майже 14%.
погані боти
Навіщо комусь створювати фейковий гуглботов?
Це щось на зразок того, як мати підроблені документи в 18 років. Іноді ви просто хочете потусуватися, але частіше вони потрібні вам, тому що ви робите щось таке, про що краще не знати вашій мамі.
Не всі боти погані
Візьміть до уваги, що не всі боти погані і створені зі злим умислом. Іноді фейковий гуглботов використовують тільки для того, що подивитися на ваш сайт очима Google.
Тому перш ніж блокувати бота, зверніть увагу на його поведінку. Може, він всього лише переглядає сайт? Заходить він знову і знову, чи мають його переміщення випадковий характер?
І тільки після того як ви визначите, що це поганий бот, можна закрити йому доступ. Будьте обережні, тому що ви можете заблокувати доступ і для роботів Google.
Як дізнатися, що відвідування фейковий?
Одним з ключових показників, що вказують на те, що є проблеми з фейковий гуглботамі, є країна походження бота.
На американські сайти найчастіше заходять боти з 6 країн, показаних на зображенні справа. А ось боти, чия батьківщина вказана на зображенні зліва, повинні змусити власника ресурсу насторожитися. Однак якщо ви працюєте з країнами зі списку ліворуч, то немає нічого дивного в тому, що ваш сайт будуть відвідувати їх гуглботи.
Якщо ви побачили щось підозріле, то не забудьте переглянути логи сервера і юзер-агенти і перевірити, здійснюються на вас атаки. Якщо це так, і у вас немає доступу до серверів, зв'яжіться з компанією, яка може заблокувати їх за вас.
Визначити поганого бота не дуже важко
Доброю новиною є те, що ідентифікувати поганого бота не так вже й складно. І як тільки це буде зроблено, ви можете заблокувати його і більше не пускати на свій сайт. Але це в тому випадку, якщо у вас є такі можливості, права і доступи. У більшості власників сайтів всього цього немає, і їм доводиться покладатися на свою хостінговую компанію, тому дуже важливо вибрати надійного і обізнаного підрядника.
Якщо у вас є доступи, ви можете вжити необхідних заходів, щоб переконатися, що боти дійсно здійснюють якусь деструктивну діяльність, а потім заблокувати їх.
Як визначити поганого бота?
Іноді виявити поганих ботів може бути досить проблематично: деякі з них дуже складно влаштовані, особливо, ті, які імітують Google. Ось деякі кроки, які допоможуть визначити фейковий спамерських пошукових роботів.
Incapusla виходячи з власного досвіду сформулювала 4 кроки для виявлення фейковий ботів:
Крок 1. Подивіться на дані в заголовку
Навіть якщо боти використовували юзер-агент Google, інші дані заголовка будуть зовсім «не як у Google». Цього достатньо, щоб забити тривогу, але не поспішайте блокувати його, тому що зареєстровані випадки, коли Google відхиляється від звичайної структури заголовка.
Крок 2. Перевірка IP і ASN
Далі проведіть перевірку IP і ASN. Тут варто звернути увагу на кілька моментів, в тому числі на особистості власників IP-адрес і ASN, які виробляють підозрілий трафік.
У випадку з фейковий гуглботамі ні IP, ні ASN не будуть зв'язані з Google. Таким чином, за допомогою паралельної перевірки цієї інформації і сумнівних заголовків можна з високим ступенем упевненості сказати, що ми маємо справу з потенційно небезпечними двійниками.
Крок 3. Контроль дій
Проте «потенційно небезпечний» це не завжди «злий». Наприклад, деякі SEO-інструменти намагаються видати себе за гуглботов, щоб отримати «гуглоподобное» бачення контенту сайту і посилального профілю.
Саме тому наступний пункт пошуку - поведінку відвідувачів. Воно допоможе нам зрозуміти їх наміри, ключ до яких часто лежить в самому запиті, так як вони представлені в WAF (Web Application Firewall). В цьому випадку самого показника відвідувань достатньо, щоб завершити картину, відразу визначивши DDoS-атаки і підвищивши автоматизовану захист від них.
Крок 4. Репутація IP і нова низкоуровневая підпис
Хоча Incapusla регулярно стикається з гуглботамі, варіант підпису, що з'явився під час останньої атаки, відображеної системою, яка не був частиною існуючої бази даних. Після пом'якшення атаки зібрані дані використовувалися, щоб створити новий запис низького рівня, яка потім буде додана до десятимільйонна пулу записів і розлучена через мережу, щоб захистити всіх клієнтів Incapusla.
В результаті при наступному відвідуванні цими ботами сайту вони будуть негайно заблоковані. Більш цього, репутація атакуючих IP також буде записана і додана в іншу базу даних, де зберігаються потенційно небезпечні адреси.
Простіше кажучи, ви повинні знати, що юзер-агенти можуть бути фейк, IP-адреси можуть бути підроблені, а заголовки реконструйовані і т.д. І для забезпечення безпеки, потрібно розкрити «справжнє обличчя» і наміри відвідувачів.
підсумки
Слідкуйте за своїм органічним трафіком, особливо за країною його походження. А коли хто-то или что-то подорожує по вашому сайту, дізнайтеся, які його наміри, і не тримайте в страху «хороших хлопців».
Нещодавно для забезпечення зручності користувачів Google Analytics запустив фільтр ботів і павуків. Детальніше про це можна прочитати тут .
Може, він всього лише переглядає сайт?
Заходить він знову і знову, чи мають його переміщення випадковий характер?
Як дізнатися, що відвідування фейковий?
Як визначити поганого бота?