Войти

Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Вот подробный разбор User-Agent строки `Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)` в виде списка на русском языке: --- 1. **Sogou Pic Spider/3.0** - **Название бота**: **Sogou Pic Spider** (Sogou Picture Spider). - **Версия**: **3.0** (стабильная версия, используется с 2010-х годов). - **Sogou** — китайская поисковая система (аналог Google/Yandex). - **Pic Spider** — специализированный краулер для **изображений и картинок** (не для текста). - **Не браузер** — это **автоматизированный робот**. 2. **(+http://www.sogou.com/docs/help/webmasters.htm#07)** - **Обязательная ссылка** на документацию (по стандарту robots.txt). - **#07** — раздел о **Sogou Pic Spider** (описание, правила индексации). - **+** — префикс, указывающий на **URL-ссылку** (не просто текст). - Ссылка ведёт на официальную страницу для вебмастеров Sogou (на китайском, но с переводом). 3. **Mozilla/5.0** — **отсутствует** - Нет маскировки под браузер (в отличие от Googlebot или YandexBot). - **Прямолинейный UA** — типично для китайских ботов (Sogou, Baidu). 4. **Дополнительные токены** — **отсутствуют** - Нет платформы, движка или версии Chrome/Safari. - **Простая структура** — только имя и ссылка. --- ### Итоговая расшифровка: | Параметр | Значение | |------------------------|---------| | **Агент** | **Sogou Pic Spider 3.0** | | **Тип** | **Поисковый бот для изображений** | | **Владелец** | **Sogou (Sohu Inc., Китай)** | | **Назначение** | **Индексация картинок** для поиска Sogou.com | | **Сайт** | `http://www.sogou.com/docs/help/webmasters.htm#07` | | **Движок** | **Не указан** (вероятно, собственный парсер) | | **Маскировка** | **Нет** (прямой бот) | | **Статус** | **Легитимный, но агрессивный** | --- ### Что делает **Sogou Pic Spider**? - **Сканирует сайты на изображения** (JPG, PNG, GIF, WebP и др.). - **Индексирует для поиска изображений** в Sogou (sogou.com/pics). - **Работает с 2010-х годов**, обновления редкие. - **Агрессивен**: - Может делать **сотни запросов в день** на популярные сайты. - **Не уважает robots.txt полностью** (иногда игнорирует Disallow). - **IP из Китая** (AS23724 — China Unicom). --- ### Технические особенности: | Характеристика | Значение | |---------------|---------| | **IP-адреса** | Из Китая: `123.125.*`, `114.114.*`, `220.181.*` | | **PTR-записи** | `*.sogou.com`, `*.sohu.com` | | **Заголовки** | Часто: `Accept: image/*`, `User-Agent` как выше | | **HTTP-метод** | **GET** для изображений и страниц | | **Частота** | **1–100 запросов/день** (зависит от популярности сайта) | | **JavaScript** | **Не выполняет** — только статический контент | --- ### Это **официальный бот Sogou** — **не блокировать полностью!** | Признак легитимности | ✅ | |---------------------|----| | Официальная документация Sogou | ✅ | | Указана ссылка `+http://...#07` | ✅ | | Используется в Sogou Pics | ✅ | | IP из диапазона Sogou | ✅ | > **Блокировка = потеря видимости в китайском поиске изображений!** > Sogou — 2-я поисковая система в Китае (после Baidu). --- ### Пример реального запроса: ``` GET /images/photo.jpg HTTP/1.1 Host: example.com User-Agent: Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Accept: image/jpeg,image/png,image/gif Connection: keep-alive ``` --- ### Рекомендации | Действие | Обоснование | |--------|------------| | **Разрешить с ограничением** | Легитимный, но агрессивный — не для всех изображений | | **Добавить в robots.txt** | Контроль индексации | | **Ограничить скорость** | `Crawl-delay: 5` (5 сек между запросами) | | **Исключить из аналитики** | Не пользователь | | **Кешировать изображения** | Ускорит работу бота | | **Блокировать, если нагружает** | WAF/NGINX: по IP или UA | --- ### Пример `robots.txt` для Sogou Pic Spider: ```txt User-agent: Sogou Pic Spider Allow: /images/ Disallow: /private-images/ Crawl-delay: 5 User-agent: * Disallow: /admin/ ``` --- ### Как отличить от подделки? | Признак | Настоящий | Подделка | |--------|----------|---------| | **IP** | Китайские диапазоны Sogou | Любой другой | | **PTR** | `*.sogou.com` | Нет | | **Ссылка в UA** | Точная `+http://www.sogou.com/docs/help/webmasters.htm#07` | С ошибками | | **Запросы** | Только изображения (GET /img.jpg) | Любые страницы | --- ### Вывод: - **Это официальный бот Sogou для индексации изображений** - **Версия 3.0 (стабильная, с 2010-х)** - **100% легитимен — не блокировать полностью!** - **Разрешать с контролем в robots.txt** - **Исключать из статистики посещений** - **Полезен для SEO в Китае (Sogou Pics)**