Автоматизована платформа для збору даних про B2B-постачальників з антидетекцією та ротацією IP
Команда із закупівель мала потребу створити комплексну базу даних постачальників для понад 19 категорій товарів та 50+ країн, збираючи структуровані бізнес-дані з B2B-маркетплейсів — масштабовано, надійно та без блокувань.
Обговоріть Ваш Проєкт
Виклик
Створення великомасштабної бази даних постачальників з B2B-платформ супроводжувалося численними технічними перешкодами:
- Анти-бот виявлення — Цільові платформи використовували складні методи виявлення ботів, включаючи browser fingerprinting, поведінковий аналіз, CAPTCHA-виклики та rate limiting
- Непослідовність формату — Макет профілів постачальників значно відрізнявся між категоріями та регіонами, що порушувало роботу жорстких шаблонів для scraping
- Блокування IP — Великий обсяг запитів з одного IP призводив до постійних блокувань протягом декількох хвилин
- Обсяг даних — Потрібно було зібрати понад 50 000 профілів постачальників у десятках категорій, з більш ніж 80 полями на запис
- Якість даних — Витягнуті дані містили дублікати, неповні записи та непослідовні формати, що вимагало валідації
- Керування сесіями — Тривалі сесії scraping погіршувалися з часом, оскільки платформи виявляли автоматизовані шаблони
Наше Рішення
Ми розробили автоматизовану платформу для збору B2B даних з багатошаровою антидетекцією, ротацією IP на основі VPN, симуляцією людської поведінки та експортом структурованих даних — здатну надійно збирати десятки тисяч записів постачальників.
Архітектура
- Механізм scraping: Selenium з undetected ChromeDriver для автоматизації браузера з обходом виявлення
- Шар антидетекції: Рандомізація browser fingerprint, симуляція людської поведінки та виявлення CAPTCHA
- Ротація IP: Менеджер VPN з програмним перемиканням серверів у понад 12 глобальних локаціях
- Обробка даних: Моделі Pydantic для валідації, pandas для трансформації, експорт у кількох форматах
- Конфігурація: Налаштування на основі YAML для категорій, країн, rate limits та параметрів антидетекції
- Логування та моніторинг: Структуроване логування з відстеженням показників успіху/невдачі для кожної сесії
Архітектура антидетекції
Уникнення browser fingerprint
Платформа генерує рандомізовані browser fingerprints для кожної сесії, що охоплюють:
- Роздільна здатність екрана, глибина кольору та device pixel ratio
- Navigator properties (platform, language, hardware concurrency)
- WebGL vendor та renderer інформація
- Canvas та audio fingerprint noise injection
- Реалістичні plugin та font lists, що відповідають імітованій платформі
- Timezone consistency для всіх fingerprint properties
Симуляція людської поведінки
Для імітації природних шаблонів перегляду система реалізує:
- Рух миші — Шляхи на основі Bézier curve з реалістичним прискоренням та уповільненням
- Симуляція набору тексту — Змінна швидкість набору тексту з випадковими реалістичними помилками
- Шаблони прокручування — Кілька поведінкових режимів (уважне читання, швидке сканування, неуважний перегляд)
- Вагання при кліку — Природні затримки перед взаємодіями
- Втома сесії — Зміни поведінки протягом тривалих сесій для імітації людської втоми
- Симуляція перерв — Випадкові паузи для розширених сесій
Виявлення та відновлення CAPTCHA
- Багатотипне виявлення (reCAPTCHA, hCaptcha, Cloudflare challenges, slider CAPTCHA)
- Оцінка достовірності для кожного виявлення
- Стратегії відновлення, включаючи ротацію IP, скидання сесії та подовжені затримки
- Збір доказів (скріншоти та HTML) для налагодження
Система ротації IP
Керування VPN
- Програмне керування VPN-з'єднаннями через понад 12 глобальних серверних локацій
- Автоматична перевірка справності з'єднання за допомогою IP-перевірок
- Занесення невдалих серверів у чорний список для уникнення проблемних локацій
- Настроювані інтервали ротації (наприклад, кожні N requests)
- Підрахунок requests для автоматичного запуску ротації
- Безперебійна ротація без переривання активних scraping сесій
Вилучення та обробка даних
Вилучені поля даних (80+)
Платформа вилучає вичерпну інформацію про постачальників у декількох категоріях:
- Основна інформація — Назва компанії, місцезнаходження (країна, провінція, місто), категорія
- Контактні дані — Email, телефон, WhatsApp, вебсайт, messaging handles
- Бізнес-метрики — Тип бізнесу, роки роботи, річний дохід, кількість співробітників, розмір фабрики, статус верифікації, response rate
- Інформація про продукт — Основні продукти, категорії, MOQ, price ranges, lead times, payment terms, customization options
- Сертифікації — Галузеві сертифікації (ISO, якість, сталість, безпека)
- Торгова інформація — Export percentage, target markets, trade terms, production capacity
Валідація та якість даних
- Моделі Pydantic забезпечують дотримання field types, форматів та constraints
- Email та phone number format validation
- URL normalization та verification
- Duplicate detection за Email, телефоном та назвою компанії
- Minimum data completeness threshold (вимагається 60%+ field coverage)
- Business type classification та normalization
Експорт та організація
Дані експортуються у кількох форматах (CSV, Excel з форматуванням, JSON) та організовані за:
- Категорія — Окремі набори даних для кожної категорії продуктів
- Країна — Окремі набори даних для кожної країни постачальника
- Мастер-списки — Комбіновані набори даних з cross-category deduplication
- Зведені звіти — Статистика за показниками вилучення, охоплення та якості даних
Система конфігурації
Уся поведінка контролюється за допомогою конфігурації YAML, що охоплює:
- Визначення категорій з підкатегоріями та пошуковими термінами
- Цільові країни та пріоритетні регіони
- Rate limiting (requests per minute, hour, and day)
- Налаштування антидетекції (rotation intervals, cookie clearing, behavioral flags)
- Extraction field requirements (required vs. optional)
- Export settings (deduplication, validation, completeness thresholds)
Ключові особливості
- Багатошарова антидетекція — Fingerprint evasion, behavior simulation та session management
- Ротація IP на основі VPN — 12+ глобальних локацій з автоматичною ротацією та health checks
- 80+ полів даних — Комплексні профілі постачальників з валідованими, структурованими даними
- Симуляція людської поведінки — Bézier mouse paths, variable typing, realistic scrolling patterns
- Виявлення та відновлення CAPTCHA — Багатотипне виявлення з автоматизованими recovery strategies
- Багатоформатний експорт — CSV, Excel та JSON з організацією за категоріями/країнами
- Валідація даних — Схеми, що забезпечуються Pydantic, з duplicate detection та completeness scoring
- Настроювані кампанії — Конфігурація категорій, країн та rate limit на основі YAML
- Керування сесіями — Fatigue simulation, cookie rotation та break scheduling
- Скрипти для виробничого середовища (Shell Scripts) — Попередньо налаштовані runners для різних scraping профілів
Результати
Технологічний Стек
caseStudyDetail.more Кейси
Ознайомтесь з іншими нашими технічними впровадженнями
Платформа для скрапінгу та генерації контенту блогів на базі AI
Медіакомпанії була потрібна інтелектуальна контент-платформа, яка могла б автоматизувати створення контенту для блогів шляхом скрапінгу наявного веб-контенту, його аналізу за допомогою AI та генерації оригінальних, SEO-оптимізованих дописів у блогах з видобутих даних.
Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks
Середній бізнес, який щомісяця обробляє сотні рахунків-фактур від постачальників, потребував усунення ручного введення даних шляхом автоматичного вилучення даних рахунків-фактур за допомогою AI/OCR та їх прямої синхронізації з QuickBooks для ведення бухгалтерського обліку та відстеження платежів.
Часті запитання
MicrocosmWorks впровадила багатошарову систему ухилення, що включає ротацію резидентних проксі у понад 50 країнах, рандомізацію відбитків браузера за допомогою Playwright зі stealth-плагінами та імітацію людського темпу запитів з випадковими затримками. Система підтримує рівень виявлення менше 2% на цільових сайтах, імітуючи природні шаблони перегляду та ротуючи user agent strings.
MicrocosmWorks налаштувала інтелектуальний рівень керування проксі, який розподіляє запити між пулами резидентних, датацентрових та мобільних проксі на основі чутливості виявлення кожного цільового сайту. Система відстежує кількість запитів для кожної IP-адреси та автоматично виводить з роботи IP-адреси, що наближаються до обмежень швидкості, а пул з понад 10 000 ротованих IP-адрес забезпечує безперервну здатність збору даних.
MicrocosmWorks створила конвеєр валідації, який перевіряє доставку електронної пошти, формат телефонного номера та пошук оператора, доступність веб-сайту та геокодування адреси для кожного зібраного запису постачальника. Виявлення дублікатів використовує нечітке зіставлення (fuzzy matching) полів назви компанії та адреси для запобігання дублікатам, а показники повноти позначають записи, що не містять критичних полів, для повторного скрапінгу.
MicrocosmWorks впровадила автоматизовану систему моніторингу структури, яка порівнює DOM-структури сторінок зі збереженими базовими показниками під час кожного циклу обходу. Коли виявляються структурні зміни, які порушують понад 10% селекторів, система призупиняє збір даних для цього джерела, сповіщає операційну команду та в багатьох випадках автоматично виправляє селектори за допомогою модуля регенерації селекторів на основі LLM.
MicrocosmWorks надає платформи для веб-скрапінгу за тарифами $20-$40/год, при цьому повна система збору даних про постачальників, що включає заходи проти виявлення, ротацію IP-адрес, конвеєр валідації та адмін-панель, зазвичай вимагає 400-600 годин розробки. Поточні витрати на проксі для широкомасштабних операцій зазвичай становлять $500-$2 000 на місяць залежно від обсягу збору даних.
Готові Трансформувати Свій Бізнес?
Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.