Автоматизована платформа для збору даних про B2B-постачальників з антидетекцією та ротацією IP
Команда із закупівель мала потребу створити комплексну базу даних постачальників для понад 19 категорій товарів та 50+ країн, збираючи структуровані бізнес-дані з B2B-маркетплейсів — масштабовано, надійно та без блокувань.
Обговоріть Ваш Проєкт
Виклик
Створення великомасштабної бази даних постачальників з B2B-платформ супроводжувалося численними технічними перешкодами:
- Анти-бот виявлення — Цільові платформи використовували складні методи виявлення ботів, включаючи browser fingerprinting, поведінковий аналіз, CAPTCHA-виклики та rate limiting
- Непослідовність формату — Макет профілів постачальників значно відрізнявся між категоріями та регіонами, що порушувало роботу жорстких шаблонів для scraping
- Блокування IP — Великий обсяг запитів з одного IP призводив до постійних блокувань протягом декількох хвилин
- Обсяг даних — Потрібно було зібрати понад 50 000 профілів постачальників у десятках категорій, з більш ніж 80 полями на запис
- Якість даних — Витягнуті дані містили дублікати, неповні записи та непослідовні формати, що вимагало валідації
- Керування сесіями — Тривалі сесії scraping погіршувалися з часом, оскільки платформи виявляли автоматизовані шаблони
Наше Рішення
Ми розробили автоматизовану платформу для збору B2B даних з багатошаровою антидетекцією, ротацією IP на основі VPN, симуляцією людської поведінки та експортом структурованих даних — здатну надійно збирати десятки тисяч записів постачальників.
Архітектура
- Механізм scraping: Selenium з undetected ChromeDriver для автоматизації браузера з обходом виявлення
- Шар антидетекції: Рандомізація browser fingerprint, симуляція людської поведінки та виявлення CAPTCHA
- Ротація IP: Менеджер VPN з програмним перемиканням серверів у понад 12 глобальних локаціях
- Обробка даних: Моделі Pydantic для валідації, pandas для трансформації, експорт у кількох форматах
- Конфігурація: Налаштування на основі YAML для категорій, країн, rate limits та параметрів антидетекції
- Логування та моніторинг: Структуроване логування з відстеженням показників успіху/невдачі для кожної сесії
Архітектура антидетекції
Уникнення browser fingerprint
Платформа генерує рандомізовані browser fingerprints для кожної сесії, що охоплюють:
- Роздільна здатність екрана, глибина кольору та device pixel ratio
- Navigator properties (platform, language, hardware concurrency)
- WebGL vendor та renderer інформація
- Canvas та audio fingerprint noise injection
- Реалістичні plugin та font lists, що відповідають імітованій платформі
- Timezone consistency для всіх fingerprint properties
Симуляція людської поведінки
Для імітації природних шаблонів перегляду система реалізує:
- Рух миші — Шляхи на основі Bézier curve з реалістичним прискоренням та уповільненням
- Симуляція набору тексту — Змінна швидкість набору тексту з випадковими реалістичними помилками
- Шаблони прокручування — Кілька поведінкових режимів (уважне читання, швидке сканування, неуважний перегляд)
- Вагання при кліку — Природні затримки перед взаємодіями
- Втома сесії — Зміни поведінки протягом тривалих сесій для імітації людської втоми
- Симуляція перерв — Випадкові паузи для розширених сесій
Виявлення та відновлення CAPTCHA
- Багатотипне виявлення (reCAPTCHA, hCaptcha, Cloudflare challenges, slider CAPTCHA)
- Оцінка достовірності для кожного виявлення
- Стратегії відновлення, включаючи ротацію IP, скидання сесії та подовжені затримки
- Збір доказів (скріншоти та HTML) для налагодження
Система ротації IP
Керування VPN
- Програмне керування VPN-з'єднаннями через понад 12 глобальних серверних локацій
- Автоматична перевірка справності з'єднання за допомогою IP-перевірок
- Занесення невдалих серверів у чорний список для уникнення проблемних локацій
- Настроювані інтервали ротації (наприклад, кожні N requests)
- Підрахунок requests для автоматичного запуску ротації
- Безперебійна ротація без переривання активних scraping сесій
Вилучення та обробка даних
Вилучені поля даних (80+)
Платформа вилучає вичерпну інформацію про постачальників у декількох категоріях:
- Основна інформація — Назва компанії, місцезнаходження (країна, провінція, місто), категорія
- Контактні дані — Email, телефон, WhatsApp, вебсайт, messaging handles
- Бізнес-метрики — Тип бізнесу, роки роботи, річний дохід, кількість співробітників, розмір фабрики, статус верифікації, response rate
- Інформація про продукт — Основні продукти, категорії, MOQ, price ranges, lead times, payment terms, customization options
- Сертифікації — Галузеві сертифікації (ISO, якість, сталість, безпека)
- Торгова інформація — Export percentage, target markets, trade terms, production capacity
Валідація та якість даних
- Моделі Pydantic забезпечують дотримання field types, форматів та constraints
- Email та phone number format validation
- URL normalization та verification
- Duplicate detection за Email, телефоном та назвою компанії
- Minimum data completeness threshold (вимагається 60%+ field coverage)
- Business type classification та normalization
Експорт та організація
Дані експортуються у кількох форматах (CSV, Excel з форматуванням, JSON) та організовані за:
- Категорія — Окремі набори даних для кожної категорії продуктів
- Країна — Окремі набори даних для кожної країни постачальника
- Мастер-списки — Комбіновані набори даних з cross-category deduplication
- Зведені звіти — Статистика за показниками вилучення, охоплення та якості даних
Система конфігурації
Уся поведінка контролюється за допомогою конфігурації YAML, що охоплює:
- Визначення категорій з підкатегоріями та пошуковими термінами
- Цільові країни та пріоритетні регіони
- Rate limiting (requests per minute, hour, and day)
- Налаштування антидетекції (rotation intervals, cookie clearing, behavioral flags)
- Extraction field requirements (required vs. optional)
- Export settings (deduplication, validation, completeness thresholds)
Ключові особливості
- Багатошарова антидетекція — Fingerprint evasion, behavior simulation та session management
- Ротація IP на основі VPN — 12+ глобальних локацій з автоматичною ротацією та health checks
- 80+ полів даних — Комплексні профілі постачальників з валідованими, структурованими даними
- Симуляція людської поведінки — Bézier mouse paths, variable typing, realistic scrolling patterns
- Виявлення та відновлення CAPTCHA — Багатотипне виявлення з автоматизованими recovery strategies
- Багатоформатний експорт — CSV, Excel та JSON з організацією за категоріями/країнами
- Валідація даних — Схеми, що забезпечуються Pydantic, з duplicate detection та completeness scoring
- Настроювані кампанії — Конфігурація категорій, країн та rate limit на основі YAML
- Керування сесіями — Fatigue simulation, cookie rotation та break scheduling
- Скрипти для виробничого середовища (Shell Scripts) — Попередньо налаштовані runners для різних scraping профілів
Результати
Технологічний Стек
caseStudyDetail.more Кейси
Ознайомтесь з іншими нашими технічними впровадженнями
Платформа для скрапінгу та генерації контенту блогів на базі AI
Медіакомпанії була потрібна інтелектуальна контент-платформа, яка могла б автоматизувати створення контенту для блогів шляхом скрапінгу наявного веб-контенту, його аналізу за допомогою AI та генерації оригінальних, SEO-оптимізованих дописів у блогах з видобутих даних.
Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks
Середній бізнес, який щомісяця обробляє сотні рахунків-фактур від постачальників, потребував усунення ручного введення даних шляхом автоматичного вилучення даних рахунків-фактур за допомогою AI/OCR та їх прямої синхронізації з QuickBooks для ведення бухгалтерського обліку та відстеження платежів.
Часті запитання
MicrocosmWorks implemented a multi-layered evasion system including residential proxy rotation across 50+ countries, browser fingerprint randomization using Playwright with stealth plugins, and human-like request pacing with randomized delays. The system maintains a detection rate below 2% across target sites by mimicking natural browsing patterns and rotating user agent strings.
MicrocosmWorks configured an intelligent proxy management layer that distributes requests across residential, datacenter, and mobile proxy pools based on each target site's detection sensitivity. The system tracks per-IP request counts and automatically retires IPs approaching rate limits, with a pool of over 10,000 rotating IPs ensuring continuous collection capacity.
MicrocosmWorks built a validation pipeline that verifies email deliverability, phone number format and carrier lookup, website availability, and address geocoding for every collected supplier record. Duplicate detection uses fuzzy matching on company name and address fields to prevent duplicate entries, and completeness scores flag records missing critical fields for re-scraping.
MicrocosmWorks implemented an automated structure monitoring system that compares page DOM structures against stored baselines on every crawl cycle. When structural changes are detected that break more than 10% of selectors, the system pauses collection for that source, alerts the operations team, and in many cases auto-repairs selectors using an LLM-based selector regeneration module.
MicrocosmWorks delivers web scraping platforms at rates of $20-$40/hr, with a full supplier data collection system including anti-detection measures, IP rotation, validation pipeline, and admin dashboard typically requiring 400-600 development hours. Ongoing proxy costs for large-scale operations typically run $500-$2,000/month depending on collection volume.
Готові Трансформувати Свій Бізнес?
Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.