Web ScrapingОпубліковано June 22, 2026 · Оновлено June 22, 2026

Автоматизована платформа для збору даних про B2B-постачальників з антидетекцією та ротацією IP

Команда із закупівель мала потребу створити комплексну базу даних постачальників для понад 19 категорій товарів та 50+ країн, збираючи структуровані бізнес-дані з B2B-маркетплейсів — масштабовано, надійно та без блокувань.

Обговоріть Ваш Проєкт

Web Scraping

Domain

Technologies

Key Results

Delivered

Status

Виклик

Створення великомасштабної бази даних постачальників з B2B-платформ супроводжувалося численними технічними перешкодами:

Анти-бот виявлення — Цільові платформи використовували складні методи виявлення ботів, включаючи browser fingerprinting, поведінковий аналіз, CAPTCHA-виклики та rate limiting
Непослідовність формату — Макет профілів постачальників значно відрізнявся між категоріями та регіонами, що порушувало роботу жорстких шаблонів для scraping
Блокування IP — Великий обсяг запитів з одного IP призводив до постійних блокувань протягом декількох хвилин
Обсяг даних — Потрібно було зібрати понад 50 000 профілів постачальників у десятках категорій, з більш ніж 80 полями на запис
Якість даних — Витягнуті дані містили дублікати, неповні записи та непослідовні формати, що вимагало валідації
Керування сесіями — Тривалі сесії scraping погіршувалися з часом, оскільки платформи виявляли автоматизовані шаблони

Наше Рішення

Ми розробили автоматизовану платформу для збору B2B даних з багатошаровою антидетекцією, ротацією IP на основі VPN, симуляцією людської поведінки та експортом структурованих даних — здатну надійно збирати десятки тисяч записів постачальників.

Архітектура

Механізм scraping: Selenium з undetected ChromeDriver для автоматизації браузера з обходом виявлення
Шар антидетекції: Рандомізація browser fingerprint, симуляція людської поведінки та виявлення CAPTCHA
Ротація IP: Менеджер VPN з програмним перемиканням серверів у понад 12 глобальних локаціях
Обробка даних: Моделі Pydantic для валідації, pandas для трансформації, експорт у кількох форматах
Конфігурація: Налаштування на основі YAML для категорій, країн, rate limits та параметрів антидетекції
Логування та моніторинг: Структуроване логування з відстеженням показників успіху/невдачі для кожної сесії

Архітектура антидетекції

Уникнення browser fingerprint

Платформа генерує рандомізовані browser fingerprints для кожної сесії, що охоплюють:

Роздільна здатність екрана, глибина кольору та device pixel ratio
Navigator properties (platform, language, hardware concurrency)
WebGL vendor та renderer інформація
Canvas та audio fingerprint noise injection
Реалістичні plugin та font lists, що відповідають імітованій платформі
Timezone consistency для всіх fingerprint properties

Симуляція людської поведінки

Для імітації природних шаблонів перегляду система реалізує:

Рух миші — Шляхи на основі Bézier curve з реалістичним прискоренням та уповільненням
Симуляція набору тексту — Змінна швидкість набору тексту з випадковими реалістичними помилками
Шаблони прокручування — Кілька поведінкових режимів (уважне читання, швидке сканування, неуважний перегляд)
Вагання при кліку — Природні затримки перед взаємодіями
Втома сесії — Зміни поведінки протягом тривалих сесій для імітації людської втоми
Симуляція перерв — Випадкові паузи для розширених сесій

Виявлення та відновлення CAPTCHA

Багатотипне виявлення (reCAPTCHA, hCaptcha, Cloudflare challenges, slider CAPTCHA)
Оцінка достовірності для кожного виявлення
Стратегії відновлення, включаючи ротацію IP, скидання сесії та подовжені затримки
Збір доказів (скріншоти та HTML) для налагодження

Система ротації IP

Керування VPN

Програмне керування VPN-з'єднаннями через понад 12 глобальних серверних локацій
Автоматична перевірка справності з'єднання за допомогою IP-перевірок
Занесення невдалих серверів у чорний список для уникнення проблемних локацій
Настроювані інтервали ротації (наприклад, кожні N requests)
Підрахунок requests для автоматичного запуску ротації
Безперебійна ротація без переривання активних scraping сесій

Вилучення та обробка даних

Вилучені поля даних (80+)

Платформа вилучає вичерпну інформацію про постачальників у декількох категоріях:

Основна інформація — Назва компанії, місцезнаходження (країна, провінція, місто), категорія
Контактні дані — Email, телефон, WhatsApp, вебсайт, messaging handles
Бізнес-метрики — Тип бізнесу, роки роботи, річний дохід, кількість співробітників, розмір фабрики, статус верифікації, response rate
Інформація про продукт — Основні продукти, категорії, MOQ, price ranges, lead times, payment terms, customization options
Сертифікації — Галузеві сертифікації (ISO, якість, сталість, безпека)
Торгова інформація — Export percentage, target markets, trade terms, production capacity

Валідація та якість даних

Моделі Pydantic забезпечують дотримання field types, форматів та constraints
Email та phone number format validation
URL normalization та verification
Duplicate detection за Email, телефоном та назвою компанії
Minimum data completeness threshold (вимагається 60%+ field coverage)
Business type classification та normalization

Експорт та організація

Дані експортуються у кількох форматах (CSV, Excel з форматуванням, JSON) та організовані за:

Категорія — Окремі набори даних для кожної категорії продуктів
Країна — Окремі набори даних для кожної країни постачальника
Мастер-списки — Комбіновані набори даних з cross-category deduplication
Зведені звіти — Статистика за показниками вилучення, охоплення та якості даних

Система конфігурації

Уся поведінка контролюється за допомогою конфігурації YAML, що охоплює:

Визначення категорій з підкатегоріями та пошуковими термінами
Цільові країни та пріоритетні регіони
Rate limiting (requests per minute, hour, and day)
Налаштування антидетекції (rotation intervals, cookie clearing, behavioral flags)
Extraction field requirements (required vs. optional)
Export settings (deduplication, validation, completeness thresholds)

Ключові особливості

Багатошарова антидетекція — Fingerprint evasion, behavior simulation та session management
Ротація IP на основі VPN — 12+ глобальних локацій з автоматичною ротацією та health checks
80+ полів даних — Комплексні профілі постачальників з валідованими, структурованими даними
Симуляція людської поведінки — Bézier mouse paths, variable typing, realistic scrolling patterns
Виявлення та відновлення CAPTCHA — Багатотипне виявлення з автоматизованими recovery strategies
Багатоформатний експорт — CSV, Excel та JSON з організацією за категоріями/країнами
Валідація даних — Схеми, що забезпечуються Pydantic, з duplicate detection та completeness scoring
Настроювані кампанії — Конфігурація категорій, країн та rate limit на основі YAML
Керування сесіями — Fatigue simulation, cookie rotation та break scheduling
Скрипти для виробничого середовища (Shell Scripts) — Попередньо налаштовані runners для різних scraping профілів

Результати

Масштаб: Зібрано понад 50 000 записів постачальників у 19+ категоріях та 50+ країнах

Якість даних: 80+ полів на постачальника з показником повноти 60%+

Уникнення виявлення: Зменшення кількості зустрічей з CAPTCHA на 60-80% порівняно з наївним scraping

Технологічний Стек

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Кейси

Ознайомтесь з іншими нашими технічними впровадженнями

Web Scraping

Платформа для скрапінгу та генерації контенту блогів на базі AI

Медіакомпанії була потрібна інтелектуальна контент-платформа, яка могла б автоматизувати створення контенту для блогів шляхом скрапінгу наявного веб-контенту, його аналізу за допомогою AI та генерації оригінальних, SEO-оптимізованих дописів у блогах з видобутих даних.

Читати Кейс

AI Accounting

Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks

Середній бізнес, який щомісяця обробляє сотні рахунків-фактур від постачальників, потребував усунення ручного введення даних шляхом автоматичного вилучення даних рахунків-фактур за допомогою AI/OCR та їх прямої синхронізації з QuickBooks для ведення бухгалтерського обліку та відстеження платежів.

Читати Кейс

Часті запитання

MicrocosmWorks впровадила багатошарову систему обходу, що включає ротацію резидентних проксі у понад 50 країнах, рандомізацію цифрових відбитків браузера, використовуючи Playwright зі stealth-плагінами, та людиноподібний темп запитів з рандомізованими затримками. Система підтримує рівень виявлення нижче 2% на цільових сайтах, імітуючи природні шаблони перегляду та ротуючи user agent strings.

MicrocosmWorks налаштувала інтелектуальний рівень керування проксі, який розподіляє запити між пулами житлових, датацентрових та мобільних проксі на основі чутливості виявлення кожного цільового сайту. Система відстежує кількість запитів на кожну IP-адресу та автоматично виводить з обігу IP-адреси, що наближаються до обмежень частоти запитів, з пулом понад 10 000 ротованих IP-адрес, що забезпечує безперервну здатність до збору даних.

MicrocosmWorks розробила конвеєр валідації, який перевіряє доставлюваність електронної пошти, формат номера телефону та визначення оператора зв'язку, доступність вебсайту та геокодування адреси для кожного зібраного запису постачальника. Виявлення дублікатів використовує нечітке зіставлення за полями назви компанії та адреси для запобігання дублюванню записів, а показники повноти позначають записи, яким бракує критично важливих полів, для повторного збору.

MicrocosmWorks впровадила автоматизовану систему моніторингу структури, яка порівнює структури DOM сторінок зі збереженими еталонними значеннями під час кожного циклу сканування. Коли виявляються структурні зміни, які порушують роботу понад 10% селекторів, система призупиняє збір даних для цього джерела, сповіщає команду експлуатації та в багатьох випадках автоматично відновлює селектори, використовуючи модуль регенерації селекторів на основі LLM.

MicrocosmWorks надає платформи для веб-скрейпінгу за ставками $20-$40/год, при цьому повна система збору даних про постачальників, включаючи заходи проти виявлення, ротацію IP, конвеєр валідації та адмін-панель, зазвичай потребує 400-600 годин розробки. Поточні витрати на проксі для масштабних операцій зазвичай становлять $500-$2,000/місяць залежно від обсягу збору даних.

Готові Трансформувати Свій Бізнес?

Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.

Зв'язатися з Нами caseStudyDetail.viewAllCaseStudies

Автоматизована платформа для збору даних про B2B-постачальників з антидетекцією та ротацією IP

Виклик

Наше Рішення

Архітектура

Архітектура антидетекції

Уникнення browser fingerprint

Симуляція людської поведінки

Виявлення та відновлення CAPTCHA

Система ротації IP

Керування VPN

Вилучення та обробка даних

Вилучені поля даних (80+)

Валідація та якість даних

Експорт та організація

Система конфігурації

Ключові особливості

Результати

Технологічний Стек

caseStudyDetail.more Кейси

Платформа для скрапінгу та генерації контенту блогів на базі AI

Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks

Часті запитання

Готові Трансформувати Свій Бізнес?

Вставка реклами на стороні клієнта (CSAI) з парсингом маркерів SCTE-35 та інтеграцією багатоплатформного плеєра