MicrocosmWorksInnover et Architecturer le Cosmos Numérique
Ă€ proposContact
MicrocosmWorksInnover et architecturer des cosmos numériques

Fournir des solutions informatiques qui comptent. Nous sommes passionnés par la technologie, la sécurité et aidons les entreprises à croître grâce à une infrastructure informatique fiable et innovante.

[email protected]
+91 7011868196
New Delhi, India

Hub de Croissance IA

Hub IAInnovation pour les startupsAccélérateur d'entreprise

Solutions

Toutes les solutionsApplications de bien-être et de fitnessPlateforme vidéo IADéveloppement d'agents IA

Ressources

PerspectivesGuides de l'industriePlans d'utilisationModèles d'architectureÉtudes de cas

Entreprise

Ă€ propos de nousContactNotre travail

Services

Consultation numériqueInfrastructure cloudDéveloppement SaaSDéveloppement IATechnologie vidéo
Développement ERPPersonnalisation ZohoDéveloppement OdooIntégration SalesforceDéveloppement CRM personnalisé
Intégration QuickBooksSolutions IoTDéveloppement Blockchain
Consultation en cybersécuritéSupport IT - L3

© 2026 MicrocosmWorks. Tous droits réservés.

Politique de confidentialitéConditions d'utilisation
Retour aux Études de Cas
Web ScrapingPublié June 18, 2026 · Mis à jour May 25, 2026

Plateforme automatisée de collecte de données fournisseurs B2B avec anti-détection et rotation d'IP

Une équipe d'approvisionnement avait besoin de construire une base de données fournisseurs complète couvrant plus de 19 catégories de produits et plus de 50 pays en collectant des données commerciales structurées à partir de plateformes de marché B2B — à grande échelle, de manière fiable et sans être bloquée.

Discutez de Votre Projet
b2b-supplier-data-scraping.webp
Web Scraping
Domain
12
Technologies
6
Key Results
Delivered
Status

Le Défi

La construction d'une base de données fournisseurs à grande échelle à partir de plateformes B2B présentait de multiples obstacles techniques :

  • DĂ©tection Anti-Bot — Les plateformes cibles utilisaient des dĂ©tections de bots sophistiquĂ©es incluant le browser fingerprinting, l'analyse comportementale, les dĂ©fis CAPTCHA et la limitation de dĂ©bit
  • IncohĂ©rence des formats — Les mises en page des profils fournisseurs variaient considĂ©rablement selon les catĂ©gories et les rĂ©gions, ce qui brisait les modèles de scraping rigides
  • Blocage IP — Les requĂŞtes Ă  volume Ă©levĂ© provenant d'IP uniques dĂ©clenchaient des bannissements permanents en quelques minutes
  • Volume de donnĂ©es — Plus de 50 000 profils fournisseurs nĂ©cessaires Ă  travers des dizaines de catĂ©gories avec plus de 80 champs par enregistrement
  • QualitĂ© des donnĂ©es — Les donnĂ©es extraites contenaient des doublons, des enregistrements incomplets et des formats incohĂ©rents nĂ©cessitant une validation
  • Gestion des sessions — Les sessions de scraping de longue durĂ©e se dĂ©gradaient avec le temps Ă  mesure que les plateformes dĂ©tectaient des modèles automatisĂ©s

Notre Solution

Nous avons construit une plateforme automatisée de collecte de données B2B avec anti-détection multicouche, rotation d'IP basée sur VPN, simulation du comportement humain et exportation de données structurées — capable de collecter de manière fiable des dizaines de milliers d'enregistrements fournisseurs.

Architecture

  • Moteur de Scraping : Selenium avec undetected ChromeDriver pour l'automatisation du navigateur avec Ă©vasion
  • Couche Anti-DĂ©tection : Randomisation du browser fingerprint, simulation du comportement humain et dĂ©tection de CAPTCHA
  • Rotation d'IP : Gestionnaire VPN avec commutation programmatique de serveurs Ă  travers plus de 12 emplacements mondiaux
  • Traitement des donnĂ©es : Modèles Pydantic pour la validation, pandas pour la transformation, exportation multi-format
  • Configuration : Paramètres basĂ©s sur YAML pour les catĂ©gories, les pays, les limites de dĂ©bit et les paramètres d'anti-dĂ©tection
  • Journalisation et Surveillance : Journalisation structurĂ©e avec suivi du taux de succès/Ă©chec par session

Architecture Anti-Détection

Évasion du Browser Fingerprint

La plateforme génère des browser fingerprints randomisés pour chaque session, couvrant :

  • RĂ©solution d'Ă©cran, profondeur de couleur et rapport de pixels de l'appareil
  • PropriĂ©tĂ©s du Navigator (platform, language, hardware concurrency)
  • Informations sur le fournisseur et le moteur de rendu WebGL
  • Injection de bruit pour le fingerprint Canvas et audio
  • Listes de plugins et de polices rĂ©alistes correspondant Ă  la plateforme usurpĂ©e
  • CohĂ©rence du fuseau horaire Ă  travers toutes les propriĂ©tĂ©s du fingerprint

Simulation du Comportement Humain

Pour imiter les modèles de navigation naturels, le système implémente :

  • Mouvement de la souris — Chemins basĂ©s sur des courbes de BĂ©zier avec accĂ©lĂ©ration et dĂ©cĂ©lĂ©ration rĂ©alistes
  • Simulation de saisie — Vitesses de saisie variables avec des erreurs rĂ©alistes occasionnelles
  • Modèles de dĂ©filement — Plusieurs modes comportementaux (lecture attentive, balayage rapide, navigation distraite)
  • HĂ©sitation au clic — DĂ©lais naturels avant les interactions
  • Fatigue de session — Changements de comportement sur de longues sessions pour imiter la fatigue humaine
  • Simulation de pauses — Pauses alĂ©atoires pour les sessions prolongĂ©es

Détection et Récupération de CAPTCHA

  • DĂ©tection multi-types (reCAPTCHA, hCaptcha, dĂ©fis Cloudflare, CAPTCHA Ă  curseur)
  • Score de confiance pour chaque dĂ©tection
  • StratĂ©gies de rĂ©cupĂ©ration incluant la rotation IP, la rĂ©initialisation de session et des dĂ©lais prolongĂ©s
  • Collecte de preuves (captures d'Ă©cran et HTML) pour le dĂ©bogage

Système de Rotation d'IP

Gestion VPN

  • Gestion programmatique des connexions VPN Ă  travers plus de 12 emplacements de serveurs mondiaux
  • VĂ©rification automatique de l'Ă©tat de la connexion via des contrĂ´les IP
  • Mise sur liste noire des serveurs dĂ©faillants pour Ă©viter les emplacements problĂ©matiques
  • Intervalles de rotation configurables (ex: toutes les N requĂŞtes)
  • Comptage des requĂŞtes pour les dĂ©clencheurs de rotation automatique
  • Rotation transparente sans interrompre les sessions de scraping actives

Extraction et Traitement des Données

Champs de Données Extraits (80+)

La plateforme extrait des informations complètes sur les fournisseurs à travers plusieurs catégories :

  • Informations de base — Nom de l'entreprise, localisation (country, province, city), catĂ©gorie
  • CoordonnĂ©es — Email, phone, WhatsApp, website, messaging handles
  • Indicateurs Commerciaux — Business type, years in operation, annual revenue, employee count, factory size, verification status, response rate
  • Informations Produit — Main products, categories, MOQ, price ranges, lead times, payment terms, customization options
  • Certifications — Industry certifications (ISO, quality, sustainability, safety)
  • Informations Commerciales — Export percentage, target markets, trade terms, production capacity

Validation et Qualité des Données

  • Les modèles Pydantic appliquent les types de champs, les formats et les contraintes
  • Validation du format des adresses email et des numĂ©ros de tĂ©lĂ©phone
  • Normalisation et vĂ©rification des URL
  • DĂ©tection des doublons sur l'email, le tĂ©lĂ©phone et le nom de l'entreprise
  • Seuil minimum de complĂ©tude des donnĂ©es (couverture des champs Ă  60%+ requise)
  • Classification et normalisation du type d'entreprise

Exportation et Organisation

Les données sont exportées dans plusieurs formats (CSV, Excel avec formatage, JSON) et organisées par :

  • CatĂ©gorie — Jeux de donnĂ©es distincts par catĂ©gorie de produit
  • Pays — Jeux de donnĂ©es distincts par pays fournisseur
  • Listes MaĂ®tresses — Jeux de donnĂ©es combinĂ©s avec dĂ©duplication inter-catĂ©gories
  • Rapports SynthĂ©tiques — Statistiques sur les taux d'extraction, la couverture et la qualitĂ© des donnĂ©es

Système de Configuration

Tout le comportement est contrôlé via la configuration YAML couvrant :

  • DĂ©finitions de catĂ©gories avec sous-catĂ©gories et termes de recherche
  • Pays cibles et rĂ©gions prioritaires
  • Limitation de dĂ©bit (requĂŞtes par minute, heure et jour)
  • Paramètres d'anti-dĂ©tection (intervalles de rotation, suppression des cookies, indicateurs comportementaux)
  • Exigences de champs d'extraction (obligatoires vs. facultatifs)
  • Paramètres d'exportation (dĂ©duplication, validation, seuils de complĂ©tude)

Fonctionnalités Clés

  1. Anti-détection Multicouche — Évasion du fingerprint, simulation du comportement et gestion des sessions
  2. Rotation d'IP Basée sur VPN — Plus de 12 emplacements mondiaux avec rotation automatique et contrôles de santé
  3. Plus de 80 Champs de Données — Profils fournisseurs complets avec des données validées et structurées
  4. Simulation du Comportement Humain — Chemins de souris Bézier, saisie variable, modèles de défilement réalistes
  5. Détection et Récupération de CAPTCHA — Détection multi-types avec stratégies de récupération automatisées
  6. Exportation Multi-Format — CSV, Excel et JSON avec organisation par catégorie/pays
  7. Validation des Données — Schémas appliqués par Pydantic avec détection des doublons et score de complétude
  8. Campagnes Configurables — Configuration de catégorie, pays et limite de débit via YAML
  9. Gestion des Sessions — Simulation de fatigue, rotation des cookies et planification des pauses
  10. Scripts Shell de Production — Exécuteurs préconfigurés pour différents profils de scraping

Résultats

Échelle : Plus de 50 000 enregistrements fournisseurs collectés à travers plus de 19 catégories et plus de 50 pays
Qualité des données : Plus de 80 champs par fournisseur avec un taux de complétude de plus de 60 %
Évitement de la détection : Réduction de 60 à 80 % des rencontres avec les CAPTCHA par rapport à un scraping naïf

Stack Technologique

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Études de Cas

Découvrez plus de nos implémentations techniques

Web Scraping

Plateforme de Web Scraping et de Génération de Contenu de Blog Propulsée par l'AI

Une entreprise médiatique avait besoin d'une plateforme de contenu intelligente capable d'automatiser la création de contenu de blog en récupérant du contenu web existant, en l'analysant à l'aide de l'AI et en générant des articles de blog originaux et optimisés pour le SEO à partir des données extraites.

Lire l'Étude de Cas
AI Accounting

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.

Lire l'Étude de Cas

PrĂŞt Ă  Transformer Votre Entreprise ?

Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.

Contactez-NouscaseStudyDetail.viewAllCaseStudies
Taux de contact : Disponibilité des e-mails de 70 à 80 %, disponibilité des téléphones de 80 à 90 % sur l'ensemble des enregistrements
Taux de doublons : < 5 % après le traitement de déduplication
Exportation : Jeux de données organisés par catégorie et pays avec agrégation maîtresse
Video Encoding

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Une plateforme de streaming vidéo devait implémenter l'insertion d'annonces côté client (CSAI) sur les applications web, mobiles et de télévision connectée — permettant des expériences publicitaires personnalisées au niveau de l'appareil avec un support complet d'interaction publicitaire (superpositions cliquables, bannières complémentaires, boutons de saut) que l'insertion côté serveur ne peut pas offrir.

Lire l'Étude de Cas

Questions fréquemment posées

MicrocosmWorks a mis en œuvre un système d'évasion multi-couches incluant la rotation de proxys résidentiels dans plus de 50 pays, la randomisation des empreintes de navigateur à l'aide de Playwright avec des plugins furtifs, et un rythme de requêtes de type humain avec des délais aléatoires. Le système maintient un taux de détection inférieur à 2 % sur les sites cibles en mimant des schémas de navigation naturels et en faisant pivoter les chaînes d'agent utilisateur.

MicrocosmWorks a configuré une couche de gestion intelligente des proxys qui distribue les requêtes entre des pools de proxys résidentiels, de centres de données et mobiles en fonction de la sensibilité de détection de chaque site cible. Le système suit le nombre de requêtes par IP et met automatiquement hors service les IP s'approchant des limites de débit, avec un pool de plus de 10 000 IP tournantes assurant une capacité de collecte continue.

MicrocosmWorks a construit un pipeline de validation qui vérifie la délivrabilité des e-mails, le format des numéros de téléphone et la recherche d'opérateur, la disponibilité du site web et le géocodage des adresses pour chaque enregistrement de fournisseur collecté. La détection des doublons utilise la correspondance floue (fuzzy matching) sur les champs de nom d'entreprise et d'adresse pour éviter les entrées en double, et des scores d'exhaustivité signalent les enregistrements auxquels il manque des champs critiques pour un nouveau scraping.

MicrocosmWorks a mis en œuvre un système automatisé de surveillance de structure qui compare les structures DOM des pages à des bases de référence stockées à chaque cycle de crawl. Lorsque des changements structurels sont détectés qui cassent plus de 10 % des sélecteurs, le système suspend la collecte pour cette source, alerte l'équipe des opérations et, dans de nombreux cas, répare automatiquement les sélecteurs à l'aide d'un module de régénération de sélecteurs basé sur un LLM.

MicrocosmWorks fournit des plateformes de web scraping à des tarifs de 20 $ à 40 $/heure, un système complet de collecte de données fournisseurs incluant des mesures anti-détection, la rotation d'IP, un pipeline de validation et un tableau de bord d'administration nécessitant généralement 400 à 600 heures de développement. Les coûts de proxy continus pour les opérations à grande échelle s'élèvent généralement à 500 $ - 2 000 $/mois selon le volume de collecte.