Automatiseret B2B-platform til indsamling af leverandørdata med anti-detektion og IP-rotation
Et indkøbsteam skulle opbygge en omfattende leverandørdatabase på tværs af mere end 19 produktkategorier og 50 lande ved at indsamle strukturerede virksomhedsdata fra B2B markedspladsplatforme — i stor skala, pålideligt og uden at blive blokeret.
Diskuter Dit Projekt
Udfordringen
Opbygning af en storstilet leverandørdatabase fra B2B-platforme præsenterede flere tekniske forhindringer:
- Anti-Bot-detektion — Målplatformene anvendte sofistikeret bot-detektion, herunder browser fingerprinting, adfærdsanalyse, CAPTCHA-udfordringer og rate limiting
- Manglende formatkonsistens — Leverandørprofilers layout varierede betydeligt på tværs af kategorier og regioner, hvilket brød stive scraping-skabeloner
- IP-blokering — Højvolumenanmodninger fra enkelte IP'er udløste permanente blokeringer inden for få minutter
- Datamængde — Der var behov for mere end 50.000 leverandørprofiler på tværs af snesevis af kategorier med over 80 felter pr. post
- Datakvalitet — Udtagne data indeholdt dubletter, ufuldstændige poster og inkonsistente formater, der krævede validering
- Sessionshåndtering — Langvarige scraping-sessioner blev forringet over tid, da platformene opdagede automatiserede mønstre
Vores Løsning
Vi byggede en automatiseret B2B-platform til dataindsamling med flerlaget anti-detektion, VPN-baseret IP-rotation, simulering af menneskelig adfærd og struktureret dataeksport — i stand til pålideligt at indsamle titusindvis af leverandørposter.
Arkitektur
- Scraping Engine: Selenium med undetected ChromeDriver til browserautomatisering med omgåelse
- Anti-detektionslag: Randomisering af browser fingerprint, simulering af menneskelig adfærd og CAPTCHA-detektion
- IP Rotation: VPN manager med programmatisk serverskift på tværs af mere end 12 globale lokationer
- Databehandling: Pydantic-modeller til validering, pandas til transformation, eksport i flere formater
- Konfiguration: YAML-baserede indstillinger for kategorier, lande, rate limits og anti-detektionsparametre
- Logging & Overvågning: Struktureret logging med sporing af succes-/fejlrate pr. session
Anti-detektionsarkitektur
Omgåelse af browser fingerprint
Platformen genererer randomiserede browser fingerprints for hver session, der dækker:
- Skærmopløsning, farvedybde og enhedens pixelforhold
- Navigator-egenskaber (platform, sprog, hardware-samtidighed)
- WebGL-leverandør- og rendererinformation
- Injektion af støj i Canvas- og lyd-fingerprint
- Realistiske plugin- og fontlister, der matcher den spoofede platform
- Tidszonekonsistens på tværs af alle fingerprint-egenskaber
Simulering af menneskelig adfærd
For at efterligne naturlige browsingmønstre implementerer systemet:
- Musebevægelse — Bézier-kurvebaserede stier med realistisk acceleration og deceleration
- Tastatursimulering — Variable tastehastigheder med lejlighedsvise realistiske fejl
- Rullemønstre — Flere adfærdsformer (omhyggelig læsning, hurtig scanning, distraheret browsing)
- Kliktøven — Naturlige forsinkelser før interaktioner
- Sessionsudmattelse — Adfærdsændringer over lange sessioner for at efterligne menneskelig udmattelse
- Pauesimulering — Tilfældige pauser for udvidede sessioner
CAPTCHA-detektion og -gendannelse
- Multi-type detektion (reCAPTCHA, hCaptcha, Cloudflare-udfordringer, slider CAPTCHAs)
- Tillidsvurdering for hver detektion
- Gendannelsesstrategier, herunder IP rotation, sessionsnulstilling og forlængede forsinkelser
- Indsamling af beviser (screenshots og HTML) til debugging
IP Rotation System
VPN-håndtering
- Programmatisk VPN-forbindelseshåndtering på tværs af mere end 12 globale serverlokationer
- Automatisk kontrol af forbindelsens sundhed via IP-tjek
- Sortlistning af fejlbehæftede servere for at undgå problematiske lokationer
- Konfigurerbare rotationsintervaller (f.eks. hver N anmodninger)
- Anmodningstælling for automatiske rotationstriggere
- Problemfri rotation uden afbrydelse af aktive scraping-sessioner
Dataudtræk og -behandling
Udtagne datafelter (80+)
Platformen udtrækker omfattende leverandørinformation på tværs af flere kategorier:
- Grundlæggende info — Virksomhedsnavn, placering (land, provins, by), kategori
- Kontaktoplysninger — E-mail, telefon, WhatsApp, hjemmeside, messaging-håndtag
- Forretningsmålinger — Virksomhedstype, års i drift, årlig omsætning, antal ansatte, fabriksstørrelse, verifikationsstatus, svarprocent
- Produktinfo — Hovedprodukter, kategorier, MOQ, prisintervaller, leveringstider, betalingsbetingelser, tilpasningsmuligheder
- Certificeringer — Branchecertificeringer (ISO, kvalitet, bæredygtighed, sikkerhed)
- Handelsinfo — Eksportprocent, målmarkeder, handelsbetingelser, produktionskapacitet
Datavalidering og -kvalitet
- Pydantic-modeller håndhæver felttyper, formater og begrænsninger
- Validering af e-mail- og telefonnummerformat
- URL-normalisering og -verifikation
- Dubletdetektion på tværs af e-mail, telefon og virksomhedsnavn
- Minimum tærskel for datakomplethed (60%+ feltudfyldelse krævet)
- Klassificering og normalisering af virksomhedstype
Eksport og organisering
Data eksporteres i flere formater (CSV, Excel med formatering, JSON) og organiseres efter:
- Kategori — Separate datasæt pr. produktkategori
- Land — Separate datasæt pr. leverandørland
- Masterlister — Kombinerede datasæt med krydskategoride-duplikering
- Oversigtsrapporter — Statistik over udtrækningsrater, dækning og datakvalitet
Konfigurationssystem
Al adfærd styres via YAML-konfiguration, der dækker:
- Kategoridefinitioner med underkategorier og søgetermer
- Mållande og prioriterede regioner
- Rate limiting (anmodninger pr. minut, time og dag)
- Anti-detektionsindstillinger (rotationsintervaller, cookie-rydning, adfærdsflag)
- Krav til udtrækningsfelter (påkrævet vs. valgfrit)
- Eksportindstillinger (de-duplikering, validering, fuldstændighedstærskler)
Nøglefunktioner
- Flerlags anti-detektion — Fingerprint-omgåelse, adfærdssimulering og sessionshåndtering
- VPN-baseret IP-rotation — Mere end 12 globale lokationer med automatisk rotation og sundhedstjek
- 80+ datafelter — Omfattende leverandørprofiler med validerede, strukturerede data
- Simulering af menneskelig adfærd — Bézier musebaner, variabel indtastning, realistiske rullemønstre
- CAPTCHA-detektion og -gendannelse — Multitypedetektion med automatiserede gendannelsesstrategier
- Eksport i flere formater — CSV, Excel og JSON med kategori-/landsorganisering
- Datavalidering — Pydantic-håndhævede skemaer med dubletdetektion og fuldstændighedsscore
- Konfigurerbare kampagner — YAML-styret kategori-, land- og rate limit-konfiguration
- Sessionshåndtering — Træthedssimulering, cookie-rotation og pauseplanlægning
- Produktions shell-scripts — Forudkonfigurerede runnere til forskellige scraping-profiler
Resultater
Teknologistak
caseStudyDetail.more Casestudier
Udforsk flere af vores tekniske implementeringer
AI-drevet platform til scraping og generering af blogindhold
Et mediefirma havde brug for en intelligent indholdsplatform, der kunne automatisere oprettelsen af blogindhold ved at scrape eksisterende webindhold, analysere det ved hjælp af AI og generere originale, SEO-optimerede blogindlæg fra de udvundne data.
AI-drevet fakturabehandling med OCR og QuickBooks-integration
En mellemstor virksomhed, der månedligt behandler hundredvis af leverandørfakturaer, havde brug for at eliminere manuel dataindtastning ved automatisk at udtrække fakturadata ved hjælp af AI/OCR og synkronisere dem direkte til QuickBooks for bogføring og sporing af betalinger.
Ofte stillede spørgsmål
MicrocosmWorks implemented a multi-layered evasion system including residential proxy rotation across 50+ countries, browser fingerprint randomization using Playwright with stealth plugins, and human-like request pacing with randomized delays. The system maintains a detection rate below 2% across target sites by mimicking natural browsing patterns and rotating user agent strings.
MicrocosmWorks configured an intelligent proxy management layer that distributes requests across residential, datacenter, and mobile proxy pools based on each target site's detection sensitivity. The system tracks per-IP request counts and automatically retires IPs approaching rate limits, with a pool of over 10,000 rotating IPs ensuring continuous collection capacity.
MicrocosmWorks built a validation pipeline that verifies email deliverability, phone number format and carrier lookup, website availability, and address geocoding for every collected supplier record. Duplicate detection uses fuzzy matching on company name and address fields to prevent duplicate entries, and completeness scores flag records missing critical fields for re-scraping.
MicrocosmWorks implemented an automated structure monitoring system that compares page DOM structures against stored baselines on every crawl cycle. When structural changes are detected that break more than 10% of selectors, the system pauses collection for that source, alerts the operations team, and in many cases auto-repairs selectors using an LLM-based selector regeneration module.
MicrocosmWorks delivers web scraping platforms at rates of $20-$40/hr, with a full supplier data collection system including anti-detection measures, IP rotation, validation pipeline, and admin dashboard typically requiring 400-600 development hours. Ongoing proxy costs for large-scale operations typically run $500-$2,000/month depending on collection volume.
Klar til at Transformere Din Virksomhed?
Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.