Web ScrapingOffentliggjort June 18, 2026 · Opdateret May 25, 2026

Automatiseret B2B-platform til dataindsamling om leverandører med anti-detektion og IP-rotation

Et sourcing-team havde brug for at opbygge en omfattende leverandørdatabase på tværs af mere end 19 produktkategorier og 50 lande ved at indsamle strukturerede forretningsdata fra B2B-markedspladsplatforme — i stor skala, pålideligt og uden at blive blokeret.

Diskuter Dit Projekt

Web Scraping

Domain

Technologies

Key Results

Delivered

Status

Udfordringen

Opbygning af en storstilet leverandørdatabase fra B2B-platforme præsenterede flere tekniske forhindringer:

Anti-Bot-detektion — Målplatformene anvendte sofistikeret bot-detektion, herunder browser-fingerprinting, adfærdsanalyse, CAPTCHA-udfordringer og hastighedsbegrænsning
Formatuoverensstemmelse — Leverandørprofilers layouts varierede betydeligt på tværs af kategorier og regioner, hvilket brød faste scraping-skabeloner
IP-blokering — Højt volumen af anmodninger fra enkelt-IP'er udløste permanente blokeringer inden for få minutter
Datavolumen — Over 50.000 leverandørprofiler nødvendige på tværs af snesevis af kategorier med mere end 80 felter pr. post
Datakvalitet — Udpakkede data indeholdt dubletter, ufuldstændige poster og inkonsistente formater, der krævede validering
Sessionsstyring — Langvarige scraping-sessioner blev forringet over tid, da platformene opdagede automatiserede mønstre

Vores Løsning

Vi byggede en automatiseret B2B-platform til dataindsamling med flerlags anti-detektion, VPN-baseret IP-rotation, simulering af menneskelig adfærd og struktureret dataeksport — i stand til pålideligt at indsamle titusinder af leverandørposter.

Arkitektur

Scraping-motor: Selenium med undetected ChromeDriver til browserautomatisering med omgåelse
Anti-detektionslag: Randomisering af browser-fingerprint, simulering af menneskelig adfærd og CAPTCHA-detektion
IP-rotation: VPN-manager med programmatisk serverskift på tværs af mere end 12 globale lokationer
Databehandling: Pydantic-modeller til validering, pandas til transformation, multiformat-eksport
Konfiguration: YAML-baserede indstillinger for kategorier, lande, hastighedsbegrænsninger og anti-detektionsparametre
Logging og overvågning: Struktureret logging med sporing af succes-/fejlrate pr. session

Anti-detektionsarkitektur

Browser-fingerprint-omgåelse

Platformen genererer randomiserede browser-fingerprints for hver session, dækkende:

Skærmopløsning, farvedybde og enhedspixel-forhold
Navigator-egenskaber (platform, sprog, hardware-konkurrence)
WebGL-leverandør- og renderer-information
Canvas og lyd-fingerprint støj-injektion
Realistiske plugin- og skrifttypelister, der matcher den spoofede platform
Tidszonekonsistens på tværs af alle fingerprint-egenskaber

Simulering af menneskelig adfærd

For at efterligne naturlige browsingmønstre implementerer systemet:

Musebevægelse — Bézier-kurvebaserede stier med realistisk acceleration og deceleration
Taste-simulering — Variabel tastehastighed med lejlighedsvise realistiske fejl
Rullemønstre — Flere adfærdsmæssige tilstande (omhyggelig læsning, hurtig scanning, distraheret browsing)
Klik-tøven — Naturlige forsinkelser før interaktioner
Sessionsudmattelse — Adfærdsændringer over lange sessioner for at efterligne menneskelig træthed
Pause-simulering — Tilfældige pauser for længerevarende sessioner

CAPTCHA-detektion og -genopretning

Multitype-detektion (reCAPTCHA, hCaptcha, Cloudflare challenges, slider CAPTCHAs)
Sikkerhedsscore for hver detektion
Genopretningsstrategier, herunder IP-rotation, sessionsnulstilling og længere forsinkelser
Indsamling af bevismateriale (skærmbilleder og HTML) til fejlfinding

IP-rotationssystem

VPN-styring

Programmatisk VPN-forbindelsesstyring på tværs af mere end 12 globale serverlokationer
Automatisk verifikation af forbindelsesstatus via IP-kontrol
Sortlistning af mislykkede servere for at undgå problematiske lokationer
Konfigurerbare rotationsintervaller (f.eks. hver N anmodning)
Anmodningstælling for automatiske rotationsudløsere
Problemfri rotation uden at afbryde aktive scraping-sessioner

Dataindsamling og -behandling

Udpakkede datafelter (80+)

Platformen udpakker omfattende leverandørinformation på tværs af flere kategorier:

Grundlæggende information — Firmanavn, lokation (land, provins, by), kategori
Kontaktoplysninger — E-mail, telefon, WhatsApp, hjemmeside, besked-håndtag
Forretningsmålinger — Virksomhedstype, driftsår, årlig omsætning, antal ansatte, fabriksstørrelse, verifikationsstatus, svarprocent
Produktinformation — Hovedprodukter, kategorier, MOQ, prisintervaller, leveringstider, betalingsbetingelser, tilpasningsmuligheder
Certificeringer — Branchecertificeringer (ISO, kvalitet, bæredygtighed, sikkerhed)
Handelsinformation — Eksportprocent, målmarkeder, handelsbetingelser, produktionskapacitet

Datavalidering og -kvalitet

Pydantic-modeller håndhæver felttyper, formater og begrænsninger
Validering af e-mail- og telefonnummerformat
URL-normalisering og -verifikation
Registrering af dubletter på tværs af e-mail, telefon og firmanavn
Minimumstærskel for datakomplethed (60 %+ feltdækning påkrævet)
Virksomhedstypeklassificering og -normalisering

Eksport og organisation

Data eksporteres i flere formater (CSV, Excel med formatering, JSON) og organiseres efter:

Kategori — Separate datasæt pr. produktkategori
Land — Separate datasæt pr. leverandørland
Masterlister — Kombinerede datasæt med kategorioverskridende dubletfjernelse
Samlede rapporter — Statistik over udtrækningsrater, dækning og datakvalitet

Konfigurationssystem

Al adfærd styres via YAML-konfiguration, der dækker:

Kategoridefinitioner med underkategorier og søgetermer
Mållande og prioriterede regioner
Hastighedsbegrænsning (anmodninger pr. minut, time og dag)
Anti-detektionsindstillinger (rotationsintervaller, sletning af cookies, adfærdsflag)
Krav til udtræksfelter (påkrævet vs. valgfrit)
Eksportindstillinger (dubletfjernelse, validering, fuldstændighedstærskler)

Nøglefunktioner

Flerlags anti-detektion — Fingerprint-omgåelse, adfærdssimulering og sessionsstyring
VPN-baseret IP-rotation — Mere end 12 globale lokationer med automatisk rotation og sundhedstjek
Over 80 datafelter — Omfattende leverandørprofiler med validerede, strukturerede data
Simulering af menneskelig adfærd — Bézier-musebevægelser, variabel tastehastighed, realistiske rullemønstre
CAPTCHA-detektion og -genopretning — Multitype-detektion med automatiserede genopretningsstrategier
Multiformat-eksport — CSV, Excel og JSON med kategori-/landorganisering
Datavalidering — Pydantic-håndhævede skemaer med dubletregistrering og fuldstændighedsscore
Konfigurerbare kampagner — YAML-drevet kategori-, land- og hastighedsbegrænsningskonfiguration
Sessionsstyring — Træthedssimulering, cookie-rotation og pauseplanlægning
Produktions-shell-scripts — Forudkonfigurerede 'runners' til forskellige scraping-profiler

Resultater

Skala: Indsamlede over 50.000 leverandørposter på tværs af mere end 19 kategorier og 50 lande

Datakvalitet: Over 80 felter pr. leverandør med en fuldstændighedsrate på 60 %+

Undgåelse af detektion: 60-80 % reduktion i CAPTCHA-møder sammenlignet med naiv scraping

Teknologistak

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Casestudier

Udforsk flere af vores tekniske implementeringer

Web Scraping

AI-drevet platform til scraping og generering af blogindhold

Et mediefirma havde brug for en intelligent indholdsplatform, der kunne automatisere oprettelsen af blogindhold ved at scrape eksisterende webindhold, analysere det ved hjælp af AI og generere originale, SEO-optimerede blogindlæg fra de udvundne data.

Læs Casestudie

AI Accounting

AI-drevet fakturabehandling med OCR og QuickBooks-integration

En mellemstor virksomhed, der månedligt behandler hundredvis af leverandørfakturaer, havde brug for at eliminere manuel dataindtastning ved automatisk at udtrække fakturadata ved hjælp af AI/OCR og synkronisere dem direkte til QuickBooks for bogføring og sporing af betalinger.

Læs Casestudie

Ofte stillede spørgsmål

MicrocosmWorks implementerede et flerlaget undvigelsessystem, der inkluderer rotation af residential proxies på tværs af 50+ lande, randomisering af browser fingerprint ved brug af Playwright med stealth plugins, og menneskelignende anmodningstempo med randomiserede forsinkelser. Systemet opretholder en detektionsrate under 2% på tværs af målwebsteder ved at efterligne naturlige browsingmønstre og rotere user agent strings.

MicrocosmWorks konfigurerede et intelligent proxy-styringslag, der distribuerer anmodninger på tværs af residential, datacenter og mobile proxy-pools baseret på hvert målwebsteds detektionsfølsomhed. Systemet sporer antal anmodninger per-IP og trækker automatisk IP'er, der nærmer sig rate limits, tilbage, med en pulje på over 10.000 roterende IP'er, der sikrer kontinuerlig indsamlingskapacitet.

MicrocosmWorks byggede en valideringspipeline, der verificerer email deliverability, telefonnummerformat og opslag af udbyder, webstedstilgængelighed og adresse geokodning for hver indsamlede leverandørpost. Duplikatdetektion bruger fuzzy matching på virksomhedsnavn og adressefelter for at forhindre dubletter, og fuldstændighedsscores markerer poster, der mangler kritiske felter, til gen-scraping.

MicrocosmWorks implementerede et automatiseret strukturmoniteringssystem, der sammenligner side DOM-strukturer mod lagrede baselines ved hver crawl-cyklus. Når strukturelle ændringer detekteres, der bryder mere end 10% af selectors, sætter systemet indsamlingen på pause for den kilde, alarmerer driftsteamet, og i mange tilfælde auto-reparerer selectors ved hjælp af et LLM-baseret selector-regenereringsmodul.

MicrocosmWorks leverer web scraping-platforme til priser på $20-$40/time, med et fuldt leverandørdataindsamlingssystem, der inkluderer anti-detektionsforanstaltninger, IP rotation, valideringspipeline og admin dashboard, hvilket typisk kræver 400-600 udviklingstimer. Løbende proxy-omkostninger for storstilede operationer ligger typisk på $500-$2.000/måned afhængigt af indsamlingsvolumen.

Klar til at Transformere Din Virksomhed?

Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.

Kontakt Os caseStudyDetail.viewAllCaseStudies

Automatiseret B2B-platform til dataindsamling om leverandører med anti-detektion og IP-rotation

Udfordringen

Vores Løsning

Arkitektur

Anti-detektionsarkitektur

Browser-fingerprint-omgåelse

Simulering af menneskelig adfærd

CAPTCHA-detektion og -genopretning

IP-rotationssystem

VPN-styring

Dataindsamling og -behandling

Udpakkede datafelter (80+)

Datavalidering og -kvalitet

Eksport og organisation

Konfigurationssystem

Nøglefunktioner

Resultater

Teknologistak

caseStudyDetail.more Casestudier

AI-drevet platform til scraping og generering af blogindhold

AI-drevet fakturabehandling med OCR og QuickBooks-integration

Ofte stillede spørgsmål

Klar til at Transformere Din Virksomhed?

Klient-side annonceindsættelse (CSAI) med SCTE-35-markørparsing og integration af afspillere på flere platforme