Web ScrapingOffentliggjort June 22, 2026 · Opdateret June 22, 2026

Automatiseret B2B-platform til indsamling af leverandørdata med anti-detektion og IP-rotation

Et indkøbsteam skulle opbygge en omfattende leverandørdatabase på tværs af mere end 19 produktkategorier og 50 lande ved at indsamle strukturerede virksomhedsdata fra B2B markedspladsplatforme — i stor skala, pålideligt og uden at blive blokeret.

Diskuter Dit Projekt

Web Scraping

Domain

Technologies

Key Results

Delivered

Status

Udfordringen

Opbygning af en storstilet leverandørdatabase fra B2B-platforme præsenterede flere tekniske forhindringer:

Anti-Bot-detektion — Målplatformene anvendte sofistikeret bot-detektion, herunder browser fingerprinting, adfærdsanalyse, CAPTCHA-udfordringer og rate limiting
Manglende formatkonsistens — Leverandørprofilers layout varierede betydeligt på tværs af kategorier og regioner, hvilket brød stive scraping-skabeloner
IP-blokering — Højvolumenanmodninger fra enkelte IP'er udløste permanente blokeringer inden for få minutter
Datamængde — Der var behov for mere end 50.000 leverandørprofiler på tværs af snesevis af kategorier med over 80 felter pr. post
Datakvalitet — Udtagne data indeholdt dubletter, ufuldstændige poster og inkonsistente formater, der krævede validering
Sessionshåndtering — Langvarige scraping-sessioner blev forringet over tid, da platformene opdagede automatiserede mønstre

Vores Løsning

Vi byggede en automatiseret B2B-platform til dataindsamling med flerlaget anti-detektion, VPN-baseret IP-rotation, simulering af menneskelig adfærd og struktureret dataeksport — i stand til pålideligt at indsamle titusindvis af leverandørposter.

Arkitektur

Scraping Engine: Selenium med undetected ChromeDriver til browserautomatisering med omgåelse
Anti-detektionslag: Randomisering af browser fingerprint, simulering af menneskelig adfærd og CAPTCHA-detektion
IP Rotation: VPN manager med programmatisk serverskift på tværs af mere end 12 globale lokationer
Databehandling: Pydantic-modeller til validering, pandas til transformation, eksport i flere formater
Konfiguration: YAML-baserede indstillinger for kategorier, lande, rate limits og anti-detektionsparametre
Logging & Overvågning: Struktureret logging med sporing af succes-/fejlrate pr. session

Anti-detektionsarkitektur

Omgåelse af browser fingerprint

Platformen genererer randomiserede browser fingerprints for hver session, der dækker:

Skærmopløsning, farvedybde og enhedens pixelforhold
Navigator-egenskaber (platform, sprog, hardware-samtidighed)
WebGL-leverandør- og rendererinformation
Injektion af støj i Canvas- og lyd-fingerprint
Realistiske plugin- og fontlister, der matcher den spoofede platform
Tidszonekonsistens på tværs af alle fingerprint-egenskaber

Simulering af menneskelig adfærd

For at efterligne naturlige browsingmønstre implementerer systemet:

Musebevægelse — Bézier-kurvebaserede stier med realistisk acceleration og deceleration
Tastatursimulering — Variable tastehastigheder med lejlighedsvise realistiske fejl
Rullemønstre — Flere adfærdsformer (omhyggelig læsning, hurtig scanning, distraheret browsing)
Kliktøven — Naturlige forsinkelser før interaktioner
Sessionsudmattelse — Adfærdsændringer over lange sessioner for at efterligne menneskelig udmattelse
Pauesimulering — Tilfældige pauser for udvidede sessioner

CAPTCHA-detektion og -gendannelse

Multi-type detektion (reCAPTCHA, hCaptcha, Cloudflare-udfordringer, slider CAPTCHAs)
Tillidsvurdering for hver detektion
Gendannelsesstrategier, herunder IP rotation, sessionsnulstilling og forlængede forsinkelser
Indsamling af beviser (screenshots og HTML) til debugging

IP Rotation System

VPN-håndtering

Programmatisk VPN-forbindelseshåndtering på tværs af mere end 12 globale serverlokationer
Automatisk kontrol af forbindelsens sundhed via IP-tjek
Sortlistning af fejlbehæftede servere for at undgå problematiske lokationer
Konfigurerbare rotationsintervaller (f.eks. hver N anmodninger)
Anmodningstælling for automatiske rotationstriggere
Problemfri rotation uden afbrydelse af aktive scraping-sessioner

Dataudtræk og -behandling

Udtagne datafelter (80+)

Platformen udtrækker omfattende leverandørinformation på tværs af flere kategorier:

Grundlæggende info — Virksomhedsnavn, placering (land, provins, by), kategori
Kontaktoplysninger — E-mail, telefon, WhatsApp, hjemmeside, messaging-håndtag
Forretningsmålinger — Virksomhedstype, års i drift, årlig omsætning, antal ansatte, fabriksstørrelse, verifikationsstatus, svarprocent
Produktinfo — Hovedprodukter, kategorier, MOQ, prisintervaller, leveringstider, betalingsbetingelser, tilpasningsmuligheder
Certificeringer — Branchecertificeringer (ISO, kvalitet, bæredygtighed, sikkerhed)
Handelsinfo — Eksportprocent, målmarkeder, handelsbetingelser, produktionskapacitet

Datavalidering og -kvalitet

Pydantic-modeller håndhæver felttyper, formater og begrænsninger
Validering af e-mail- og telefonnummerformat
URL-normalisering og -verifikation
Dubletdetektion på tværs af e-mail, telefon og virksomhedsnavn
Minimum tærskel for datakomplethed (60%+ feltudfyldelse krævet)
Klassificering og normalisering af virksomhedstype

Eksport og organisering

Data eksporteres i flere formater (CSV, Excel med formatering, JSON) og organiseres efter:

Kategori — Separate datasæt pr. produktkategori
Land — Separate datasæt pr. leverandørland
Masterlister — Kombinerede datasæt med krydskategoride-duplikering
Oversigtsrapporter — Statistik over udtrækningsrater, dækning og datakvalitet

Konfigurationssystem

Al adfærd styres via YAML-konfiguration, der dækker:

Kategoridefinitioner med underkategorier og søgetermer
Mållande og prioriterede regioner
Rate limiting (anmodninger pr. minut, time og dag)
Anti-detektionsindstillinger (rotationsintervaller, cookie-rydning, adfærdsflag)
Krav til udtrækningsfelter (påkrævet vs. valgfrit)
Eksportindstillinger (de-duplikering, validering, fuldstændighedstærskler)

Nøglefunktioner

Flerlags anti-detektion — Fingerprint-omgåelse, adfærdssimulering og sessionshåndtering
VPN-baseret IP-rotation — Mere end 12 globale lokationer med automatisk rotation og sundhedstjek
80+ datafelter — Omfattende leverandørprofiler med validerede, strukturerede data
Simulering af menneskelig adfærd — Bézier musebaner, variabel indtastning, realistiske rullemønstre
CAPTCHA-detektion og -gendannelse — Multitypedetektion med automatiserede gendannelsesstrategier
Eksport i flere formater — CSV, Excel og JSON med kategori-/landsorganisering
Datavalidering — Pydantic-håndhævede skemaer med dubletdetektion og fuldstændighedsscore
Konfigurerbare kampagner — YAML-styret kategori-, land- og rate limit-konfiguration
Sessionshåndtering — Træthedssimulering, cookie-rotation og pauseplanlægning
Produktions shell-scripts — Forudkonfigurerede runnere til forskellige scraping-profiler

Resultater

Skala: Indsamlede mere end 50.000 leverandørposter på tværs af mere end 19 kategorier og 50 lande

Datakvalitet: Mere end 80 felter pr. leverandør med en fuldstændighedsgrad på 60%+

Undgåelse af detektion: 60-80% reduktion i CAPTCHA-forekomster sammenlignet med naiv scraping

Teknologistak

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Casestudier

Udforsk flere af vores tekniske implementeringer

Web Scraping

AI-drevet platform til scraping og generering af blogindhold

Et mediefirma havde brug for en intelligent indholdsplatform, der kunne automatisere oprettelsen af blogindhold ved at scrape eksisterende webindhold, analysere det ved hjælp af AI og generere originale, SEO-optimerede blogindlæg fra de udvundne data.

Læs Casestudie

AI Accounting

AI-drevet fakturabehandling med OCR og QuickBooks-integration

En mellemstor virksomhed, der månedligt behandler hundredvis af leverandørfakturaer, havde brug for at eliminere manuel dataindtastning ved automatisk at udtrække fakturadata ved hjælp af AI/OCR og synkronisere dem direkte til QuickBooks for bogføring og sporing af betalinger.

Læs Casestudie

Ofte stillede spørgsmål

MicrocosmWorks har implementeret et flerlags omgåelsessystem, inklusive rotation af residentielle proxyser på tværs af mere end 50 lande, randomisering af browser-fingeraftryk ved brug af Playwright med stealth-plugins og menneskelignende anmodningsrytme med randomiserede forsinkelser. Systemet opretholder en detektionsrate under 2% på tværs af målwebsteder ved at efterligne naturlige browsemønstre og rotere user agent-strenge.

MicrocosmWorks konfigurerede et intelligent proxy-administrationslag, der distribuerer anmodninger på tværs af residential, datacenter og mobile proxy-pools baseret på hvert målsteds detektionsfølsomhed. Systemet sporer antallet af anmodninger per-IP og trækker automatisk IP'er tilbage, der nærmer sig rate limits, med en pulje på over 10.000 roterende IP'er, der sikrer kontinuerlig indsamlingskapacitet.

MicrocosmWorks byggede en valideringspipeline, der verificerer e-mailleveringsevne, telefonnummerformat og operatøropslag, hjemmesidetilgængelighed og adressegeokodning for hver indsamlet leverandørpost. Duplikatdetektering bruger fuzzy matching på firmanavn og adressefelter for at forhindre duplikerede poster, og fuldstændighedsscore markerer poster, der mangler kritiske felter, til genskrabning.

MicrocosmWorks implementerede et automatiseret system til strukturovervågning, der sammenligner side-DOM-strukturer med lagrede baselines ved hver crawl-cyklus. Når strukturelle ændringer registreres, der bryder mere end 10% af selektorerne, stopper systemet indsamlingen for den kilde, advarer driftsteamet og autoreparerer i mange tilfælde selektorer ved hjælp af et LLM-baseret selektorregenereringsmodul.

MicrocosmWorks leverer web scraping platforme til priser på $20-$40/time, hvor et komplet system til indsamling af leverandørdata, inklusive anti-detektionsforanstaltninger, IP rotation, validerings-pipeline og et admin dashboard, typisk kræver 400-600 udviklingstimer. Løbende proxy-omkostninger for storskaladrift ligger typisk på $500-$2.000/måned afhængigt af indsamlingsvolumen.

Klar til at Transformere Din Virksomhed?

Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.

Kontakt Os caseStudyDetail.viewAllCaseStudies

Automatiseret B2B-platform til indsamling af leverandørdata med anti-detektion og IP-rotation

Udfordringen

Vores Løsning

Arkitektur

Anti-detektionsarkitektur

Omgåelse af browser fingerprint

Simulering af menneskelig adfærd

CAPTCHA-detektion og -gendannelse

IP Rotation System

VPN-håndtering

Dataudtræk og -behandling

Udtagne datafelter (80+)

Datavalidering og -kvalitet

Eksport og organisering

Konfigurationssystem

Nøglefunktioner

Resultater

Teknologistak

caseStudyDetail.more Casestudier

AI-drevet platform til scraping og generering af blogindhold

AI-drevet fakturabehandling med OCR og QuickBooks-integration

Ofte stillede spørgsmål

Klar til at Transformere Din Virksomhed?

Klient-side annonceindsættelse (CSAI) med SCTE-35-markørparsing og integration af afspillere på flere platforme