MicrocosmWorksInnovere og Arkitektere Digitale Kosmos
OmKontakt
MicrocosmWorksInnoverer og arkitekterer digitale kosmos

Leverer IT-løsninger, der betyder noget. Vi brænder for teknologi, sikkerhed og at hjælpe virksomheder med at vokse gennem pålidelig, innovativ IT-infrastruktur.

[email protected]
+91 7011868196
New Delhi, India

AI Væksthub

AI HubStartup-innovationVirksomhedsaccelerator

Løsninger

Alle løsningerSundhed & Fitness AppsAI VideoplatformAI Agentudvikling

Ressourcer

IndsigterIndustri GuiderBrugssag BlueprintsArkitektur MønstreCase Studier

Virksomhed

Om OsKontaktVores Arbejde

Tjenester

Digital RådgivningCloud InfrastrukturSaaS UdviklingAI UdviklingVideo Teknologi
ERP UdviklingZoho TilpasningOdoo UdviklingSalesforce IntegrationTilpasset CRM Udvikling
QuickBooks IntegrationIoT LøsningerBlockchain Udvikling
Cybersikkerhed RådgivningIT-support - L3

© 2026 MicrocosmWorks. Alle rettigheder forbeholdes.

PrivatlivspolitikServicevilkår
Tilbage til Casestudier
Web ScrapingOffentliggjort June 22, 2026 · Opdateret June 22, 2026

Automatiseret B2B-platform til indsamling af leverandørdata med anti-detektion og IP-rotation

Et indkøbsteam skulle opbygge en omfattende leverandørdatabase på tværs af mere end 19 produktkategorier og 50 lande ved at indsamle strukturerede virksomhedsdata fra B2B markedspladsplatforme — i stor skala, pålideligt og uden at blive blokeret.

Diskuter Dit Projekt
b2b-supplier-data-scraping.webp
Web Scraping
Domain
12
Technologies
6
Key Results
Delivered
Status

Udfordringen

Opbygning af en storstilet leverandørdatabase fra B2B-platforme præsenterede flere tekniske forhindringer:

  • Anti-Bot-detektion — Målplatformene anvendte sofistikeret bot-detektion, herunder browser fingerprinting, adfærdsanalyse, CAPTCHA-udfordringer og rate limiting
  • Manglende formatkonsistens — Leverandørprofilers layout varierede betydeligt på tværs af kategorier og regioner, hvilket brød stive scraping-skabeloner
  • IP-blokering — Højvolumenanmodninger fra enkelte IP'er udløste permanente blokeringer inden for få minutter
  • Datamængde — Der var behov for mere end 50.000 leverandørprofiler på tværs af snesevis af kategorier med over 80 felter pr. post
  • Datakvalitet — Udtagne data indeholdt dubletter, ufuldstændige poster og inkonsistente formater, der krævede validering
  • Sessionshåndtering — Langvarige scraping-sessioner blev forringet over tid, da platformene opdagede automatiserede mønstre

Vores Løsning

Vi byggede en automatiseret B2B-platform til dataindsamling med flerlaget anti-detektion, VPN-baseret IP-rotation, simulering af menneskelig adfærd og struktureret dataeksport — i stand til pålideligt at indsamle titusindvis af leverandørposter.

Arkitektur

  • Scraping Engine: Selenium med undetected ChromeDriver til browserautomatisering med omgåelse
  • Anti-detektionslag: Randomisering af browser fingerprint, simulering af menneskelig adfærd og CAPTCHA-detektion
  • IP Rotation: VPN manager med programmatisk serverskift på tværs af mere end 12 globale lokationer
  • Databehandling: Pydantic-modeller til validering, pandas til transformation, eksport i flere formater
  • Konfiguration: YAML-baserede indstillinger for kategorier, lande, rate limits og anti-detektionsparametre
  • Logging & Overvågning: Struktureret logging med sporing af succes-/fejlrate pr. session

Anti-detektionsarkitektur

Omgåelse af browser fingerprint

Platformen genererer randomiserede browser fingerprints for hver session, der dækker:

  • Skærmopløsning, farvedybde og enhedens pixelforhold
  • Navigator-egenskaber (platform, sprog, hardware-samtidighed)
  • WebGL-leverandør- og rendererinformation
  • Injektion af støj i Canvas- og lyd-fingerprint
  • Realistiske plugin- og fontlister, der matcher den spoofede platform
  • Tidszonekonsistens på tværs af alle fingerprint-egenskaber

Simulering af menneskelig adfærd

For at efterligne naturlige browsingmønstre implementerer systemet:

  • Musebevægelse — Bézier-kurvebaserede stier med realistisk acceleration og deceleration
  • Tastatursimulering — Variable tastehastigheder med lejlighedsvise realistiske fejl
  • Rullemønstre — Flere adfærdsformer (omhyggelig læsning, hurtig scanning, distraheret browsing)
  • Kliktøven — Naturlige forsinkelser før interaktioner
  • Sessionsudmattelse — Adfærdsændringer over lange sessioner for at efterligne menneskelig udmattelse
  • Pauesimulering — Tilfældige pauser for udvidede sessioner

CAPTCHA-detektion og -gendannelse

  • Multi-type detektion (reCAPTCHA, hCaptcha, Cloudflare-udfordringer, slider CAPTCHAs)
  • Tillidsvurdering for hver detektion
  • Gendannelsesstrategier, herunder IP rotation, sessionsnulstilling og forlængede forsinkelser
  • Indsamling af beviser (screenshots og HTML) til debugging

IP Rotation System

VPN-håndtering

  • Programmatisk VPN-forbindelseshåndtering på tværs af mere end 12 globale serverlokationer
  • Automatisk kontrol af forbindelsens sundhed via IP-tjek
  • Sortlistning af fejlbehæftede servere for at undgå problematiske lokationer
  • Konfigurerbare rotationsintervaller (f.eks. hver N anmodninger)
  • Anmodningstælling for automatiske rotationstriggere
  • Problemfri rotation uden afbrydelse af aktive scraping-sessioner

Dataudtræk og -behandling

Udtagne datafelter (80+)

Platformen udtrækker omfattende leverandørinformation på tværs af flere kategorier:

  • Grundlæggende info — Virksomhedsnavn, placering (land, provins, by), kategori
  • Kontaktoplysninger — E-mail, telefon, WhatsApp, hjemmeside, messaging-håndtag
  • Forretningsmålinger — Virksomhedstype, års i drift, årlig omsætning, antal ansatte, fabriksstørrelse, verifikationsstatus, svarprocent
  • Produktinfo — Hovedprodukter, kategorier, MOQ, prisintervaller, leveringstider, betalingsbetingelser, tilpasningsmuligheder
  • Certificeringer — Branchecertificeringer (ISO, kvalitet, bæredygtighed, sikkerhed)
  • Handelsinfo — Eksportprocent, målmarkeder, handelsbetingelser, produktionskapacitet

Datavalidering og -kvalitet

  • Pydantic-modeller håndhæver felttyper, formater og begrænsninger
  • Validering af e-mail- og telefonnummerformat
  • URL-normalisering og -verifikation
  • Dubletdetektion på tværs af e-mail, telefon og virksomhedsnavn
  • Minimum tærskel for datakomplethed (60%+ feltudfyldelse krævet)
  • Klassificering og normalisering af virksomhedstype

Eksport og organisering

Data eksporteres i flere formater (CSV, Excel med formatering, JSON) og organiseres efter:

  • Kategori — Separate datasæt pr. produktkategori
  • Land — Separate datasæt pr. leverandørland
  • Masterlister — Kombinerede datasæt med krydskategoride-duplikering
  • Oversigtsrapporter — Statistik over udtrækningsrater, dækning og datakvalitet

Konfigurationssystem

Al adfærd styres via YAML-konfiguration, der dækker:

  • Kategoridefinitioner med underkategorier og søgetermer
  • Mållande og prioriterede regioner
  • Rate limiting (anmodninger pr. minut, time og dag)
  • Anti-detektionsindstillinger (rotationsintervaller, cookie-rydning, adfærdsflag)
  • Krav til udtrækningsfelter (påkrævet vs. valgfrit)
  • Eksportindstillinger (de-duplikering, validering, fuldstændighedstærskler)

Nøglefunktioner

  1. Flerlags anti-detektion — Fingerprint-omgåelse, adfærdssimulering og sessionshåndtering
  2. VPN-baseret IP-rotation — Mere end 12 globale lokationer med automatisk rotation og sundhedstjek
  3. 80+ datafelter — Omfattende leverandørprofiler med validerede, strukturerede data
  4. Simulering af menneskelig adfærd — Bézier musebaner, variabel indtastning, realistiske rullemønstre
  5. CAPTCHA-detektion og -gendannelse — Multitypedetektion med automatiserede gendannelsesstrategier
  6. Eksport i flere formater — CSV, Excel og JSON med kategori-/landsorganisering
  7. Datavalidering — Pydantic-håndhævede skemaer med dubletdetektion og fuldstændighedsscore
  8. Konfigurerbare kampagner — YAML-styret kategori-, land- og rate limit-konfiguration
  9. Sessionshåndtering — Træthedssimulering, cookie-rotation og pauseplanlægning
  10. Produktions shell-scripts — Forudkonfigurerede runnere til forskellige scraping-profiler

Resultater

Skala: Indsamlede mere end 50.000 leverandørposter på tværs af mere end 19 kategorier og 50 lande
Datakvalitet: Mere end 80 felter pr. leverandør med en fuldstændighedsgrad på 60%+
Undgåelse af detektion: 60-80% reduktion i CAPTCHA-forekomster sammenlignet med naiv scraping

Teknologistak

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Casestudier

Udforsk flere af vores tekniske implementeringer

Web Scraping

AI-drevet platform til scraping og generering af blogindhold

Et mediefirma havde brug for en intelligent indholdsplatform, der kunne automatisere oprettelsen af blogindhold ved at scrape eksisterende webindhold, analysere det ved hjælp af AI og generere originale, SEO-optimerede blogindlæg fra de udvundne data.

Læs Casestudie
AI Accounting

AI-drevet fakturabehandling med OCR og QuickBooks-integration

En mellemstor virksomhed, der månedligt behandler hundredvis af leverandørfakturaer, havde brug for at eliminere manuel dataindtastning ved automatisk at udtrække fakturadata ved hjælp af AI/OCR og synkronisere dem direkte til QuickBooks for bogføring og sporing af betalinger.

Læs Casestudie

Ofte stillede spørgsmål

MicrocosmWorks implemented a multi-layered evasion system including residential proxy rotation across 50+ countries, browser fingerprint randomization using Playwright with stealth plugins, and human-like request pacing with randomized delays. The system maintains a detection rate below 2% across target sites by mimicking natural browsing patterns and rotating user agent strings.

MicrocosmWorks configured an intelligent proxy management layer that distributes requests across residential, datacenter, and mobile proxy pools based on each target site's detection sensitivity. The system tracks per-IP request counts and automatically retires IPs approaching rate limits, with a pool of over 10,000 rotating IPs ensuring continuous collection capacity.

MicrocosmWorks built a validation pipeline that verifies email deliverability, phone number format and carrier lookup, website availability, and address geocoding for every collected supplier record. Duplicate detection uses fuzzy matching on company name and address fields to prevent duplicate entries, and completeness scores flag records missing critical fields for re-scraping.

MicrocosmWorks implemented an automated structure monitoring system that compares page DOM structures against stored baselines on every crawl cycle. When structural changes are detected that break more than 10% of selectors, the system pauses collection for that source, alerts the operations team, and in many cases auto-repairs selectors using an LLM-based selector regeneration module.

MicrocosmWorks delivers web scraping platforms at rates of $20-$40/hr, with a full supplier data collection system including anti-detection measures, IP rotation, validation pipeline, and admin dashboard typically requiring 400-600 development hours. Ongoing proxy costs for large-scale operations typically run $500-$2,000/month depending on collection volume.

Klar til at Transformere Din Virksomhed?

Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.

Kontakt OscaseStudyDetail.viewAllCaseStudies
Kontaktprocent: 70-80% e-mailtilgængelighed, 80-90% telefontilgængelighed på tværs af poster
Dubletrate: < 5% efter de-duplikeringsbehandling
Eksport: Organiserede datasæt efter kategori og land med masteraggregering
Video Encoding

Klient-side annonceindsættelse (CSAI) med SCTE-35-markørparsing og integration af afspillere på flere platforme

En videostreamingplatform skulle implementere klient-side annonceindsættelse (CSAI) på tværs af web-, mobil- og connected TV-apps – hvilket muliggjorde personaliserede annonceringer på enhedsniveau med fuld support for annonceinteraktion (klikbare overlays, følgebannere, skip-knapper), som server-side indsættelse ikke kan tilbyde.

Læs Casestudie