MicrocosmWorksInnovoimassa ja Arkkitehtuuria Digitaalisessa Kosmoksessa
TietoaYhteystiedot
MicrocosmWorksInnovoimassa ja suunnittelemassa digitaalista kosmosta

Toimitamme IT-ratkaisuja, joilla on merkitystä. Olemme intohimoisia teknologiasta, turvallisuudesta ja autamme yrityksiä kasvamaan luotettavan, innovatiivisen IT-infrastruktuurin kautta.

[email protected]
+91 7011868196
New Delhi, India

AI Kasvuhubi

AI HubStartup-innovaatiotYrityskiihdyttämö

Ratkaisut

Kaikki ratkaisutHyvinvointi- ja kuntoilusovelluksetAI-videoplatformiAI-agenttikehitys

Resurssit

OivalluksetToimialan oppaatKäyttötapausmallitArkkitehtuurimallitTapaustutkimukset

Yritys

Tietoa meistäYhteystiedotTyömme

Palvelut

Digitaalinen konsultointiPilvi-infrastruktuuriSaaS-kehitysAI-kehitysVideoteknologia
ERP-kehitysZoho-mukautusOdoo-kehitysSalesforce-integraatioMukautettu CRM-kehitys
QuickBooks-integraatioIoT-ratkaisutLohkoketjukehitys
KyberturvallisuuskonsultointiIT-tuki - L3

© 2026 MicrocosmWorks. Kaikki oikeudet pidätetään.

TietosuojakäytäntöKäyttöehdot
Takaisin Tapaustutkimuksiin
Web ScrapingJulkaistu June 22, 2026 · Päivitetty June 22, 2026

Automatisoitu B2B-toimittajatietojen keräysalusta havainnoinnin estolla ja IP-osoitteen kierrolla

Hankintatiimi tarvitsi rakentaa kattavan toimittajatietokannan yli 19 tuotekategoriasta ja 50+ maasta keräämällä jäsenneltyä yritysdataa B2B-markkinapaikka-alustoilta – laajamittaisesti, luotettavasti ja ilman estojen kohtaamista.

Keskustele Projektistasi
b2b-supplier-data-scraping.webp
Web Scraping
Domain
12
Technologies
6
Key Results
Delivered
Status

Haaste

Suuren mittakaavan toimittajatietokannan rakentaminen B2B-alustoilta esitti useita teknisiä esteitä:

  • Bottien tunnistuksen esto — Kohdealustat käyttivät kehittynyttä bottien tunnistusta, mukaan lukien selaimen sormenjälkien luonti, käyttäytymisanalyysi, CAPTCHA-haasteet ja nopeusrajoitukset
  • Muodon epäjohdonmukaisuus — Toimittajaprofiilien ulkoasut vaihtelivat merkittävästi eri kategorioiden ja alueiden välillä, rikkoen jäykkiä kaavintamalleja
  • IP-esto — Suuren volyymin pyynnöt yksittäisiltä IP-osoitteilta laukaisivat pysyviä estoja minuuteissa
  • Datan volyymi — Yli 50 000 toimittajaprofiilia tarvittiin kymmenistä kategorioista, yli 80 kenttää per tietue
  • Datan laatu — Poimittu data sisälsi kaksoiskappaleita, puutteellisia tietueita ja epäjohdonmukaisia formaatteja, jotka vaativat validoinnin
  • Istunnon hallinta — Pitkäkestoiset kaavintaistunnot heikentyivät ajan myötä, kun alustat havaitsivat automatisoituja kuvioita

Meidän Ratkaisumme

Rakensimme automatisoidun B2B-tiedonkeruualustan, jossa on monikerroksinen havainnoinnin esto, VPN-pohjainen IP-kierrätys, ihmisen käyttäytymisen simulointi ja jäsennelty datan vienti – kykenevä luotettavasti keräämään kymmeniä tuhansia toimittajatietueita.

Arkkitehtuuri

  • Kaavintamoottori: Selenium ja undetected ChromeDriver selaimen automaatioon estojen kiertämiseksi
  • Havainnoinnin estokerros: Selaimen sormenjälkien satunnaistaminen, ihmisen käyttäytymisen simulointi ja CAPTCHA-tunnistus
  • IP-kierto: VPN-hallintaohjelma, jossa ohjelmallinen palvelinvaihto yli 12 globaalin sijainnin välillä
  • Datan käsittely: Pydantic-mallit validointiin, pandas muunnokseen, monimuotoinen vienti
  • Konfiguraatio: YAML-pohjaiset asetukset kategorioille, maille, nopeusrajoituksille ja havainnoinnin estoparametreille
  • Lokitus ja valvonta: Jäsennelty lokitus onnistumis-/epäonnistumisasteen seurannalla istuntoa kohti

Havainnoinnin estoarkkitehtuuri

Selaimen sormenjälkien kiertäminen

Alusta generoi satunnaistettuja selaimen sormenjälkiä jokaiselle istunnolle, kattaen:

  • Näytön resoluutio, värisyvyys ja laitteen pikselisuhde
  • Navigator-ominaisuudet (alusta, kieli, laitteiston samanaikaisuus)
  • WebGL-toimittajan ja renderöijän tiedot
  • Canvas- ja äänisormenjälkien kohinan injektointi
  • Realistiset lisäosa- ja fonttilistat, jotka vastaavat väärennettyä alustaa
  • Aikavyöhykkeen yhtenäisyys kaikissa sormenjälkiominaisuuksissa

Ihmisen käyttäytymisen simulointi

Luonnollisten selaustapojen jäljittelemiseksi järjestelmä toteuttaa:

  • Hiiren liike — Bézier-käyräpohjaiset polut realistisella kiihdytyksellä ja hidastuksella
  • Kirjoituksen simulointi — Muuttuvat kirjoitusnopeudet satunnaisilla realistisilla virheillä
  • Vierityskuviot — Useita käyttäytymismuotoja (huolellinen lukeminen, nopea selaus, hajamielinen selaus)
  • Klikkausviive — Luonnolliset viiveet ennen vuorovaikutusta
  • Istunnon väsymys — Käyttäytymisen muutokset pitkien istuntojen aikana ihmisen väsymyksen jäljittelemiseksi
  • Tauon simulointi — Satunnaiset tauot pidennetyille istunnoille

CAPTCHA-tunnistus ja palautus

  • Monityyppinen tunnistus (reCAPTCHA, hCaptcha, Cloudflare-haasteet, liukusäädin-CAPTCHAt)
  • Luottamusarviointi jokaiselle tunnistukselle
  • Palautusstrategiat, mukaan lukien IP-kierto, istunnon nollaus ja pidennettyt viiveet
  • Todistusaineiston kerääminen (näyttökuvat ja HTML) virheenkorjausta varten

IP-kierrätysjärjestelmä

VPN-hallinta

  • Ohjelmallinen VPN-yhteyden hallinta yli 12 globaalin palvelinsijainnin välillä
  • Automaattinen yhteyden terveyden tarkistus IP-tarkistusten avulla
  • Epäonnistuneiden palvelimien mustalle listalle asettaminen ongelmallisten sijaintien välttämiseksi
  • Konfiguroitavat kiertointervallit (esim. N pyynnön välein)
  • Pyynnön laskenta automaattisille kierron laukaisijoille
  • Saumaton kierto keskeyttämättä aktiivisia kaavintaistuntoja

Datan poiminta ja käsittely

Poimitut datakentät (80+)

Alusta poimii kattavat toimittajatiedot useista kategorioista:

  • Perustiedot — Yrityksen nimi, sijainti (maa, provinssi, kaupunki), kategoria
  • Yhteystiedot — Sähköposti, puhelin, WhatsApp, verkkosivusto, viestintäkahvat
  • Liiketoiminnan mittarit — Yritystyyppi, toimintavuodet, vuotuinen liikevaihto, työntekijämäärä, tehtaan koko, varmennustila, vastausprosentti
  • Tuotetiedot — Päätuotteet, kategoriat, MOQ, hintaluokat, toimitusajat, maksuehdot, räätälöintivaihtoehdot
  • Sertifikaatit — Alan sertifikaatit (ISO, laatu, kestävyys, turvallisuus)
  • Kauppatiedot — Vientiosuus, kohdemarkkinat, kauppaehdot, tuotantokapasiteetti

Datan validointi ja laatu

  • Pydantic-mallit pakottavat kenttätyypit, muodot ja rajoitukset
  • Sähköpostin ja puhelinnumeron muodon validointi
  • URL-osoitteen normalisointi ja varmennus
  • Kaksoiskappaleiden tunnistus sähköpostin, puhelimen ja yrityksen nimen perusteella
  • Tietojen vähimmäistäydellisyyden kynnys (yli 60 % kenttien kattavuus vaaditaan)
  • Yritystyypin luokittelu ja normalisointi

Vienti ja organisointi

Data viedään useissa formaateissa (CSV, Excel muotoilulla, JSON) ja järjestellään:

  • Kategoria — Erilliset tietokokonaisuudet tuotekategorian mukaan
  • Maa — Erilliset tietokokonaisuudet toimittajamaan mukaan
  • Päälistat — Yhdistetyt tietokokonaisuudet kategoriakohtaisella kaksoiskappaleiden poistolla
  • Yhteenvetoraportit — Tilastot poimintamääristä, kattavuudesta ja datan laadusta

Konfiguraatiojärjestelmä

Kaikkea käyttäytymistä ohjataan YAML-konfiguraation avulla, joka kattaa:

  • Kategoriat määriteltyinä alikategorioineen ja hakusanoineen
  • Kohdemaat ja prioriteettialueet
  • Nopeusrajoitukset (pyynnöt minuutissa, tunnissa ja päivässä)
  • Havainnoinnin estoasetukset (kiertointervallit, evästeiden tyhjennys, käyttäytymismerkinnät)
  • Poimintakenttien vaatimukset (pakollinen vs. valinnainen)
  • Vientiasetukset (kaksoiskappaleiden poisto, validointi, täydellisyyden kynnysarvot)

Pääominaisuudet

  1. Monikerroksinen havainnoinnin esto — Sormenjälkien kiertäminen, käyttäytymisen simulointi ja istunnon hallinta
  2. VPN-pohjainen IP-kierto — Yli 12 globaalia sijaintia automaattisella kierrolla ja terveystarkistuksilla
  3. Yli 80 datakenttää — Kattavat toimittajaprofiilit validoidulla, jäsennellyllä datalla
  4. Ihmisen käyttäytymisen simulointi — Bézier-hiiripolut, vaihteleva kirjoitusnopeus, realistiset vierityskuviot
  5. CAPTCHA-tunnistus ja palautus — Monityyppinen tunnistus automatisoiduilla palautusstrategioilla
  6. Monimuotoinen vienti — CSV, Excel ja JSON kategoria-/maakohtaisella organisoinnilla
  7. Datan validointi — Pydanticin pakottamat skeemat kaksoiskappaleiden tunnistuksella ja täydellisyyden pisteytyksellä
  8. Konfiguroitavat kampanjat — YAML-pohjainen kategorian, maan ja nopeusrajoituksen konfiguraatio
  9. Istunnon hallinta — Väsymyksen simulointi, evästeiden kierto ja taukojen aikataulutus
  10. Tuotantokuoriskriptit — Esikonfiguroidut ajurit eri kaavintaprofiileille

Tulokset

Mittakaava: Kerätty yli 50 000 toimittajatietuetta yli 19 kategoriasta ja 50+ maasta
Datan laatu: Yli 80 kenttää per toimittaja, yli 60 %:n täydellisyysasteella
Havainnoinnin välttäminen: 60-80 % vähennys CAPTCHA-kohtaamisissa verrattuna naiiviin kaavintaan

Teknologiapino

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Tapaustutkimukset

Tutustu lisää teknisiin toteutuksiimme

Web Scraping

Tekoälykäyttöinen blogisisällön kaavinta- ja generointialusta

Mediakonserni tarvitsi älykkään sisältöalustan, joka voisi automatisoida blogisisällön luomisen kaapimalla olemassa olevaa verkkosisältöä, analysoimalla sitä AI:lla ja luomalla alkuperäisiä, SEO-optimoituja blogikirjoituksia poimitusta tiedosta.

Lue Tapaustutkimus
AI Accounting

AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla

Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.

Lue Tapaustutkimus

Usein kysytyt kysymykset

MicrocosmWorks implemented a multi-layered evasion system including residential proxy rotation across 50+ countries, browser fingerprint randomization using Playwright with stealth plugins, and human-like request pacing with randomized delays. The system maintains a detection rate below 2% across target sites by mimicking natural browsing patterns and rotating user agent strings.

MicrocosmWorks configured an intelligent proxy management layer that distributes requests across residential, datacenter, and mobile proxy pools based on each target site's detection sensitivity. The system tracks per-IP request counts and automatically retires IPs approaching rate limits, with a pool of over 10,000 rotating IPs ensuring continuous collection capacity.

MicrocosmWorks built a validation pipeline that verifies email deliverability, phone number format and carrier lookup, website availability, and address geocoding for every collected supplier record. Duplicate detection uses fuzzy matching on company name and address fields to prevent duplicate entries, and completeness scores flag records missing critical fields for re-scraping.

MicrocosmWorks implemented an automated structure monitoring system that compares page DOM structures against stored baselines on every crawl cycle. When structural changes are detected that break more than 10% of selectors, the system pauses collection for that source, alerts the operations team, and in many cases auto-repairs selectors using an LLM-based selector regeneration module.

MicrocosmWorks delivers web scraping platforms at rates of $20-$40/hr, with a full supplier data collection system including anti-detection measures, IP rotation, validation pipeline, and admin dashboard typically requiring 400-600 development hours. Ongoing proxy costs for large-scale operations typically run $500-$2,000/month depending on collection volume.

Valmis Muuttamaan Liiketoimintaasi?

Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.

Ota YhteyttäcaseStudyDetail.viewAllCaseStudies
Yhteydenottoaste: 70-80 % sähköpostien ja 80-90 % puhelimien saatavuus tietueista
Kaksoiskappaleiden määrä: < 5 % kaksoiskappaleiden poiston jälkeen
Vienti: Järjestellyt tietokokonaisuudet kategorioittain ja maittain master-aggregointi mukaan lukien
Video Encoding

Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla

Videoiden suoratoistoalustan piti toteuttaa Client-Side Ad Insertion (CSAI) verkko-, mobiili- ja Connected TV -sovellusten yli — mahdollistaen personoidut, laitekohtaiset mainoskokemukset täydellä mainosinteraktion tuella (klikkaavat peittokuvat, kumppanibannerit, ohituspainikkeet), joita server-side insertion ei voi tarjota.

Lue Tapaustutkimus