Automatisoitu B2B-toimittajatietojen keräysalusta havainnoinnin estolla ja IP-osoitteen kierrolla
Hankintatiimi tarvitsi rakentaa kattavan toimittajatietokannan yli 19 tuotekategoriasta ja 50+ maasta keräämällä jäsenneltyä yritysdataa B2B-markkinapaikka-alustoilta – laajamittaisesti, luotettavasti ja ilman estojen kohtaamista.
Keskustele Projektistasi
Haaste
Suuren mittakaavan toimittajatietokannan rakentaminen B2B-alustoilta esitti useita teknisiä esteitä:
- Bottien tunnistuksen esto — Kohdealustat käyttivät kehittynyttä bottien tunnistusta, mukaan lukien selaimen sormenjälkien luonti, käyttäytymisanalyysi, CAPTCHA-haasteet ja nopeusrajoitukset
- Muodon epäjohdonmukaisuus — Toimittajaprofiilien ulkoasut vaihtelivat merkittävästi eri kategorioiden ja alueiden välillä, rikkoen jäykkiä kaavintamalleja
- IP-esto — Suuren volyymin pyynnöt yksittäisiltä IP-osoitteilta laukaisivat pysyviä estoja minuuteissa
- Datan volyymi — Yli 50 000 toimittajaprofiilia tarvittiin kymmenistä kategorioista, yli 80 kenttää per tietue
- Datan laatu — Poimittu data sisälsi kaksoiskappaleita, puutteellisia tietueita ja epäjohdonmukaisia formaatteja, jotka vaativat validoinnin
- Istunnon hallinta — Pitkäkestoiset kaavintaistunnot heikentyivät ajan myötä, kun alustat havaitsivat automatisoituja kuvioita
Meidän Ratkaisumme
Rakensimme automatisoidun B2B-tiedonkeruualustan, jossa on monikerroksinen havainnoinnin esto, VPN-pohjainen IP-kierrätys, ihmisen käyttäytymisen simulointi ja jäsennelty datan vienti – kykenevä luotettavasti keräämään kymmeniä tuhansia toimittajatietueita.
Arkkitehtuuri
- Kaavintamoottori: Selenium ja undetected ChromeDriver selaimen automaatioon estojen kiertämiseksi
- Havainnoinnin estokerros: Selaimen sormenjälkien satunnaistaminen, ihmisen käyttäytymisen simulointi ja CAPTCHA-tunnistus
- IP-kierto: VPN-hallintaohjelma, jossa ohjelmallinen palvelinvaihto yli 12 globaalin sijainnin välillä
- Datan käsittely: Pydantic-mallit validointiin, pandas muunnokseen, monimuotoinen vienti
- Konfiguraatio: YAML-pohjaiset asetukset kategorioille, maille, nopeusrajoituksille ja havainnoinnin estoparametreille
- Lokitus ja valvonta: Jäsennelty lokitus onnistumis-/epäonnistumisasteen seurannalla istuntoa kohti
Havainnoinnin estoarkkitehtuuri
Selaimen sormenjälkien kiertäminen
Alusta generoi satunnaistettuja selaimen sormenjälkiä jokaiselle istunnolle, kattaen:
- Näytön resoluutio, värisyvyys ja laitteen pikselisuhde
- Navigator-ominaisuudet (alusta, kieli, laitteiston samanaikaisuus)
- WebGL-toimittajan ja renderöijän tiedot
- Canvas- ja äänisormenjälkien kohinan injektointi
- Realistiset lisäosa- ja fonttilistat, jotka vastaavat väärennettyä alustaa
- Aikavyöhykkeen yhtenäisyys kaikissa sormenjälkiominaisuuksissa
Ihmisen käyttäytymisen simulointi
Luonnollisten selaustapojen jäljittelemiseksi järjestelmä toteuttaa:
- Hiiren liike — Bézier-käyräpohjaiset polut realistisella kiihdytyksellä ja hidastuksella
- Kirjoituksen simulointi — Muuttuvat kirjoitusnopeudet satunnaisilla realistisilla virheillä
- Vierityskuviot — Useita käyttäytymismuotoja (huolellinen lukeminen, nopea selaus, hajamielinen selaus)
- Klikkausviive — Luonnolliset viiveet ennen vuorovaikutusta
- Istunnon väsymys — Käyttäytymisen muutokset pitkien istuntojen aikana ihmisen väsymyksen jäljittelemiseksi
- Tauon simulointi — Satunnaiset tauot pidennetyille istunnoille
CAPTCHA-tunnistus ja palautus
- Monityyppinen tunnistus (reCAPTCHA, hCaptcha, Cloudflare-haasteet, liukusäädin-CAPTCHAt)
- Luottamusarviointi jokaiselle tunnistukselle
- Palautusstrategiat, mukaan lukien IP-kierto, istunnon nollaus ja pidennettyt viiveet
- Todistusaineiston kerääminen (näyttökuvat ja HTML) virheenkorjausta varten
IP-kierrätysjärjestelmä
VPN-hallinta
- Ohjelmallinen VPN-yhteyden hallinta yli 12 globaalin palvelinsijainnin välillä
- Automaattinen yhteyden terveyden tarkistus IP-tarkistusten avulla
- Epäonnistuneiden palvelimien mustalle listalle asettaminen ongelmallisten sijaintien välttämiseksi
- Konfiguroitavat kiertointervallit (esim. N pyynnön välein)
- Pyynnön laskenta automaattisille kierron laukaisijoille
- Saumaton kierto keskeyttämättä aktiivisia kaavintaistuntoja
Datan poiminta ja käsittely
Poimitut datakentät (80+)
Alusta poimii kattavat toimittajatiedot useista kategorioista:
- Perustiedot — Yrityksen nimi, sijainti (maa, provinssi, kaupunki), kategoria
- Yhteystiedot — Sähköposti, puhelin, WhatsApp, verkkosivusto, viestintäkahvat
- Liiketoiminnan mittarit — Yritystyyppi, toimintavuodet, vuotuinen liikevaihto, työntekijämäärä, tehtaan koko, varmennustila, vastausprosentti
- Tuotetiedot — Päätuotteet, kategoriat, MOQ, hintaluokat, toimitusajat, maksuehdot, räätälöintivaihtoehdot
- Sertifikaatit — Alan sertifikaatit (ISO, laatu, kestävyys, turvallisuus)
- Kauppatiedot — Vientiosuus, kohdemarkkinat, kauppaehdot, tuotantokapasiteetti
Datan validointi ja laatu
- Pydantic-mallit pakottavat kenttätyypit, muodot ja rajoitukset
- Sähköpostin ja puhelinnumeron muodon validointi
- URL-osoitteen normalisointi ja varmennus
- Kaksoiskappaleiden tunnistus sähköpostin, puhelimen ja yrityksen nimen perusteella
- Tietojen vähimmäistäydellisyyden kynnys (yli 60 % kenttien kattavuus vaaditaan)
- Yritystyypin luokittelu ja normalisointi
Vienti ja organisointi
Data viedään useissa formaateissa (CSV, Excel muotoilulla, JSON) ja järjestellään:
- Kategoria — Erilliset tietokokonaisuudet tuotekategorian mukaan
- Maa — Erilliset tietokokonaisuudet toimittajamaan mukaan
- Päälistat — Yhdistetyt tietokokonaisuudet kategoriakohtaisella kaksoiskappaleiden poistolla
- Yhteenvetoraportit — Tilastot poimintamääristä, kattavuudesta ja datan laadusta
Konfiguraatiojärjestelmä
Kaikkea käyttäytymistä ohjataan YAML-konfiguraation avulla, joka kattaa:
- Kategoriat määriteltyinä alikategorioineen ja hakusanoineen
- Kohdemaat ja prioriteettialueet
- Nopeusrajoitukset (pyynnöt minuutissa, tunnissa ja päivässä)
- Havainnoinnin estoasetukset (kiertointervallit, evästeiden tyhjennys, käyttäytymismerkinnät)
- Poimintakenttien vaatimukset (pakollinen vs. valinnainen)
- Vientiasetukset (kaksoiskappaleiden poisto, validointi, täydellisyyden kynnysarvot)
Pääominaisuudet
- Monikerroksinen havainnoinnin esto — Sormenjälkien kiertäminen, käyttäytymisen simulointi ja istunnon hallinta
- VPN-pohjainen IP-kierto — Yli 12 globaalia sijaintia automaattisella kierrolla ja terveystarkistuksilla
- Yli 80 datakenttää — Kattavat toimittajaprofiilit validoidulla, jäsennellyllä datalla
- Ihmisen käyttäytymisen simulointi — Bézier-hiiripolut, vaihteleva kirjoitusnopeus, realistiset vierityskuviot
- CAPTCHA-tunnistus ja palautus — Monityyppinen tunnistus automatisoiduilla palautusstrategioilla
- Monimuotoinen vienti — CSV, Excel ja JSON kategoria-/maakohtaisella organisoinnilla
- Datan validointi — Pydanticin pakottamat skeemat kaksoiskappaleiden tunnistuksella ja täydellisyyden pisteytyksellä
- Konfiguroitavat kampanjat — YAML-pohjainen kategorian, maan ja nopeusrajoituksen konfiguraatio
- Istunnon hallinta — Väsymyksen simulointi, evästeiden kierto ja taukojen aikataulutus
- Tuotantokuoriskriptit — Esikonfiguroidut ajurit eri kaavintaprofiileille
Tulokset
Teknologiapino
caseStudyDetail.more Tapaustutkimukset
Tutustu lisää teknisiin toteutuksiimme
Tekoälykäyttöinen blogisisällön kaavinta- ja generointialusta
Mediakonserni tarvitsi älykkään sisältöalustan, joka voisi automatisoida blogisisällön luomisen kaapimalla olemassa olevaa verkkosisältöä, analysoimalla sitä AI:lla ja luomalla alkuperäisiä, SEO-optimoituja blogikirjoituksia poimitusta tiedosta.
AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla
Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.
Usein kysytyt kysymykset
MicrocosmWorks implemented a multi-layered evasion system including residential proxy rotation across 50+ countries, browser fingerprint randomization using Playwright with stealth plugins, and human-like request pacing with randomized delays. The system maintains a detection rate below 2% across target sites by mimicking natural browsing patterns and rotating user agent strings.
MicrocosmWorks configured an intelligent proxy management layer that distributes requests across residential, datacenter, and mobile proxy pools based on each target site's detection sensitivity. The system tracks per-IP request counts and automatically retires IPs approaching rate limits, with a pool of over 10,000 rotating IPs ensuring continuous collection capacity.
MicrocosmWorks built a validation pipeline that verifies email deliverability, phone number format and carrier lookup, website availability, and address geocoding for every collected supplier record. Duplicate detection uses fuzzy matching on company name and address fields to prevent duplicate entries, and completeness scores flag records missing critical fields for re-scraping.
MicrocosmWorks implemented an automated structure monitoring system that compares page DOM structures against stored baselines on every crawl cycle. When structural changes are detected that break more than 10% of selectors, the system pauses collection for that source, alerts the operations team, and in many cases auto-repairs selectors using an LLM-based selector regeneration module.
MicrocosmWorks delivers web scraping platforms at rates of $20-$40/hr, with a full supplier data collection system including anti-detection measures, IP rotation, validation pipeline, and admin dashboard typically requiring 400-600 development hours. Ongoing proxy costs for large-scale operations typically run $500-$2,000/month depending on collection volume.
Valmis Muuttamaan Liiketoimintaasi?
Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.