Automatisoitu B2B-toimittajatietojen keräysalusta havaitsemisenestolla ja IP-kierrätyksellä
Hankintatiimi tarvitsi rakentaa kattavan toimittajatietokannan yli 19 tuotekategoriasta ja yli 50 maasta keräämällä jäsenneltyä yritysdataa B2B-markkinapaikka-alustoilta – laajamittaisesti, luotettavasti ja estymättä.
Keskustele Projektistasi
Haaste
Suuren mittakaavan toimittajatietokannan rakentaminen B2B-alustoilta toi esiin useita teknisiä esteitä:
- Bottien tunnistuksen esto — Kohdealustat käyttivät kehittynyttä bottien tunnistusta, mukaan lukien selaimen sormenjälkien tunnistus, käyttäytymisanalyysi, CAPTCHA-haasteet ja nopeudenrajoitus
- Muodon epäjohdonmukaisuus — Toimittajaprofiilien ulkoasut vaihtelivat merkittävästi kategorioiden ja alueiden välillä, rikkoen jäykät kaavintamallit
- IP-esto — Suuret pyyntömäärät yksittäisistä IP-osoitteista laukaisivat pysyviä estoja minuuteissa
- Datan määrä — Yli 50 000 toimittajaprofiilia tarvittiin kymmenien kategorioiden yli, yli 80 kentällä per tietue
- Datan laatu — Uutettu data sisälsi duplikaatteja, puutteellisia tietueita ja epäjohdonmukaisia muotoja, mikä vaati validoinnin
- Istunnonhallinta — Pitkäkestoiset kaavintaistunnot heikentyivät ajan myötä, kun alustat havaitsivat automatisoituja kaavoja
Meidän Ratkaisumme
Rakensimme automatisoidun B2B-tiedonkeruualustan, jossa on monikerroksinen havaitsemisenesto, VPN-pohjainen IP-kierrätys, ihmisen käyttäytymisen simulointi ja jäsennellyn datan vienti – kykenee luotettavasti keräämään kymmeniä tuhansia toimittajatietueita.
Arkkitehtuuri
- Kaavintamoottori: Selenium ja undetected ChromeDriver selaimen automaatioon estämisen välttämiseksi
- Havaitsemisenestokerros: Selaimen sormenjälkien satunnaistaminen, ihmisen käyttäytymisen simulointi ja CAPTCHA-tunnistus
- IP-kierrätys: VPN manager ohjelmallisella palvelinvaihdolla yli 12 globaalin sijainnin välillä
- Tiedonkäsittely: Pydantic-mallit validointiin, pandas muunnoksiin, monimuotoinen vienti
- Konfiguraatio: YAML-pohjaiset asetukset kategorioille, maille, nopeusrajoituksille ja havaitsemiseneston parametreille
- Lokitus ja valvonta: Jäsennelty lokitus, jossa seurataan onnistumis-/virhetasoa istuntoa kohden
Havaitsemisenestoarkkitehtuuri
Selaimen sormenjäljen välttäminen
Alusta generoi satunnaistettuja selaimen sormenjälkiä jokaiselle istunnolle, kattaen:
- Näytön resoluutio, värisyvyys ja laitteen pikselisuhde
- Navigaattorin ominaisuudet (alusta, kieli, laitteiston rinnakkaisuus)
- WebGL-toimittajan ja renderöijän tiedot
- Canvas- ja äänen sormenjälkien melun injektio
- Realistiset laajennus- ja fonttiluettelot, jotka vastaavat huijattua alustaa
- Aikavyöhykkeen yhtenäisyys kaikkien sormenjälkiominaisuuksien välillä
Ihmisen käyttäytymisen simulointi
Luonnollisten selauskäyttäytymismallien jäljittelemiseksi järjestelmä toteuttaa:
- Hiiren liike — Bézier-käyräpohjaiset polut realistisella kiihdytyksellä ja hidastuksella
- Kirjoituksen simulointi — Muuttuvat kirjoitusnopeudet satunnaisilla realistisilla virheillä
- Vieritysmallit — Useita käyttäytymismuotoja (huolellinen lukeminen, nopea skannaus, hajamielinen selaaminen)
- Napsautuksen epäröinti — Luonnollisia viiveitä ennen vuorovaikutuksia
- Istunnon väsymys — Käyttäytymisen muutokset pitkien istuntojen aikana ihmisen väsymyksen jäljittelemiseksi
- Taukojen simulointi — Satunnaisia taukoja pidennetyissä istunnoissa
CAPTCHA-tunnistus ja palautus
- Monityyppinen tunnistus (reCAPTCHA, hCaptcha, Cloudflare challenges, slider CAPTCHAs)
- Luottamuspisteytys jokaiselle tunnistukselle
- Palautusstrategiat, mukaan lukien IP-kierrätys, istunnon nollaus ja pidennetetyt viiveet
- Todisteiden kerääminen (kuvakaappaukset ja HTML) virheenkorjausta varten
IP-kierrätysjärjestelmä
VPN-hallinta
- Ohjelmallinen VPN-yhteyden hallinta yli 12 globaalin palvelinsijainnin välillä
- Automaattinen yhteyden terveyden tarkistus IP-tarkistusten kautta
- Epäonnistuneiden palvelimien mustalle listalle lisääminen ongelmallisten sijaintien välttämiseksi
- Konfiguroitavat kierrätysvälit (esim. joka N:s pyyntö)
- Pyyntöjen laskeminen automaattisia kierrätyksen laukaisijoita varten
- Saumaton kierrätys keskeyttämättä aktiivisia kaavintaistuntoja
Datan uutto ja käsittely
Uutetut datakentät (80+)
Alusta uuttaa kattavat toimittajatiedot useista kategorioista:
- Perustiedot — Yrityksen nimi, sijainti (maa, maakunta, kaupunki), kategoria
- Yhteystiedot — Sähköposti, puhelin, WhatsApp, verkkosivusto, viestintätunnukset
- Liiketoimintamittarit — Yritystyyppi, toimintavuodet, vuotuinen liikevaihto, työntekijämäärä, tehtaan koko, varmennustila, vastausprosentti
- Tuotetiedot — Päätuotteet, kategoriat, MOQ, hintaluokat, toimitusajat, maksuehdot, räätälöintivaihtoehdot
- Sertifikaatit — Alan sertifikaatit (ISO, laatu, kestävyys, turvallisuus)
- Kauppatiedot — Viennin prosenttiosuus, kohdemarkkinat, kauppaehdot, tuotantokapasiteetti
Datan validointi ja laatu
- Pydantic-mallit pakottavat kenttätyypit, muodot ja rajoitukset
- Sähköpostin ja puhelinnumeron muodon validointi
- URL-osoitteiden normalisointi ja varmennus
- Duplikaattien tunnistus sähköpostin, puhelimen ja yrityksen nimen välillä
- Minimi datan kattavuuskynnys (vaaditaan yli 60 % kenttäkattavuus)
- Yritystyypin luokittelu ja normalisointi
Vienti ja organisointi
Data viedään useissa muodoissa (CSV, Excel muotoiluineen, JSON) ja organisoidaan seuraavasti:
- Kategoria — Erilliset datasetit tuotekategorian mukaan
- Maa — Erilliset datasetit toimittajamaan mukaan
- Päätietolista — Yhdistetyt datasetit kategorioiden välisellä duplikaattien poistolla
- Yhteenvetoraportit — Tilastot uuttonopeuksista, kattavuudesta ja datan laadusta
Konfiguraatiojärjestelmä
Kaikki käyttäytyminen ohjataan YAML-konfiguraation kautta, kattaen:
- KategoriMääritelmät alikategorioineen ja hakusanoineen
- Kohdemaat ja prioriteettialueet
- Nopeusrajoitus (pyynnöt minuutissa, tunnissa ja päivässä)
- Havaitsemiseneston asetukset (kierrätysvälit, evästeiden poisto, käyttäytymismerkinnät)
- Uuttokenttien vaatimukset (pakollinen vs. valinnainen)
- Vienti-asetukset (duplikaattien poisto, validointi, kattavuuskynnysarvot)
Avainominaisuudet
- Monikerroksinen havaitsemisenesto — Sormenjäljen välttäminen, käyttäytymisen simulointi ja istunnonhallinta
- VPN-pohjainen IP-kierrätys — Yli 12 globaalia sijaintia automaattisella kierrätyksellä ja kuntotarkastuksilla
- Yli 80 datakenttää — Kattavat toimittajaprofiilit validoidulla, jäsennellyllä datalla
- Ihmisen käyttäytymisen simulointi — Bézier-hiiripolut, vaihteleva kirjoitus, realistiset vieritysmallit
- CAPTCHA-tunnistus ja palautus — Monityyppinen tunnistus automatisoiduilla palautusstrategioilla
- Monimuotoinen vienti — CSV, Excel ja JSON kategoria-/maakohtaisella organisoinnilla
- Datan validointi — Pydantic-pakotetut skeemat duplikaattien tunnistuksella ja kattavuuden pisteytyksellä
- Konfiguroitavat kampanjat — YAML-ohjattu kategoria-, maa- ja nopeusrajoituksen konfiguraatio
- Istunnonhallinta — Väsymyksen simulointi, evästeiden kierrätys ja taukojen ajoitus
- Production Shell Scripts — Esikonfiguroidut ajurit eri kaavintaprofiileille
Tulokset
Teknologiapino
caseStudyDetail.more Tapaustutkimukset
Tutustu lisää teknisiin toteutuksiimme
Tekoälykäyttöinen blogisisällön kaavinta- ja generointialusta
Mediakonserni tarvitsi älykkään sisältöalustan, joka voisi automatisoida blogisisällön luomisen kaapimalla olemassa olevaa verkkosisältöä, analysoimalla sitä AI:lla ja luomalla alkuperäisiä, SEO-optimoituja blogikirjoituksia poimitusta tiedosta.
AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla
Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.
Usein kysytyt kysymykset
MicrocosmWorks toteutti monikerroksisen väistelyjärjestelmän, joka sisältää residentiaalisten proxyjen kierrätyksen yli 50 maassa, selaimen sormenjäljen satunnaistamisen käyttäen Playwrightia stealth-laajennusten kanssa, ja ihmismäisen pyyntöjen tahdistuksen satunnaistetuilla viiveillä. Järjestelmä ylläpitää alle 2 %:n tunnistusastetta kohdesivustoilla jäljittelemällä luonnollisia selauskäyttäytymismalleja ja kierrättämällä user agent -merkkijonoja.
MicrocosmWorks konfiguroi älykkään proxy-hallintakerroksen, joka jakaa pyyntöjä residentiaalisten, datacenter- ja mobiiliproxy-poolien kesken kunkin kohdesivuston tunnistusherkkyyden perusteella. Järjestelmä seuraa IP-kohtaisia pyyntömääriä ja poistaa automaattisesti IP-osoitteet, jotka lähestyvät rate limiting -rajoja, yli 10 000 kiertävän IP-osoitteen poolilla varmistaen jatkuvan keräyskapasiteetin.
MicrocosmWorks rakensi validointiputken, joka tarkistaa sähköpostin toimitettavuuden, puhelinnumeron muodon ja operaattorihaut, verkkosivuston saatavuuden ja osoitteen geokoodauksen jokaiselle kerätylle toimittajatietueelle. Kaksoiskappaleiden tunnistus käyttää sumeaa hakua yrityksen nimen ja osoitekenttien perusteella kaksoiskappaleiden estämiseksi, ja kattavuuspisteet merkitsevät tietueet, joista puuttuu kriittisiä kenttiä uudelleenkaavittaviksi.
MicrocosmWorks toteutti automatisoidun rakenteenvalvontajärjestelmän, joka vertaa sivun DOM-rakenteita tallennettuihin perusviivoihin jokaisella kaapimissyklin aikana. Kun havaitaan rakenteellisia muutoksia, jotka rikkovat yli 10 % selectoreista, järjestelmä keskeyttää tiedonkeruun kyseisestä lähteestä, hälyttää operaatiotiimin ja monissa tapauksissa korjaa selectorit automaattisesti käyttämällä LLM-pohjaista selectorin uudelleenluontimoduulia.
MicrocosmWorks toimittaa web scraping -alustoja hintaan 20-40 dollaria/tunti, ja täydellinen toimittajatietojen keräysjärjestelmä, joka sisältää tunnistuksenestotoimenpiteet, IP-kierrätyksen, validointiputken ja admin-kojelautaan, vaatii tyypillisesti 400-600 kehitystuntia. Jatkuvat proxy-kustannukset laajamittaisissa operaatioissa ovat tyypillisesti 500-2 000 dollaria/kuukausi keräysvolyymista riippuen.
Valmis Muuttamaan Liiketoimintaasi?
Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.