MicrocosmWorksInnovoimassa ja Arkkitehtuuria Digitaalisessa Kosmoksessa
TietoaYhteystiedot
MicrocosmWorksInnovoimassa ja suunnittelemassa digitaalista kosmosta

Toimitamme IT-ratkaisuja, joilla on merkitystä. Olemme intohimoisia teknologiasta, turvallisuudesta ja autamme yrityksiä kasvamaan luotettavan, innovatiivisen IT-infrastruktuurin kautta.

[email protected]
+91 7011868196
New Delhi, India

AI Kasvuhubi

AI HubStartup-innovaatiotYrityskiihdyttämö

Ratkaisut

Kaikki ratkaisutHyvinvointi- ja kuntoilusovelluksetAI-videoplatformiAI-agenttikehitys

Resurssit

OivalluksetToimialan oppaatKäyttötapausmallitArkkitehtuurimallitTapaustutkimukset

Yritys

Tietoa meistäYhteystiedotTyömme

Palvelut

Digitaalinen konsultointiPilvi-infrastruktuuriSaaS-kehitysAI-kehitysVideoteknologia
ERP-kehitysZoho-mukautusOdoo-kehitysSalesforce-integraatioMukautettu CRM-kehitys
QuickBooks-integraatioIoT-ratkaisutLohkoketjukehitys
KyberturvallisuuskonsultointiIT-tuki - L3

© 2026 MicrocosmWorks. Kaikki oikeudet pidätetään.

TietosuojakäytäntöKäyttöehdot
Takaisin Tapaustutkimuksiin
Web ScrapingJulkaistu June 18, 2026 · Päivitetty May 25, 2026

Automatisoitu B2B-toimittajatietojen keräysalusta havaitsemisenestolla ja IP-kierrätyksellä

Hankintatiimi tarvitsi rakentaa kattavan toimittajatietokannan yli 19 tuotekategoriasta ja yli 50 maasta keräämällä jäsenneltyä yritysdataa B2B-markkinapaikka-alustoilta – laajamittaisesti, luotettavasti ja estymättä.

Keskustele Projektistasi
b2b-supplier-data-scraping.webp
Web Scraping
Domain
12
Technologies
6
Key Results
Delivered
Status

Haaste

Suuren mittakaavan toimittajatietokannan rakentaminen B2B-alustoilta toi esiin useita teknisiä esteitä:

  • Bottien tunnistuksen esto — Kohdealustat käyttivät kehittynyttä bottien tunnistusta, mukaan lukien selaimen sormenjälkien tunnistus, käyttäytymisanalyysi, CAPTCHA-haasteet ja nopeudenrajoitus
  • Muodon epäjohdonmukaisuus — Toimittajaprofiilien ulkoasut vaihtelivat merkittävästi kategorioiden ja alueiden välillä, rikkoen jäykät kaavintamallit
  • IP-esto — Suuret pyyntömäärät yksittäisistä IP-osoitteista laukaisivat pysyviä estoja minuuteissa
  • Datan määrä — Yli 50 000 toimittajaprofiilia tarvittiin kymmenien kategorioiden yli, yli 80 kentällä per tietue
  • Datan laatu — Uutettu data sisälsi duplikaatteja, puutteellisia tietueita ja epäjohdonmukaisia muotoja, mikä vaati validoinnin
  • Istunnonhallinta — Pitkäkestoiset kaavintaistunnot heikentyivät ajan myötä, kun alustat havaitsivat automatisoituja kaavoja

Meidän Ratkaisumme

Rakensimme automatisoidun B2B-tiedonkeruualustan, jossa on monikerroksinen havaitsemisenesto, VPN-pohjainen IP-kierrätys, ihmisen käyttäytymisen simulointi ja jäsennellyn datan vienti – kykenee luotettavasti keräämään kymmeniä tuhansia toimittajatietueita.

Arkkitehtuuri

  • Kaavintamoottori: Selenium ja undetected ChromeDriver selaimen automaatioon estämisen välttämiseksi
  • Havaitsemisenestokerros: Selaimen sormenjälkien satunnaistaminen, ihmisen käyttäytymisen simulointi ja CAPTCHA-tunnistus
  • IP-kierrätys: VPN manager ohjelmallisella palvelinvaihdolla yli 12 globaalin sijainnin välillä
  • Tiedonkäsittely: Pydantic-mallit validointiin, pandas muunnoksiin, monimuotoinen vienti
  • Konfiguraatio: YAML-pohjaiset asetukset kategorioille, maille, nopeusrajoituksille ja havaitsemiseneston parametreille
  • Lokitus ja valvonta: Jäsennelty lokitus, jossa seurataan onnistumis-/virhetasoa istuntoa kohden

Havaitsemisenestoarkkitehtuuri

Selaimen sormenjäljen välttäminen

Alusta generoi satunnaistettuja selaimen sormenjälkiä jokaiselle istunnolle, kattaen:

  • Näytön resoluutio, värisyvyys ja laitteen pikselisuhde
  • Navigaattorin ominaisuudet (alusta, kieli, laitteiston rinnakkaisuus)
  • WebGL-toimittajan ja renderöijän tiedot
  • Canvas- ja äänen sormenjälkien melun injektio
  • Realistiset laajennus- ja fonttiluettelot, jotka vastaavat huijattua alustaa
  • Aikavyöhykkeen yhtenäisyys kaikkien sormenjälkiominaisuuksien välillä

Ihmisen käyttäytymisen simulointi

Luonnollisten selauskäyttäytymismallien jäljittelemiseksi järjestelmä toteuttaa:

  • Hiiren liike — Bézier-käyräpohjaiset polut realistisella kiihdytyksellä ja hidastuksella
  • Kirjoituksen simulointi — Muuttuvat kirjoitusnopeudet satunnaisilla realistisilla virheillä
  • Vieritysmallit — Useita käyttäytymismuotoja (huolellinen lukeminen, nopea skannaus, hajamielinen selaaminen)
  • Napsautuksen epäröinti — Luonnollisia viiveitä ennen vuorovaikutuksia
  • Istunnon väsymys — Käyttäytymisen muutokset pitkien istuntojen aikana ihmisen väsymyksen jäljittelemiseksi
  • Taukojen simulointi — Satunnaisia taukoja pidennetyissä istunnoissa

CAPTCHA-tunnistus ja palautus

  • Monityyppinen tunnistus (reCAPTCHA, hCaptcha, Cloudflare challenges, slider CAPTCHAs)
  • Luottamuspisteytys jokaiselle tunnistukselle
  • Palautusstrategiat, mukaan lukien IP-kierrätys, istunnon nollaus ja pidennetetyt viiveet
  • Todisteiden kerääminen (kuvakaappaukset ja HTML) virheenkorjausta varten

IP-kierrätysjärjestelmä

VPN-hallinta

  • Ohjelmallinen VPN-yhteyden hallinta yli 12 globaalin palvelinsijainnin välillä
  • Automaattinen yhteyden terveyden tarkistus IP-tarkistusten kautta
  • Epäonnistuneiden palvelimien mustalle listalle lisääminen ongelmallisten sijaintien välttämiseksi
  • Konfiguroitavat kierrätysvälit (esim. joka N:s pyyntö)
  • Pyyntöjen laskeminen automaattisia kierrätyksen laukaisijoita varten
  • Saumaton kierrätys keskeyttämättä aktiivisia kaavintaistuntoja

Datan uutto ja käsittely

Uutetut datakentät (80+)

Alusta uuttaa kattavat toimittajatiedot useista kategorioista:

  • Perustiedot — Yrityksen nimi, sijainti (maa, maakunta, kaupunki), kategoria
  • Yhteystiedot — Sähköposti, puhelin, WhatsApp, verkkosivusto, viestintätunnukset
  • Liiketoimintamittarit — Yritystyyppi, toimintavuodet, vuotuinen liikevaihto, työntekijämäärä, tehtaan koko, varmennustila, vastausprosentti
  • Tuotetiedot — Päätuotteet, kategoriat, MOQ, hintaluokat, toimitusajat, maksuehdot, räätälöintivaihtoehdot
  • Sertifikaatit — Alan sertifikaatit (ISO, laatu, kestävyys, turvallisuus)
  • Kauppatiedot — Viennin prosenttiosuus, kohdemarkkinat, kauppaehdot, tuotantokapasiteetti

Datan validointi ja laatu

  • Pydantic-mallit pakottavat kenttätyypit, muodot ja rajoitukset
  • Sähköpostin ja puhelinnumeron muodon validointi
  • URL-osoitteiden normalisointi ja varmennus
  • Duplikaattien tunnistus sähköpostin, puhelimen ja yrityksen nimen välillä
  • Minimi datan kattavuuskynnys (vaaditaan yli 60 % kenttäkattavuus)
  • Yritystyypin luokittelu ja normalisointi

Vienti ja organisointi

Data viedään useissa muodoissa (CSV, Excel muotoiluineen, JSON) ja organisoidaan seuraavasti:

  • Kategoria — Erilliset datasetit tuotekategorian mukaan
  • Maa — Erilliset datasetit toimittajamaan mukaan
  • Päätietolista — Yhdistetyt datasetit kategorioiden välisellä duplikaattien poistolla
  • Yhteenvetoraportit — Tilastot uuttonopeuksista, kattavuudesta ja datan laadusta

Konfiguraatiojärjestelmä

Kaikki käyttäytyminen ohjataan YAML-konfiguraation kautta, kattaen:

  • KategoriMääritelmät alikategorioineen ja hakusanoineen
  • Kohdemaat ja prioriteettialueet
  • Nopeusrajoitus (pyynnöt minuutissa, tunnissa ja päivässä)
  • Havaitsemiseneston asetukset (kierrätysvälit, evästeiden poisto, käyttäytymismerkinnät)
  • Uuttokenttien vaatimukset (pakollinen vs. valinnainen)
  • Vienti-asetukset (duplikaattien poisto, validointi, kattavuuskynnysarvot)

Avainominaisuudet

  1. Monikerroksinen havaitsemisenesto — Sormenjäljen välttäminen, käyttäytymisen simulointi ja istunnonhallinta
  2. VPN-pohjainen IP-kierrätys — Yli 12 globaalia sijaintia automaattisella kierrätyksellä ja kuntotarkastuksilla
  3. Yli 80 datakenttää — Kattavat toimittajaprofiilit validoidulla, jäsennellyllä datalla
  4. Ihmisen käyttäytymisen simulointi — Bézier-hiiripolut, vaihteleva kirjoitus, realistiset vieritysmallit
  5. CAPTCHA-tunnistus ja palautus — Monityyppinen tunnistus automatisoiduilla palautusstrategioilla
  6. Monimuotoinen vienti — CSV, Excel ja JSON kategoria-/maakohtaisella organisoinnilla
  7. Datan validointi — Pydantic-pakotetut skeemat duplikaattien tunnistuksella ja kattavuuden pisteytyksellä
  8. Konfiguroitavat kampanjat — YAML-ohjattu kategoria-, maa- ja nopeusrajoituksen konfiguraatio
  9. Istunnonhallinta — Väsymyksen simulointi, evästeiden kierrätys ja taukojen ajoitus
  10. Production Shell Scripts — Esikonfiguroidut ajurit eri kaavintaprofiileille

Tulokset

Mittakaava: Keräsi yli 50 000 toimittajatietuetta yli 19 kategoriasta ja yli 50 maasta
Datan laatu: Yli 80 kenttää per toimittaja yli 60 % kattavuudella
Tunnistuksen välttäminen: 60-80 % vähennys CAPTCHA-kohtaamisissa verrattuna naiiviin kaavintaan

Teknologiapino

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Tapaustutkimukset

Tutustu lisää teknisiin toteutuksiimme

Web Scraping

Tekoälykäyttöinen blogisisällön kaavinta- ja generointialusta

Mediakonserni tarvitsi älykkään sisältöalustan, joka voisi automatisoida blogisisällön luomisen kaapimalla olemassa olevaa verkkosisältöä, analysoimalla sitä AI:lla ja luomalla alkuperäisiä, SEO-optimoituja blogikirjoituksia poimitusta tiedosta.

Lue Tapaustutkimus
AI Accounting

AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla

Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.

Lue Tapaustutkimus

Usein kysytyt kysymykset

MicrocosmWorks toteutti monikerroksisen väistelyjärjestelmän, joka sisältää residentiaalisten proxyjen kierrätyksen yli 50 maassa, selaimen sormenjäljen satunnaistamisen käyttäen Playwrightia stealth-laajennusten kanssa, ja ihmismäisen pyyntöjen tahdistuksen satunnaistetuilla viiveillä. Järjestelmä ylläpitää alle 2 %:n tunnistusastetta kohdesivustoilla jäljittelemällä luonnollisia selauskäyttäytymismalleja ja kierrättämällä user agent -merkkijonoja.

MicrocosmWorks konfiguroi älykkään proxy-hallintakerroksen, joka jakaa pyyntöjä residentiaalisten, datacenter- ja mobiiliproxy-poolien kesken kunkin kohdesivuston tunnistusherkkyyden perusteella. Järjestelmä seuraa IP-kohtaisia pyyntömääriä ja poistaa automaattisesti IP-osoitteet, jotka lähestyvät rate limiting -rajoja, yli 10 000 kiertävän IP-osoitteen poolilla varmistaen jatkuvan keräyskapasiteetin.

MicrocosmWorks rakensi validointiputken, joka tarkistaa sähköpostin toimitettavuuden, puhelinnumeron muodon ja operaattorihaut, verkkosivuston saatavuuden ja osoitteen geokoodauksen jokaiselle kerätylle toimittajatietueelle. Kaksoiskappaleiden tunnistus käyttää sumeaa hakua yrityksen nimen ja osoitekenttien perusteella kaksoiskappaleiden estämiseksi, ja kattavuuspisteet merkitsevät tietueet, joista puuttuu kriittisiä kenttiä uudelleenkaavittaviksi.

MicrocosmWorks toteutti automatisoidun rakenteenvalvontajärjestelmän, joka vertaa sivun DOM-rakenteita tallennettuihin perusviivoihin jokaisella kaapimissyklin aikana. Kun havaitaan rakenteellisia muutoksia, jotka rikkovat yli 10 % selectoreista, järjestelmä keskeyttää tiedonkeruun kyseisestä lähteestä, hälyttää operaatiotiimin ja monissa tapauksissa korjaa selectorit automaattisesti käyttämällä LLM-pohjaista selectorin uudelleenluontimoduulia.

MicrocosmWorks toimittaa web scraping -alustoja hintaan 20-40 dollaria/tunti, ja täydellinen toimittajatietojen keräysjärjestelmä, joka sisältää tunnistuksenestotoimenpiteet, IP-kierrätyksen, validointiputken ja admin-kojelautaan, vaatii tyypillisesti 400-600 kehitystuntia. Jatkuvat proxy-kustannukset laajamittaisissa operaatioissa ovat tyypillisesti 500-2 000 dollaria/kuukausi keräysvolyymista riippuen.

Valmis Muuttamaan Liiketoimintaasi?

Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.

Ota YhteyttäcaseStudyDetail.viewAllCaseStudies
Yhteydenottoprosentti: 70-80 % sähköpostien saatavuus, 80-90 % puhelinnumeroiden saatavuus tietueista
Duplikaattien määrä: Alle 5 % duplikaattien poiston jälkeen
Vienti: Organisoidut datasetit kategorian ja maan mukaan pääaggregaatiolla
Video Encoding

Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla

Videoiden suoratoistoalustan piti toteuttaa Client-Side Ad Insertion (CSAI) verkko-, mobiili- ja Connected TV -sovellusten yli — mahdollistaen personoidut, laitekohtaiset mainoskokemukset täydellä mainosinteraktion tuella (klikkaavat peittokuvat, kumppanibannerit, ohituspainikkeet), joita server-side insertion ei voi tarjota.

Lue Tapaustutkimus