MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak Tasarlamak
Hakkındaİletişim
MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak İnşa Etmek

Önemli BT çözümleri sunuyoruz. Teknoloji, güvenlik ve işletmelerin güvenilir, yenilikçi BT altyapısı ile büyümesine yardımcı olmaktan tutkuluyuz.

[email protected]
+91 7011868196
New Delhi, India

AI Büyüme Merkezi

AI MerkeziStartup İnovasyonuKurumsal Hızlandırıcı

Çözümler

Tüm ÇözümlerSağlık ve Fitness UygulamalarıAI Video PlatformuAI Ajan Geliştirme

Kaynaklar

ÖngörülerSektör RehberleriKullanım Durumu ŞablonlarıMimari KalıplarVaka Çalışmaları

Şirket

HakkımızdaİletişimÇalışmalarımız

Hizmetler

Dijital DanışmanlıkBulut AltyapısıSaaS GeliştirmeYapay Zeka GeliştirmeVideo Teknolojisi
ERP GeliştirmeZoho ÖzelleştirmeOdoo GeliştirmeSalesforce EntegrasyonuÖzel CRM Geliştirme
QuickBooks EntegrasyonuIoT ÇözümleriBlokzincir Geliştirme
Siber Güvenlik DanışmanlığıIT Desteği - L3

© 2026 MicrocosmWorks. Tüm hakları saklıdır.

Gizlilik PolitikasıHizmet Şartları
Vaka Çalışmalarına Dön
Web ScrapingYayınlandı June 22, 2026 · Güncellendi June 22, 2026

Tespit Önleme ve IP Rotasyonu Özellikli Otomatik B2B Tedarikçi Veri Toplama Platformu

Bir tedarik ekibinin, B2B pazar yeri platformlarından yapılandırılmış iş verilerini büyük ölçekte, güvenilir bir şekilde ve engellenmeden toplayarak 19'dan fazla ürün kategorisi ve 50'den fazla ülkede kapsamlı bir tedarikçi veri tabanı oluşturması gerekiyordu.

Projenizi Tartışın
b2b-supplier-data-scraping.webp
Web Scraping
Domain
12
Technologies
6
Key Results
Delivered
Status

Zorluk

B2B platformlarından büyük ölçekli bir tedarikçi veri tabanı oluşturmak, birden fazla teknik engel teşkil ediyordu:

  • Bot Tespitini Önleme — Hedef platformlar tarayıcı parmak izi alma, davranış analizi, CAPTCHA zorlukları ve hız sınırlaması dahil olmak üzere gelişmiş bot tespit yöntemleri kullanıyordu
  • Biçim Tutarsızlığı — Tedarikçi profil düzenleri kategori ve bölgelere göre önemli ölçüde değişiklik göstererek katı kazıma şablonlarını bozuyordu
  • IP Engelleme — Tek IP'lerden gelen yüksek hacimli istekler dakikalar içinde kalıcı yasaklamaları tetikliyordu
  • Veri Hacmi — Düzinelerce kategoride, kayıt başına 80'den fazla alan içeren 50.000'den fazla tedarikçi profiline ihtiyaç duyuluyordu
  • Veri Kalitesi — Çıkarılan veriler, doğrulama gerektiren mükerrer kayıtlar, eksik kayıtlar ve tutarsız biçimler içeriyordu
  • Oturum Yönetimi — Uzun süreli kazıma oturumları, platformlar otomatik desenleri tespit ettikçe zamanla bozuluyordu

Çözümümüz

Çok katmanlı tespit önleme, VPN tabanlı IP rotasyonu, insan davranış simülasyonu ve yapılandırılmış veri dışa aktarımı ile otomatik bir B2B veri toplama platformu inşa ettik — on binlerce tedarikçi kaydını güvenilir bir şekilde toplayabilecek kapasitede.

Mimari

  • Kazıma Motoru: Kaçınma özellikli tarayıcı otomasyonu için Selenium ile undetected ChromeDriver
  • Tespit Önleme Katmanı: Tarayıcı parmak izi rastgeleleştirme, insan davranış simülasyonu ve CAPTCHA tespiti
  • IP Rotasyonu: 12'den fazla global konumda programatik sunucu geçişi sağlayan VPN yöneticisi
  • Veri İşleme: Doğrulama için Pydantic modelleri, dönüşüm için pandas, çok formatlı dışa aktarım
  • Yapılandırma: Kategoriler, ülkeler, hız sınırları ve tespit önleme parametreleri için YAML tabanlı ayarlar
  • Kayıt Tutma ve İzleme: Oturum başına başarı/başarısızlık oranı takibi ile yapılandırılmış kayıt tutma

Tespit Önleme Mimarisi

Tarayıcı Parmak İzi Kaçınması

Platform, her oturum için aşağıdaki özellikleri kapsayan rastgele tarayıcı parmak izleri oluşturur:

  • Ekran çözünürlüğü, renk derinliği ve cihaz piksel oranı
  • Navigator özellikleri (platform, dil, donanım eşzamanlılığı)
  • WebGL üretici ve render bilgileri
  • Canvas ve ses parmak izi gürültü enjeksiyonu
  • Sahtesi oluşturulan platformla eşleşen gerçekçi eklenti ve font listeleri
  • Tüm parmak izi özelliklerinde zaman dilimi tutarlılığı

İnsan Davranışı Simülasyonu

Doğal gezinme modellerini taklit etmek için sistem şunları uygular:

  • Fare Hareketi — Gerçekçi hızlanma ve yavaşlama ile Bézier eğrisi tabanlı yollar
  • Yazma Simülasyonu — Ara sıra gerçekçi hatalarla değişken yazma hızları
  • Kaydırma Desenleri — Birden fazla davranış modu (dikkatli okuma, hızlı tarama, dikkati dağılmış gezinme)
  • Tıklama Tereddütü — Etkileşimlerden önce doğal gecikmeler
  • Oturum Yorgunluğu — İnsan yorgunluğunu taklit etmek için uzun oturumlar boyunca davranış değişiklikleri
  • Mola Simülasyonu — Uzatılmış oturumlar için rastgele duraklamalar

CAPTCHA Tespiti ve Kurtarma

  • Çoklu tip tespit (reCAPTCHA, hCaptcha, Cloudflare zorlukları, kaydırmalı CAPTCHA'lar)
  • Her tespit için güven puanlaması
  • IP rotasyonu, oturum sıfırlama ve uzatılmış gecikmeler dahil kurtarma stratejileri
  • Hata ayıklama için kanıt toplama (ekran görüntüleri ve HTML)

IP Rotasyon Sistemi

VPN Yönetimi

  • 12'den fazla global sunucu konumunda programatik VPN bağlantı yönetimi
  • IP kontrolleri aracılığıyla otomatik bağlantı sağlık doğrulaması
  • Sorunlu konumları önlemek için başarısız sunucuların kara listeye alınması
  • Yapılandırılabilir rotasyon aralıkları (örn. her N istekte bir)
  • Otomatik rotasyon tetikleyicileri için istek sayımı
  • Aktif kazıma oturumlarını kesintiye uğratmadan kesintisiz rotasyon

Veri Çıkarma ve İşleme

Çıkarılan Veri Alanları (80+)

Platform, çeşitli kategorilerde kapsamlı tedarikçi bilgileri çıkarır:

  • Temel Bilgiler — Şirket adı, konum (ülke, eyalet, şehir), kategori
  • İletişim Bilgileri — E-posta, telefon, WhatsApp, web sitesi, mesajlaşma kolları
  • İş Metrikleri — İş türü, faaliyet yılları, yıllık gelir, çalışan sayısı, fabrika büyüklüğü, doğrulama durumu, yanıt oranı
  • Ürün Bilgileri — Ana ürünler, kategoriler, MOQ, fiyat aralıkları, teslim süreleri, ödeme koşulları, özelleştirme seçenekleri
  • Sertifikalar — Endüstriyel sertifikalar (ISO, kalite, sürdürülebilirlik, güvenlik)
  • Ticaret Bilgileri — İhracat yüzdesi, hedef pazarlar, ticaret koşulları, üretim kapasitesi

Veri Doğrulama ve Kalitesi

  • Pydantic modelleri, alan türlerini, formatlarını ve kısıtlamalarını uygular
  • E-posta ve telefon numarası formatı doğrulama
  • URL normalizasyonu ve doğrulaması
  • E-posta, telefon ve şirket adı genelinde mükerrer kayıt tespiti
  • Minimum veri tamamlanma eşiği (%60+ alan kapsamı gereklidir)
  • İş türü sınıflandırması ve normalizasyonu

Dışa Aktarma ve Organizasyon

Veriler birden fazla formatta (CSV, formatlı Excel, JSON) dışa aktarılır ve şunlara göre düzenlenir:

  • Kategori — Ürün kategorisi başına ayrı veri kümeleri
  • Ülke — Tedarikçi ülkesi başına ayrı veri kümeleri
  • Ana Listeler — Kategori içi mükerrer kayıt giderme ile birleştirilmiş veri kümeleri
  • Özet Raporlar — Çıkarma oranları, kapsam ve veri kalitesi üzerine istatistikler

Yapılandırma Sistemi

Tüm davranışlar, aşağıdakileri kapsayan YAML yapılandırması aracılığıyla kontrol edilir:

  • Alt kategoriler ve arama terimleri ile kategori tanımları
  • Hedef ülkeler ve öncelikli bölgeler
  • Hız sınırlaması (dakika, saat ve gün başına istekler)
  • Tespit önleme ayarları (rotasyon aralıkları, çerez temizleme, davranışsal bayraklar)
  • Çıkarma alanı gereksinimleri (gerekli ve isteğe bağlı)
  • Dışa aktarma ayarları (mükerrer kayıt giderme, doğrulama, tamamlama eşikleri)

Temel Özellikler

  1. Çok Katmanlı Tespit Önleme — Parmak izi kaçınma, davranış simülasyonu ve oturum yönetimi
  2. VPN Tabanlı IP Rotasyonu — Otomatik rotasyon ve sağlık kontrolleri ile 12'den fazla global konum
  3. 80+ Veri Alanı — Doğrulanmış, yapılandırılmış verilere sahip kapsamlı tedarikçi profilleri
  4. İnsan Davranışı Simülasyonu — Bézier fare yolları, değişken yazma, gerçekçi kaydırma desenleri
  5. CAPTCHA Tespiti ve Kurtarma — Otomatik kurtarma stratejileri ile çoklu tip tespit
  6. Çok Formatlı Dışa Aktarım — Kategori/ülke organizasyonu ile CSV, Excel ve JSON
  7. Veri Doğrulama — Pydantic tarafından uygulanan şemalar, mükerrer kayıt tespiti ve tamamlama puanlaması ile
  8. Yapılandırılabilir Kampanyalar — YAML destekli kategori, ülke ve hız sınırlaması yapılandırması
  9. Oturum Yönetimi — Yorgunluk simülasyonu, çerez rotasyonu ve mola planlaması
  10. Üretim Shell Betikleri — Farklı kazıma profilleri için önceden yapılandırılmış çalıştırıcılar

Sonuçlar

Ölçek: 19'dan fazla kategori ve 50'den fazla ülkede 50.000'den fazla tedarikçi kaydı toplandı.
Veri Kalitesi: Tedarikçi başına %60'tan fazla tamamlama oranıyla 80'den fazla alan.
Tespit Önleme: Basit kazımaya kıyasla CAPTCHA karşılaşmalarında %60-80 azalma.

Teknoloji Yığını

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Vaka Çalışmaları

Daha fazla teknik uygulamamızı keşfedin

Web Scraping

Yapay Zeka Destekli Blog İçeriği Kazıma ve Oluşturma Platformu

Bir medya şirketi, mevcut web içeriğini kazıyarak, yapay zeka kullanarak analiz ederek ve çıkarılan verilerden orijinal, SEO odaklı blog gönderileri oluşturarak blog içeriği oluşturmayı otomatikleştirebilecek akıllı bir içerik platformuna ihtiyaç duyuyordu.

Vaka Çalışmasını Oku
AI Accounting

AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)

Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.

Vaka Çalışmasını Oku

Sıkça Sorulan Sorular

MicrocosmWorks implemented a multi-layered evasion system including residential proxy rotation across 50+ countries, browser fingerprint randomization using Playwright with stealth plugins, and human-like request pacing with randomized delays. The system maintains a detection rate below 2% across target sites by mimicking natural browsing patterns and rotating user agent strings.

MicrocosmWorks configured an intelligent proxy management layer that distributes requests across residential, datacenter, and mobile proxy pools based on each target site's detection sensitivity. The system tracks per-IP request counts and automatically retires IPs approaching rate limits, with a pool of over 10,000 rotating IPs ensuring continuous collection capacity.

MicrocosmWorks built a validation pipeline that verifies email deliverability, phone number format and carrier lookup, website availability, and address geocoding for every collected supplier record. Duplicate detection uses fuzzy matching on company name and address fields to prevent duplicate entries, and completeness scores flag records missing critical fields for re-scraping.

MicrocosmWorks implemented an automated structure monitoring system that compares page DOM structures against stored baselines on every crawl cycle. When structural changes are detected that break more than 10% of selectors, the system pauses collection for that source, alerts the operations team, and in many cases auto-repairs selectors using an LLM-based selector regeneration module.

MicrocosmWorks delivers web scraping platforms at rates of $20-$40/hr, with a full supplier data collection system including anti-detection measures, IP rotation, validation pipeline, and admin dashboard typically requiring 400-600 development hours. Ongoing proxy costs for large-scale operations typically run $500-$2,000/month depending on collection volume.

İşletmenizi Dönüştürmeye Hazır mısınız?

Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.

İletişime GeçincaseStudyDetail.viewAllCaseStudies
İletişim Oranı: Kayıtlar genelinde %70-80 e-posta erişilebilirliği, %80-90 telefon erişilebilirliği.
Mükerrer Kayıt Oranı: Mükerrer kayıt giderme işleminden sonra < %5.
Dışa Aktarım: Kategori ve ülkeye göre düzenlenmiş veri kümeleri, ana toplama ile.
Video Encoding

İstemci Tarafında Reklam Ekleme (CSAI), SCTE-35 İşaretleyici Ayrıştırma ve Çok Platformlu Oynatıcı Entegrasyonu ile

Bir video akış platformu, sunucu tarafı reklam eklemenin sağlayamadığı tam reklam etkileşimi desteğiyle (tıklanabilir katmanlar, yardımcı banner'lar, atlama düğmeleri) kişiselleştirilmiş, cihaz düzeyinde reklam deneyimleri sunarak web, mobil ve akıllı TV uygulamaları genelinde Client-Side Ad Insertion (CSAI) uygulamasına ihtiyaç duyuyordu.

Vaka Çalışmasını Oku