MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak Tasarlamak
Hakkındaİletişim
MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak İnşa Etmek

Önemli BT çözümleri sunuyoruz. Teknoloji, güvenlik ve işletmelerin güvenilir, yenilikçi BT altyapısı ile büyümesine yardımcı olmaktan tutkuluyuz.

[email protected]
+91 7011868196
New Delhi, India

AI Büyüme Merkezi

AI MerkeziStartup İnovasyonuKurumsal Hızlandırıcı

Çözümler

Tüm ÇözümlerSağlık ve Fitness UygulamalarıAI Video PlatformuAI Ajan Geliştirme

Kaynaklar

ÖngörülerSektör RehberleriKullanım Durumu ŞablonlarıMimari KalıplarVaka Çalışmaları

Şirket

HakkımızdaİletişimÇalışmalarımız

Hizmetler

Dijital DanışmanlıkBulut AltyapısıSaaS GeliştirmeYapay Zeka GeliştirmeVideo Teknolojisi
ERP GeliştirmeZoho ÖzelleştirmeOdoo GeliştirmeSalesforce EntegrasyonuÖzel CRM Geliştirme
QuickBooks EntegrasyonuIoT ÇözümleriBlokzincir Geliştirme
Siber Güvenlik DanışmanlığıIT Desteği - L3

© 2026 MicrocosmWorks. Tüm hakları saklıdır.

Gizlilik PolitikasıHizmet Şartları
Vaka Çalışmalarına Dön
Web ScrapingYayınlandı June 18, 2026 · Güncellendi May 25, 2026

Tespit Önleme ve IP Rotasyonu ile Otomatik B2B Tedarikçi Veri Toplama Platformu

Bir tedarik ekibinin, 19'dan fazla ürün kategorisi ve 50'den fazla ülkede, B2B pazar yeri platformlarından yapılandırılmış iş verilerini büyük ölçekte, güvenilir bir şekilde ve engellenmeden toplayarak kapsamlı bir tedarikçi veri tabanı oluşturması gerekiyordu.

Projenizi Tartışın
b2b-supplier-data-scraping.webp
Web Scraping
Domain
12
Technologies
6
Key Results
Delivered
Status

Zorluk

B2B platformlarından büyük ölçekli bir tedarikçi veri tabanı oluşturmak birden fazla teknik engeli beraberinde getirdi:

  • Bot Tespit Önleme — Hedef platformlar tarayıcı fingerprinting, davranışsal analiz, CAPTCHA sorgulamaları ve hız sınırlaması gibi gelişmiş bot tespit yöntemleri kullanıyordu
  • Biçim Tutarsızlığı — Tedarikçi profil düzenleri kategori ve bölgelere göre önemli ölçüde farklılık göstererek katı scraping şablonlarını bozuyordu
  • IP Engelleme — Tek IP'lerden gelen yüksek hacimli istekler dakikalar içinde kalıcı yasaklamaları tetikliyordu
  • Veri Hacmi — Düzinelerce kategoride, kayıt başına 80'den fazla alan içeren 50.000'den fazla tedarikçi profiline ihtiyaç duyuluyordu
  • Veri Kalitesi — Çıkarılan veriler, doğrulama gerektiren mükerrer kayıtlar, eksik kayıtlar ve tutarsız formatlar içeriyordu
  • Oturum Yönetimi — Uzun süreli scraping oturumları, platformlar otomatik desenleri tespit ettikçe zamanla bozuluyordu

Çözümümüz

Çok katmanlı tespit önleme, VPN tabanlı IP rotasyonu, insan davranış simülasyonu ve yapılandırılmış veri dışa aktarımı özelliklerine sahip otomatik bir B2B veri toplama platformu geliştirdik; bu platform, on binlerce tedarikçi kaydını güvenilir bir şekilde toplayabiliyor.

Mimari

  • Scraping Motoru: Tespit önleme özellikli tarayıcı otomasyonu için undetected ChromeDriver ile Selenium
  • Tespit Önleme Katmanı: Tarayıcı fingerprint randomization, insan davranış simülasyonu ve CAPTCHA tespiti
  • IP Rotasyonu: 12'den fazla küresel konumda programatik sunucu geçişi sağlayan VPN yöneticisi
  • Veri İşleme: Doğrulama için Pydantic modelleri, dönüşüm için pandas, çok formatlı dışa aktarım
  • Yapılandırma: Kategoriler, ülkeler, hız sınırları ve tespit önleme parametreleri için YAML tabanlı ayarlar
  • Günlükleme ve İzleme: Oturum başına başarı/başarısızlık oranı takibi ile yapılandırılmış günlükleme

Tespit Önleme Mimarisi

Tarayıcı Fingerprint Evasion

Platform, her oturum için randomize tarayıcı fingerprint'leri oluşturur ve şunları kapsar:

  • Ekran çözünürlüğü, renk derinliği ve cihaz piksel oranı
  • Navigator özellikleri (platform, dil, hardware concurrency)
  • WebGL vendor ve renderer bilgileri
  • Canvas ve ses fingerprint noise injection
  • Sahte platforma uygun gerçekçi plugin ve font listeleri
  • Tüm fingerprint özelliklerinde timezone tutarlılığı

İnsan Davranış Simülasyonu

Doğal gezinme davranışlarını taklit etmek için sistem şunları uygular:

  • Fare Hareketi — Gerçekçi hızlanma ve yavaşlama ile Bézier curve tabanlı yollar
  • Yazma Simülasyonu — Değişken yazma hızları ve ara sıra gerçekçi hatalar
  • Kaydırma Desenleri — Birden fazla davranış modu (dikkatli okuma, hızlı tarama, dikkatsiz gezinme)
  • Tıklama Tereddütü — Etkileşimlerden önce doğal gecikmeler
  • Oturum Yorgunluğu — İnsan yorgunluğunu taklit etmek için uzun oturumlar boyunca davranış değişiklikleri
  • Mola Simülasyonu — Uzun oturumlar için rastgele duraklamalar

CAPTCHA Tespiti ve Kurtarma

  • Çok tipli tespit (reCAPTCHA, hCaptcha, Cloudflare challenges, slider CAPTCHA'lar)
  • Her tespit için güven puanlaması
  • IP rotasyonu, oturum sıfırlama ve uzatılmış gecikmeler dahil kurtarma stratejileri
  • Hata ayıklama için kanıt toplama (ekran görüntüleri ve HTML)

IP Rotasyon Sistemi

VPN Yönetimi

  • 12'den fazla küresel sunucu konumunda programatik VPN bağlantı yönetimi
  • IP kontrolleri aracılığıyla otomatik bağlantı sağlık doğrulaması
  • Sorunlu konumları önlemek için başarısız sunucu blacklisting
  • Yapılandırılabilir rotasyon aralıkları (örn. her N istekte bir)
  • Otomatik rotasyon tetikleyicileri için istek sayımı
  • Aktif scraping oturumlarını kesintiye uğratmadan sorunsuz rotasyon

Veri Çıkarma ve İşleme

Çıkarılan Veri Alanları (80+)

Platform, çeşitli kategorilerde kapsamlı tedarikçi bilgileri çıkarır:

  • Temel Bilgiler — Şirket adı, konum (ülke, il, şehir), kategori
  • İletişim Bilgileri — E-posta, telefon, WhatsApp, web sitesi, messaging handles
  • İş Metrikleri — İş türü, faaliyet yılı, yıllık gelir, çalışan sayısı, fabrika boyutu, doğrulama durumu, yanıt oranı
  • Ürün Bilgileri — Ana ürünler, kategoriler, MOQ, fiyat aralıkları, lead times, ödeme koşulları, özelleştirme seçenekleri
  • Sertifikalar — Endüstri sertifikaları (ISO, kalite, sürdürülebilirlik, güvenlik)
  • Ticaret Bilgileri — İhracat yüzdesi, hedef pazarlar, ticaret koşulları, üretim kapasitesi

Veri Doğrulama ve Kalitesi

  • Pydantic modelleri, alan türlerini, formatlarını ve kısıtlamalarını uygular
  • E-posta ve telefon numarası formatı doğrulaması
  • URL normalizasyonu ve doğrulaması
  • E-posta, telefon ve şirket adı genelinde mükerrer kayıt tespiti
  • Minimum veri tamamlama eşiği (%60+ alan kapsamı gereklidir)
  • İş türü sınıflandırması ve normalizasyonu

Dışa Aktarım ve Organizasyon

Veriler birden fazla formatta (CSV, formatlı Excel, JSON) dışa aktarılır ve şunlara göre düzenlenir:

  • Kategori — Ürün kategorisi başına ayrı veri kümeleri
  • Ülke — Tedarikçi ülkesi başına ayrı veri kümeleri
  • Ana Listeler — Kategoriler arası mükerrer kayıt giderme ile birleştirilmiş veri kümeleri
  • Özet Raporlar — Çıkarma oranları, kapsam ve veri kalitesi üzerine istatistikler

Yapılandırma Sistemi

Tüm davranışlar, şunları kapsayan YAML yapılandırması aracılığıyla kontrol edilir:

  • Alt kategoriler ve arama terimleriyle kategori tanımları
  • Hedef ülkeler ve öncelikli bölgeler
  • Hız sınırlaması (dakika, saat ve gün başına istekler)
  • Tespit önleme ayarları (rotasyon aralıkları, çerez temizleme, davranışsal bayraklar)
  • Çıkarma alanı gereksinimleri (gerekli veya isteğe bağlı)
  • Dışa aktarım ayarları (mükerrer kayıt giderme, doğrulama, tamamlama eşikleri)

Temel Özellikler

  1. Çok Katmanlı Tespit Önleme — Fingerprint evasion, davranış simülasyonu ve oturum yönetimi
  2. VPN Tabanlı IP Rotasyonu — Otomatik rotasyon ve sağlık kontrolleri ile 12'den fazla küresel konum
  3. 80+ Veri Alanı — Doğrulanmış, yapılandırılmış verilere sahip kapsamlı tedarikçi profilleri
  4. İnsan Davranış Simülasyonu — Bézier mouse paths, değişken typing, gerçekçi scrolling patterns
  5. CAPTCHA Tespiti ve Kurtarma — Otomatik kurtarma stratejileri ile çok tipli tespit
  6. Çok Formatlı Dışa Aktarım — Kategori/ülke organizasyonu ile CSV, Excel ve JSON
  7. Veri Doğrulama — Mükerrer kayıt tespiti ve tamamlama puanlaması ile Pydantic tarafından uygulanan şemalar
  8. Yapılandırılabilir Kampanyalar — YAML tabanlı kategori, ülke ve hız sınırı yapılandırması
  9. Oturum Yönetimi — Yorgunluk simülasyonu, çerez rotasyonu ve mola planlaması
  10. Üretim Shell Script'leri — Farklı scraping profilleri için önceden yapılandırılmış çalıştırıcılar

Sonuçlar

Ölçek: 19'dan fazla kategori ve 50'den fazla ülkede 50.000'den fazla tedarikçi kaydı toplandı
Veri Kalitesi: Tedarikçi başına %60+ tamamlama oranı ile 80'den fazla alan
Tespit Önleme: Naif scraping'e kıyasla CAPTCHA karşılaşmalarında %60-80 azalma

Teknoloji Yığını

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more Vaka Çalışmaları

Daha fazla teknik uygulamamızı keşfedin

Web Scraping

Yapay Zeka Destekli Blog İçeriği Kazıma ve Oluşturma Platformu

Bir medya şirketi, mevcut web içeriğini kazıyarak, yapay zeka kullanarak analiz ederek ve çıkarılan verilerden orijinal, SEO odaklı blog gönderileri oluşturarak blog içeriği oluşturmayı otomatikleştirebilecek akıllı bir içerik platformuna ihtiyaç duyuyordu.

Vaka Çalışmasını Oku
AI Accounting

AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)

Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.

Vaka Çalışmasını Oku

Sıkça Sorulan Sorular

MicrocosmWorks, 50'den fazla ülkede residential proxy rotasyonu, stealth eklentilerine sahip Playwright kullanarak tarayıcı parmak izi rastgeleleştirmesi ve rastgele gecikmelerle insan benzeri istek hızlandırması içeren çok katmanlı bir kaçınma sistemi uyguladı. Sistem, doğal gezinme modellerini taklit ederek ve user agent dizelerini döndürerek hedef siteler genelinde %2'nin altında bir tespit oranını sürdürmektedir.

MicrocosmWorks, her hedef sitenin tespit hassasiyetine göre istekleri residential, datacenter ve mobil proxy havuzlarına dağıtan akıllı bir proxy yönetim katmanı yapılandırdı. Sistem, IP başına istek sayılarını izler ve rate limiting'lere yaklaşan IP'leri otomatik olarak devreden çıkarır; 10.000'den fazla dönen IP havuzu, sürekli toplama kapasitesi sağlar.

MicrocosmWorks, toplanan her tedarikçi kaydı için e-posta teslim edilebilirliğini, telefon numarası formatı ve operatör sorgulamasını, web sitesi erişilebilirliğini ve adres coğrafi kodlamasını doğrulayan bir validation pipeline oluşturdu. Tekrar eden kayıt tespiti, yinelenen girişleri önlemek için şirket adı ve adres alanlarında fuzzy matching kullanır ve eksiksizlik puanları, yeniden kazıma için kritik alanları eksik olan kayıtları işaretler.

MicrocosmWorks, her tarama döngüsünde sayfa DOM yapılarını depolanmış temel değerlerle karşılaştıran otomatik bir yapı izleme sistemi uyguladı. Selector'ların %10'undan fazlasını bozan yapısal değişiklikler tespit edildiğinde, sistem o kaynak için toplamayı duraklatır, operasyon ekibini uyarır ve birçok durumda LLM tabanlı bir selector yeniden oluşturma modülü kullanarak selector'ları otomatik olarak onarır.

MicrocosmWorks, web scraping platformlarını saatlik 20-40 ABD doları oranlarında sunmaktadır. Anti-tespit önlemleri, IP rotasyonu, validation pipeline ve admin dashboard dahil olmak üzere tam bir tedarikçi veri toplama sistemi tipik olarak 400-600 geliştirme saati gerektirir. Büyük ölçekli operasyonlar için devam eden proxy maliyetleri, toplama hacmine bağlı olarak genellikle ayda 500-2.000 ABD doları arasında değişmektedir.

İşletmenizi Dönüştürmeye Hazır mısınız?

Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.

İletişime GeçincaseStudyDetail.viewAllCaseStudies
İletişim Oranı: Kayıtlar genelinde %70-80 e-posta erişilebilirliği, %80-90 telefon erişilebilirliği
Mükerrer Kayıt Oranı: Mükerrer kayıt giderme işleminden sonra <%5
Dışa Aktarım: Kategori ve ülkeye göre düzenlenmiş, ana toplama içeren veri kümeleri
Video Encoding

İstemci Tarafında Reklam Ekleme (CSAI), SCTE-35 İşaretleyici Ayrıştırma ve Çok Platformlu Oynatıcı Entegrasyonu ile

Bir video akış platformu, sunucu tarafı reklam eklemenin sağlayamadığı tam reklam etkileşimi desteğiyle (tıklanabilir katmanlar, yardımcı banner'lar, atlama düğmeleri) kişiselleştirilmiş, cihaz düzeyinde reklam deneyimleri sunarak web, mobil ve akıllı TV uygulamaları genelinde Client-Side Ad Insertion (CSAI) uygulamasına ihtiyaç duyuyordu.

Vaka Çalışmasını Oku