Tespit Önleme ve IP Rotasyonu ile Otomatik B2B Tedarikçi Veri Toplama Platformu
Bir tedarik ekibinin, 19'dan fazla ürün kategorisi ve 50'den fazla ülkede, B2B pazar yeri platformlarından yapılandırılmış iş verilerini büyük ölçekte, güvenilir bir şekilde ve engellenmeden toplayarak kapsamlı bir tedarikçi veri tabanı oluşturması gerekiyordu.
Projenizi Tartışın
Zorluk
B2B platformlarından büyük ölçekli bir tedarikçi veri tabanı oluşturmak birden fazla teknik engeli beraberinde getirdi:
- Bot Tespit Önleme — Hedef platformlar tarayıcı fingerprinting, davranışsal analiz, CAPTCHA sorgulamaları ve hız sınırlaması gibi gelişmiş bot tespit yöntemleri kullanıyordu
- Biçim Tutarsızlığı — Tedarikçi profil düzenleri kategori ve bölgelere göre önemli ölçüde farklılık göstererek katı scraping şablonlarını bozuyordu
- IP Engelleme — Tek IP'lerden gelen yüksek hacimli istekler dakikalar içinde kalıcı yasaklamaları tetikliyordu
- Veri Hacmi — Düzinelerce kategoride, kayıt başına 80'den fazla alan içeren 50.000'den fazla tedarikçi profiline ihtiyaç duyuluyordu
- Veri Kalitesi — Çıkarılan veriler, doğrulama gerektiren mükerrer kayıtlar, eksik kayıtlar ve tutarsız formatlar içeriyordu
- Oturum Yönetimi — Uzun süreli scraping oturumları, platformlar otomatik desenleri tespit ettikçe zamanla bozuluyordu
Çözümümüz
Çok katmanlı tespit önleme, VPN tabanlı IP rotasyonu, insan davranış simülasyonu ve yapılandırılmış veri dışa aktarımı özelliklerine sahip otomatik bir B2B veri toplama platformu geliştirdik; bu platform, on binlerce tedarikçi kaydını güvenilir bir şekilde toplayabiliyor.
Mimari
- Scraping Motoru: Tespit önleme özellikli tarayıcı otomasyonu için undetected ChromeDriver ile Selenium
- Tespit Önleme Katmanı: Tarayıcı fingerprint randomization, insan davranış simülasyonu ve CAPTCHA tespiti
- IP Rotasyonu: 12'den fazla küresel konumda programatik sunucu geçişi sağlayan VPN yöneticisi
- Veri İşleme: Doğrulama için Pydantic modelleri, dönüşüm için pandas, çok formatlı dışa aktarım
- Yapılandırma: Kategoriler, ülkeler, hız sınırları ve tespit önleme parametreleri için YAML tabanlı ayarlar
- Günlükleme ve İzleme: Oturum başına başarı/başarısızlık oranı takibi ile yapılandırılmış günlükleme
Tespit Önleme Mimarisi
Tarayıcı Fingerprint Evasion
Platform, her oturum için randomize tarayıcı fingerprint'leri oluşturur ve şunları kapsar:
- Ekran çözünürlüğü, renk derinliği ve cihaz piksel oranı
- Navigator özellikleri (platform, dil, hardware concurrency)
- WebGL vendor ve renderer bilgileri
- Canvas ve ses fingerprint noise injection
- Sahte platforma uygun gerçekçi plugin ve font listeleri
- Tüm fingerprint özelliklerinde timezone tutarlılığı
İnsan Davranış Simülasyonu
Doğal gezinme davranışlarını taklit etmek için sistem şunları uygular:
- Fare Hareketi — Gerçekçi hızlanma ve yavaşlama ile Bézier curve tabanlı yollar
- Yazma Simülasyonu — Değişken yazma hızları ve ara sıra gerçekçi hatalar
- Kaydırma Desenleri — Birden fazla davranış modu (dikkatli okuma, hızlı tarama, dikkatsiz gezinme)
- Tıklama Tereddütü — Etkileşimlerden önce doğal gecikmeler
- Oturum Yorgunluğu — İnsan yorgunluğunu taklit etmek için uzun oturumlar boyunca davranış değişiklikleri
- Mola Simülasyonu — Uzun oturumlar için rastgele duraklamalar
CAPTCHA Tespiti ve Kurtarma
- Çok tipli tespit (reCAPTCHA, hCaptcha, Cloudflare challenges, slider CAPTCHA'lar)
- Her tespit için güven puanlaması
- IP rotasyonu, oturum sıfırlama ve uzatılmış gecikmeler dahil kurtarma stratejileri
- Hata ayıklama için kanıt toplama (ekran görüntüleri ve HTML)
IP Rotasyon Sistemi
VPN Yönetimi
- 12'den fazla küresel sunucu konumunda programatik VPN bağlantı yönetimi
- IP kontrolleri aracılığıyla otomatik bağlantı sağlık doğrulaması
- Sorunlu konumları önlemek için başarısız sunucu blacklisting
- Yapılandırılabilir rotasyon aralıkları (örn. her N istekte bir)
- Otomatik rotasyon tetikleyicileri için istek sayımı
- Aktif scraping oturumlarını kesintiye uğratmadan sorunsuz rotasyon
Veri Çıkarma ve İşleme
Çıkarılan Veri Alanları (80+)
Platform, çeşitli kategorilerde kapsamlı tedarikçi bilgileri çıkarır:
- Temel Bilgiler — Şirket adı, konum (ülke, il, şehir), kategori
- İletişim Bilgileri — E-posta, telefon, WhatsApp, web sitesi, messaging handles
- İş Metrikleri — İş türü, faaliyet yılı, yıllık gelir, çalışan sayısı, fabrika boyutu, doğrulama durumu, yanıt oranı
- Ürün Bilgileri — Ana ürünler, kategoriler, MOQ, fiyat aralıkları, lead times, ödeme koşulları, özelleştirme seçenekleri
- Sertifikalar — Endüstri sertifikaları (ISO, kalite, sürdürülebilirlik, güvenlik)
- Ticaret Bilgileri — İhracat yüzdesi, hedef pazarlar, ticaret koşulları, üretim kapasitesi
Veri Doğrulama ve Kalitesi
- Pydantic modelleri, alan türlerini, formatlarını ve kısıtlamalarını uygular
- E-posta ve telefon numarası formatı doğrulaması
- URL normalizasyonu ve doğrulaması
- E-posta, telefon ve şirket adı genelinde mükerrer kayıt tespiti
- Minimum veri tamamlama eşiği (%60+ alan kapsamı gereklidir)
- İş türü sınıflandırması ve normalizasyonu
Dışa Aktarım ve Organizasyon
Veriler birden fazla formatta (CSV, formatlı Excel, JSON) dışa aktarılır ve şunlara göre düzenlenir:
- Kategori — Ürün kategorisi başına ayrı veri kümeleri
- Ülke — Tedarikçi ülkesi başına ayrı veri kümeleri
- Ana Listeler — Kategoriler arası mükerrer kayıt giderme ile birleştirilmiş veri kümeleri
- Özet Raporlar — Çıkarma oranları, kapsam ve veri kalitesi üzerine istatistikler
Yapılandırma Sistemi
Tüm davranışlar, şunları kapsayan YAML yapılandırması aracılığıyla kontrol edilir:
- Alt kategoriler ve arama terimleriyle kategori tanımları
- Hedef ülkeler ve öncelikli bölgeler
- Hız sınırlaması (dakika, saat ve gün başına istekler)
- Tespit önleme ayarları (rotasyon aralıkları, çerez temizleme, davranışsal bayraklar)
- Çıkarma alanı gereksinimleri (gerekli veya isteğe bağlı)
- Dışa aktarım ayarları (mükerrer kayıt giderme, doğrulama, tamamlama eşikleri)
Temel Özellikler
- Çok Katmanlı Tespit Önleme — Fingerprint evasion, davranış simülasyonu ve oturum yönetimi
- VPN Tabanlı IP Rotasyonu — Otomatik rotasyon ve sağlık kontrolleri ile 12'den fazla küresel konum
- 80+ Veri Alanı — Doğrulanmış, yapılandırılmış verilere sahip kapsamlı tedarikçi profilleri
- İnsan Davranış Simülasyonu — Bézier mouse paths, değişken typing, gerçekçi scrolling patterns
- CAPTCHA Tespiti ve Kurtarma — Otomatik kurtarma stratejileri ile çok tipli tespit
- Çok Formatlı Dışa Aktarım — Kategori/ülke organizasyonu ile CSV, Excel ve JSON
- Veri Doğrulama — Mükerrer kayıt tespiti ve tamamlama puanlaması ile Pydantic tarafından uygulanan şemalar
- Yapılandırılabilir Kampanyalar — YAML tabanlı kategori, ülke ve hız sınırı yapılandırması
- Oturum Yönetimi — Yorgunluk simülasyonu, çerez rotasyonu ve mola planlaması
- Üretim Shell Script'leri — Farklı scraping profilleri için önceden yapılandırılmış çalıştırıcılar
Sonuçlar
Teknoloji Yığını
caseStudyDetail.more Vaka Çalışmaları
Daha fazla teknik uygulamamızı keşfedin
Yapay Zeka Destekli Blog İçeriği Kazıma ve Oluşturma Platformu
Bir medya şirketi, mevcut web içeriğini kazıyarak, yapay zeka kullanarak analiz ederek ve çıkarılan verilerden orijinal, SEO odaklı blog gönderileri oluşturarak blog içeriği oluşturmayı otomatikleştirebilecek akıllı bir içerik platformuna ihtiyaç duyuyordu.
AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)
Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.
Sıkça Sorulan Sorular
MicrocosmWorks, 50'den fazla ülkede residential proxy rotasyonu, stealth eklentilerine sahip Playwright kullanarak tarayıcı parmak izi rastgeleleştirmesi ve rastgele gecikmelerle insan benzeri istek hızlandırması içeren çok katmanlı bir kaçınma sistemi uyguladı. Sistem, doğal gezinme modellerini taklit ederek ve user agent dizelerini döndürerek hedef siteler genelinde %2'nin altında bir tespit oranını sürdürmektedir.
MicrocosmWorks, her hedef sitenin tespit hassasiyetine göre istekleri residential, datacenter ve mobil proxy havuzlarına dağıtan akıllı bir proxy yönetim katmanı yapılandırdı. Sistem, IP başına istek sayılarını izler ve rate limiting'lere yaklaşan IP'leri otomatik olarak devreden çıkarır; 10.000'den fazla dönen IP havuzu, sürekli toplama kapasitesi sağlar.
MicrocosmWorks, toplanan her tedarikçi kaydı için e-posta teslim edilebilirliğini, telefon numarası formatı ve operatör sorgulamasını, web sitesi erişilebilirliğini ve adres coğrafi kodlamasını doğrulayan bir validation pipeline oluşturdu. Tekrar eden kayıt tespiti, yinelenen girişleri önlemek için şirket adı ve adres alanlarında fuzzy matching kullanır ve eksiksizlik puanları, yeniden kazıma için kritik alanları eksik olan kayıtları işaretler.
MicrocosmWorks, her tarama döngüsünde sayfa DOM yapılarını depolanmış temel değerlerle karşılaştıran otomatik bir yapı izleme sistemi uyguladı. Selector'ların %10'undan fazlasını bozan yapısal değişiklikler tespit edildiğinde, sistem o kaynak için toplamayı duraklatır, operasyon ekibini uyarır ve birçok durumda LLM tabanlı bir selector yeniden oluşturma modülü kullanarak selector'ları otomatik olarak onarır.
MicrocosmWorks, web scraping platformlarını saatlik 20-40 ABD doları oranlarında sunmaktadır. Anti-tespit önlemleri, IP rotasyonu, validation pipeline ve admin dashboard dahil olmak üzere tam bir tedarikçi veri toplama sistemi tipik olarak 400-600 geliştirme saati gerektirir. Büyük ölçekli operasyonlar için devam eden proxy maliyetleri, toplama hacmine bağlı olarak genellikle ayda 500-2.000 ABD doları arasında değişmektedir.
İşletmenizi Dönüştürmeye Hazır mısınız?
Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.