Tespit Önleme ve IP Rotasyonu Özellikli Otomatik B2B Tedarikçi Veri Toplama Platformu
Bir tedarik ekibinin, B2B pazar yeri platformlarından yapılandırılmış iş verilerini büyük ölçekte, güvenilir bir şekilde ve engellenmeden toplayarak 19'dan fazla ürün kategorisi ve 50'den fazla ülkede kapsamlı bir tedarikçi veri tabanı oluşturması gerekiyordu.
Projenizi Tartışın
Zorluk
B2B platformlarından büyük ölçekli bir tedarikçi veri tabanı oluşturmak, birden fazla teknik engel teşkil ediyordu:
- Bot Tespitini Önleme — Hedef platformlar tarayıcı parmak izi alma, davranış analizi, CAPTCHA zorlukları ve hız sınırlaması dahil olmak üzere gelişmiş bot tespit yöntemleri kullanıyordu
- Biçim Tutarsızlığı — Tedarikçi profil düzenleri kategori ve bölgelere göre önemli ölçüde değişiklik göstererek katı kazıma şablonlarını bozuyordu
- IP Engelleme — Tek IP'lerden gelen yüksek hacimli istekler dakikalar içinde kalıcı yasaklamaları tetikliyordu
- Veri Hacmi — Düzinelerce kategoride, kayıt başına 80'den fazla alan içeren 50.000'den fazla tedarikçi profiline ihtiyaç duyuluyordu
- Veri Kalitesi — Çıkarılan veriler, doğrulama gerektiren mükerrer kayıtlar, eksik kayıtlar ve tutarsız biçimler içeriyordu
- Oturum Yönetimi — Uzun süreli kazıma oturumları, platformlar otomatik desenleri tespit ettikçe zamanla bozuluyordu
Çözümümüz
Çok katmanlı tespit önleme, VPN tabanlı IP rotasyonu, insan davranış simülasyonu ve yapılandırılmış veri dışa aktarımı ile otomatik bir B2B veri toplama platformu inşa ettik — on binlerce tedarikçi kaydını güvenilir bir şekilde toplayabilecek kapasitede.
Mimari
- Kazıma Motoru: Kaçınma özellikli tarayıcı otomasyonu için Selenium ile undetected ChromeDriver
- Tespit Önleme Katmanı: Tarayıcı parmak izi rastgeleleştirme, insan davranış simülasyonu ve CAPTCHA tespiti
- IP Rotasyonu: 12'den fazla global konumda programatik sunucu geçişi sağlayan VPN yöneticisi
- Veri İşleme: Doğrulama için Pydantic modelleri, dönüşüm için pandas, çok formatlı dışa aktarım
- Yapılandırma: Kategoriler, ülkeler, hız sınırları ve tespit önleme parametreleri için YAML tabanlı ayarlar
- Kayıt Tutma ve İzleme: Oturum başına başarı/başarısızlık oranı takibi ile yapılandırılmış kayıt tutma
Tespit Önleme Mimarisi
Tarayıcı Parmak İzi Kaçınması
Platform, her oturum için aşağıdaki özellikleri kapsayan rastgele tarayıcı parmak izleri oluşturur:
- Ekran çözünürlüğü, renk derinliği ve cihaz piksel oranı
- Navigator özellikleri (platform, dil, donanım eşzamanlılığı)
- WebGL üretici ve render bilgileri
- Canvas ve ses parmak izi gürültü enjeksiyonu
- Sahtesi oluşturulan platformla eşleşen gerçekçi eklenti ve font listeleri
- Tüm parmak izi özelliklerinde zaman dilimi tutarlılığı
İnsan Davranışı Simülasyonu
Doğal gezinme modellerini taklit etmek için sistem şunları uygular:
- Fare Hareketi — Gerçekçi hızlanma ve yavaşlama ile Bézier eğrisi tabanlı yollar
- Yazma Simülasyonu — Ara sıra gerçekçi hatalarla değişken yazma hızları
- Kaydırma Desenleri — Birden fazla davranış modu (dikkatli okuma, hızlı tarama, dikkati dağılmış gezinme)
- Tıklama Tereddütü — Etkileşimlerden önce doğal gecikmeler
- Oturum Yorgunluğu — İnsan yorgunluğunu taklit etmek için uzun oturumlar boyunca davranış değişiklikleri
- Mola Simülasyonu — Uzatılmış oturumlar için rastgele duraklamalar
CAPTCHA Tespiti ve Kurtarma
- Çoklu tip tespit (reCAPTCHA, hCaptcha, Cloudflare zorlukları, kaydırmalı CAPTCHA'lar)
- Her tespit için güven puanlaması
- IP rotasyonu, oturum sıfırlama ve uzatılmış gecikmeler dahil kurtarma stratejileri
- Hata ayıklama için kanıt toplama (ekran görüntüleri ve HTML)
IP Rotasyon Sistemi
VPN Yönetimi
- 12'den fazla global sunucu konumunda programatik VPN bağlantı yönetimi
- IP kontrolleri aracılığıyla otomatik bağlantı sağlık doğrulaması
- Sorunlu konumları önlemek için başarısız sunucuların kara listeye alınması
- Yapılandırılabilir rotasyon aralıkları (örn. her N istekte bir)
- Otomatik rotasyon tetikleyicileri için istek sayımı
- Aktif kazıma oturumlarını kesintiye uğratmadan kesintisiz rotasyon
Veri Çıkarma ve İşleme
Çıkarılan Veri Alanları (80+)
Platform, çeşitli kategorilerde kapsamlı tedarikçi bilgileri çıkarır:
- Temel Bilgiler — Şirket adı, konum (ülke, eyalet, şehir), kategori
- İletişim Bilgileri — E-posta, telefon, WhatsApp, web sitesi, mesajlaşma kolları
- İş Metrikleri — İş türü, faaliyet yılları, yıllık gelir, çalışan sayısı, fabrika büyüklüğü, doğrulama durumu, yanıt oranı
- Ürün Bilgileri — Ana ürünler, kategoriler, MOQ, fiyat aralıkları, teslim süreleri, ödeme koşulları, özelleştirme seçenekleri
- Sertifikalar — Endüstriyel sertifikalar (ISO, kalite, sürdürülebilirlik, güvenlik)
- Ticaret Bilgileri — İhracat yüzdesi, hedef pazarlar, ticaret koşulları, üretim kapasitesi
Veri Doğrulama ve Kalitesi
- Pydantic modelleri, alan türlerini, formatlarını ve kısıtlamalarını uygular
- E-posta ve telefon numarası formatı doğrulama
- URL normalizasyonu ve doğrulaması
- E-posta, telefon ve şirket adı genelinde mükerrer kayıt tespiti
- Minimum veri tamamlanma eşiği (%60+ alan kapsamı gereklidir)
- İş türü sınıflandırması ve normalizasyonu
Dışa Aktarma ve Organizasyon
Veriler birden fazla formatta (CSV, formatlı Excel, JSON) dışa aktarılır ve şunlara göre düzenlenir:
- Kategori — Ürün kategorisi başına ayrı veri kümeleri
- Ülke — Tedarikçi ülkesi başına ayrı veri kümeleri
- Ana Listeler — Kategori içi mükerrer kayıt giderme ile birleştirilmiş veri kümeleri
- Özet Raporlar — Çıkarma oranları, kapsam ve veri kalitesi üzerine istatistikler
Yapılandırma Sistemi
Tüm davranışlar, aşağıdakileri kapsayan YAML yapılandırması aracılığıyla kontrol edilir:
- Alt kategoriler ve arama terimleri ile kategori tanımları
- Hedef ülkeler ve öncelikli bölgeler
- Hız sınırlaması (dakika, saat ve gün başına istekler)
- Tespit önleme ayarları (rotasyon aralıkları, çerez temizleme, davranışsal bayraklar)
- Çıkarma alanı gereksinimleri (gerekli ve isteğe bağlı)
- Dışa aktarma ayarları (mükerrer kayıt giderme, doğrulama, tamamlama eşikleri)
Temel Özellikler
- Çok Katmanlı Tespit Önleme — Parmak izi kaçınma, davranış simülasyonu ve oturum yönetimi
- VPN Tabanlı IP Rotasyonu — Otomatik rotasyon ve sağlık kontrolleri ile 12'den fazla global konum
- 80+ Veri Alanı — Doğrulanmış, yapılandırılmış verilere sahip kapsamlı tedarikçi profilleri
- İnsan Davranışı Simülasyonu — Bézier fare yolları, değişken yazma, gerçekçi kaydırma desenleri
- CAPTCHA Tespiti ve Kurtarma — Otomatik kurtarma stratejileri ile çoklu tip tespit
- Çok Formatlı Dışa Aktarım — Kategori/ülke organizasyonu ile CSV, Excel ve JSON
- Veri Doğrulama — Pydantic tarafından uygulanan şemalar, mükerrer kayıt tespiti ve tamamlama puanlaması ile
- Yapılandırılabilir Kampanyalar — YAML destekli kategori, ülke ve hız sınırlaması yapılandırması
- Oturum Yönetimi — Yorgunluk simülasyonu, çerez rotasyonu ve mola planlaması
- Üretim Shell Betikleri — Farklı kazıma profilleri için önceden yapılandırılmış çalıştırıcılar
Sonuçlar
Teknoloji Yığını
caseStudyDetail.more Vaka Çalışmaları
Daha fazla teknik uygulamamızı keşfedin
Yapay Zeka Destekli Blog İçeriği Kazıma ve Oluşturma Platformu
Bir medya şirketi, mevcut web içeriğini kazıyarak, yapay zeka kullanarak analiz ederek ve çıkarılan verilerden orijinal, SEO odaklı blog gönderileri oluşturarak blog içeriği oluşturmayı otomatikleştirebilecek akıllı bir içerik platformuna ihtiyaç duyuyordu.
AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)
Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.
Sıkça Sorulan Sorular
MicrocosmWorks implemented a multi-layered evasion system including residential proxy rotation across 50+ countries, browser fingerprint randomization using Playwright with stealth plugins, and human-like request pacing with randomized delays. The system maintains a detection rate below 2% across target sites by mimicking natural browsing patterns and rotating user agent strings.
MicrocosmWorks configured an intelligent proxy management layer that distributes requests across residential, datacenter, and mobile proxy pools based on each target site's detection sensitivity. The system tracks per-IP request counts and automatically retires IPs approaching rate limits, with a pool of over 10,000 rotating IPs ensuring continuous collection capacity.
MicrocosmWorks built a validation pipeline that verifies email deliverability, phone number format and carrier lookup, website availability, and address geocoding for every collected supplier record. Duplicate detection uses fuzzy matching on company name and address fields to prevent duplicate entries, and completeness scores flag records missing critical fields for re-scraping.
MicrocosmWorks implemented an automated structure monitoring system that compares page DOM structures against stored baselines on every crawl cycle. When structural changes are detected that break more than 10% of selectors, the system pauses collection for that source, alerts the operations team, and in many cases auto-repairs selectors using an LLM-based selector regeneration module.
MicrocosmWorks delivers web scraping platforms at rates of $20-$40/hr, with a full supplier data collection system including anti-detection measures, IP rotation, validation pipeline, and admin dashboard typically requiring 400-600 development hours. Ongoing proxy costs for large-scale operations typically run $500-$2,000/month depending on collection volume.
İşletmenizi Dönüştürmeye Hazır mısınız?
Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.