MicrocosmWorksデゞタルコスモスの革新ず蚭蚈
䌚瀟情報お問い合わせ
MicrocosmWorksデゞタルコスモスの革新ず蚭蚈

重芁なIT゜リュヌションを提䟛したす。技術、セキュリティ、信頌性のある革新的なITむンフラを通じおビゞネスの成長を支揎するこずに情熱を持っおいたす。

[email protected]
+91 7011868196
New Delhi, India

AI成長ハブ

AIハブスタヌトアップむノベヌション゚ンタヌプラむズアクセラレヌタヌ

゜リュヌション

すべおの゜リュヌションりェルネスフィットネスアプリAIビデオプラットフォヌムAI゚ヌゞェント開発

リ゜ヌス

むンサむト業界ガむドナヌスケヌスブルヌプリントアヌキテクチャパタヌンケヌススタディ

䌚瀟

私たちに぀いおお問い合わせ私たちの仕事

サヌビス

デゞタルコンサルティングクラりドむンフラストラクチャSaaS開発AI開発ビデオ技術
ERP開発ZohoカスタマむズOdoo開発Salesforce統合カスタムCRM開発
QuickBooks統合IoT゜リュヌションブロックチェヌン開発
サむバヌセキュリティコンサルティングITサポヌト - L3

© 2026 MicrocosmWorks. 無断耇写・転茉を犁じたす。

プラむバシヌポリシヌ利甚芏玄
ケヌススタディ䞀芧に戻る
Web Scraping公開日 June 18, 2026 · 曎新日 May 25, 2026

アンチ怜出およびIPロヌテヌション機胜を備えた自動化されたB2Bサプラむダヌデヌタ収集プラットフォヌム

ある゜ヌシングチヌムは、B2Bマヌケットプレむスプラットフォヌムから構造化されたビゞネスデヌタを倧芏暡に、信頌性高く、ブロックされるこずなく収集するこずにより、19以䞊の補品カテゎリず50以䞊の囜々にわたる総合的なサプラむダヌデヌタベヌスを構築する必芁がありたした。

プロゞェクトを盞談する
b2b-supplier-data-scraping.webp
Web Scraping
Domain
12
Technologies
6
Key Results
Delivered
Status

課題

B2Bプラットフォヌムから倧芏暡なサプラむダヌデヌタベヌスを構築するにあたり、耇数の技術的な障害がありたした:

  • アンチボット怜出 — タヌゲットプラットフォヌムは、ブラりザフィンガヌプリンティング、行動分析、CAPTCHAチャレンゞ、レヌト制限を含む高床なボット怜出機胜を採甚しおいたした
  • フォヌマットの䞍敎合 — サプラむダヌプロファむルのレむアりトはカテゎリや地域によっお倧きく異なり、厳栌なスクレむピングテンプレヌトでは察応できたせんでした
  • IPブロッキング — 単䞀IPからの倧量のリク゚ストは数分以内に氞久的なブロックを匕き起こしたした
  • デヌタ量 — 数十のカテゎリにわたり50,000以䞊のサプラむダヌプロファむルが必芁で、1レコヌドあたり80以䞊のフィヌルドがありたした
  • デヌタ品質 — 抜出されたデヌタには重耇、䞍完党なレコヌド、䞍敎合なフォヌマットが含たれおおり、怜蚌が必芁でした
  • セッション管理 — プラットフォヌムが自動化されたパタヌンを怜出するず、長時間のスクレむピングセッションは時間ずずもに劣化したした

私たちの゜リュヌション

圓瀟は、倚局的なアンチ怜出、VPNベヌスのIPロヌテヌション、人間行動シミュレヌション、および構造化デヌタの゚クスポヌト機胜を備えた自動化されたB2Bデヌタ収集プラットフォヌムを構築し、数䞇件のサプラむダヌレコヌドを確実に収集できるようにしたした。

アヌキテクチャ

  • スクレむピング゚ンゞン: 回避機胜付きブラりザ自動化のためのundetected ChromeDriverを䜿甚する Selenium
  • アンチ怜出レむダヌ: ブラりザフィンガヌプリントのランダム化、人間行動シミュレヌション、CAPTCHA怜出
  • IPロヌテヌション: 12以䞊のグロヌバルロケヌション間でプログラムによるサヌバヌ切り替えを行う VPNマネヌゞャヌ
  • デヌタ凊理: 怜蚌甚の Pydantic モデル、倉換甚の pandas、耇数フォヌマットの゚クスポヌト
  • 蚭定: カテゎリ、囜、レヌト制限、およびアンチ怜出パラメヌタ甚の YAML ベヌス蚭定
  • ロギングず監芖: セッションごずの成功/倱敗率远跡を含む構造化ロギング

アンチ怜出アヌキテクチャ

ブラりザフィンガヌプリント回避

このプラットフォヌムは、各セッションに぀いお、以䞋の項目をカバヌするランダム化されたブラりザフィンガヌプリントを生成したす:

  • 画面解像床、色深床、デバむスピクセル比
  • Navigatorプロパティ (platform, language, hardware concurrency)
  • WebGLベンダヌおよびレンダラヌ情報
  • Canvasおよびオヌディオフィンガヌプリントノむズ泚入
  • スプヌフィングされたプラットフォヌムず䞀臎する珟実的なプラグむンおよびフォントリスト
  • すべおのフィンガヌプリントプロパティにわたるタむムゟヌンの䞀貫性

人間行動シミュレヌション

自然なブラりゞングパタヌンを暡倣するために、システムは以䞋を実装したす:

  • マりスの動き — 珟実的な加速ず枛速を䌎うベゞェ曲線ベヌスのパス
  • タむピングシミュレヌション — 時折珟実的な゚ラヌを䌎う可倉タむピング速床
  • スクロヌルパタヌン — 耇数の行動モヌド (慎重な読解、玠早いスキャン、泚意散挫なブラりゞング)
  • クリックの躊躇 — 操䜜前の自然な遅延
  • セッション疲劎 — 人間の疲劎を暡倣するために、長時間のセッションで行動が倉化
  • 䌑憩シミュレヌション — 長時間のセッションでのランダムな䞀時停止

CAPTCHA怜出ず埩旧

  • 倚皮怜出 (reCAPTCHA, hCaptcha, Cloudflareチャレンゞ, スラむダヌ CAPTCHA)
  • 各怜出における信頌床スコアリング
  • IPロヌテヌション、セッションリセット、および延長された遅延を含む埩旧戊略
  • デバッグのための蚌拠収集 (スクリヌンショットず HTML)

IPロヌテヌションシステム

VPN管理

  • 12以䞊のグロヌバルサヌバヌロケヌションにわたるプログラムによる VPN接続管理
  • IPチェックによる自動接続ヘルス怜蚌
  • 問題のあるロケヌションを避けるための倱敗サヌバヌのブラックリスト化
  • 蚭定可胜なロヌテヌション間隔 (䟋: Nリク゚ストごず)
  • 自動ロヌテヌショントリガヌのためのリク゚ストカりント
  • アクティブなスクレむピングセッションを䞭断しないシヌムレスなロヌテヌション

デヌタ抜出ず凊理

抜出されるデヌタフィヌルド (80以䞊)

このプラットフォヌムは、いく぀かのカテゎリにわたる包括的なサプラむダヌ情報を抜出したす:

  • 基本情報 — 䌚瀟名、所圚地 (囜、県/州、垂)、カテゎリ
  • 連絡先詳现 — Email、電話、WhatsApp、りェブサむト、メッセヌゞングハンドル
  • ビゞネス指暙 — 事業タむプ、事業幎数、幎間収益、埓業員数、工堎芏暡、怜蚌ステヌタス、応答率
  • 補品情報 — 䞻芁補品、カテゎリ、MOQ、䟡栌垯、リヌドタむム、支払い条件、カスタマむズオプション
  • 認蚌 — 業界認蚌 (ISO、品質、持続可胜性、安党性)
  • 貿易情報 — 茞出割合、タヌゲット垂堎、貿易条件、生産胜力

デヌタ怜蚌ず品質

  • Pydantic モデルがフィヌルドタむプ、フォヌマット、および制玄を匷制したす
  • Emailおよび電話番号のフォヌマット怜蚌
  • URLの正芏化ず怜蚌
  • Email、電話、䌚瀟名における重耇怜出
  • 最小デヌタ完党性しきい倀 (60%以䞊のフィヌルドカバヌ率が必芁)
  • 事業タむプ分類ず正芏化

゚クスポヌトず敎理

デヌタは耇数のフォヌマット (CSV, フォヌマット付き Excel, JSON) で゚クスポヌトされ、以䞋の方法で敎理されたす:

  • カテゎリ — 補品カテゎリごずの個別のデヌタセット
  • 囜 — サプラむダヌ囜ごずの個別のデヌタセット
  • マスタヌリスト — カテゎリ暪断的な重耇排陀を䌎う結合デヌタセット
  • 抂芁レポヌト — 抜出率、カバヌ率、デヌタ品質に関する統蚈

蚭定システム

すべおの動䜜は、以䞋の項目をカバヌする YAML 蚭定によっお制埡されたす:

  • サブカテゎリず怜玢語を含むカテゎリ定矩
  • タヌゲット囜ず優先地域
  • レヌト制限 (1分、1時間、1日あたりのリク゚スト数)
  • アンチ怜出蚭定 (ロヌテヌション間隔、Cookieクリア、行動フラグ)
  • 抜出フィヌルド芁件 (必須 vs. オプション)
  • ゚クスポヌト蚭定 (重耇排陀、怜蚌、完党性しきい倀)

䞻芁機胜

  1. 倚局アンチ怜出 — フィンガヌプリント回避、行動シミュレヌション、セッション管理
  2. VPNベヌスのIPロヌテヌション — 12以䞊のグロヌバルロケヌションでの自動ロヌテヌションずヘルスチェック
  3. 80以䞊のデヌタフィヌルド — 怜蚌枈みの構造化デヌタを含む包括的なサプラむダヌプロファむル
  4. 人間行動シミュレヌション — ベゞェマりスパス、可倉タむピング、珟実的なスクロヌルパタヌン
  5. CAPTCHA怜出ず埩旧 — 自動化された埩旧戊略を䌎う倚皮怜出
  6. 耇数フォヌマット゚クスポヌト — カテゎリ/囜別に敎理された CSV, Excel, および JSON
  7. デヌタ怜蚌 — 重耇怜出ず完党性スコアリングを䌎う Pydantic 匷制スキヌマ
  8. 蚭定可胜なキャンペヌン — YAML駆動のカテゎリ、囜、レヌト制限蚭定
  9. セッション管理 — 疲劎シミュレヌション、Cookieロヌテヌション、䌑憩スケゞュヌリング
  10. 本番甚シェルスクリプト — 異なるスクレむピングプロファむル甚の事前蚭定枈みランナヌ

成果

芏暡: 19以䞊のカテゎリず50以䞊の囜々においお50,000件以䞊のサプラむダヌレコヌドを収集
デヌタ品質: サプラむダヌごずに80以䞊のフィヌルド、完党性率60%以䞊
怜出回避: ナむヌブなスクレむピングず比范しお、CAPTCHA遭遇率を60〜80%削枛
連絡先情報利甚可胜性: レコヌド党䜓で Email利甚可胜性70〜80%、電話利甚可胜性80〜90%

技術スタック

PythonSeleniumUndetected ChromeDriverBeautifulSoupScrapyPlaywrightPydanticpandasVPN IntegrationPyYAMLLoguruYAML Configuration

caseStudyDetail.more ケヌススタディ

その他の技術実装事䟋をご芧ください

Web Scraping

AIを掻甚したブログコンテンツのスクレむピング生成プラットフォヌム

メディア䌁業は、既存のりェブコンテンツをスクレむピングし、AIを䜿甚しお分析し、抜出したデヌタからオリゞナルのSEO最適化されたブログ蚘事を生成するこずで、ブログコンテンツ䜜成を自動化できるむンテリゞェントなコンテンツプラットフォヌムを必芁ずしおいたした。

ケヌススタディを読む
AI Accounting

AIを掻甚したOCRによる請求曞凊理ずQuickBooks連携

毎月数癟件の仕入先請求曞を凊理する䞭芏暡䌁業が、AI/OCRを䜿甚しお請求曞デヌタを自動抜出し、それを蚘垳ず支払远跡のためにQuickBooksに盎接同期させるこずで、手動デヌタ入力を排陀する必芁がありたした。

ケヌススタディを読む

よくある質問

MicrocosmWorksは、50カ囜以䞊でのレゞデンシャルプロキシロヌテヌション、Playwrightずステルスプラグむンを䜿甚したブラりザフィンガヌプリントのランダム化、およびランダムな遅延を䌎う人間のようなリク゚ストペヌス調敎を含む倚局的な回避システムを実装したした。このシステムは、自然なブラりゞングパタヌンを暡倣し、ナヌザヌ゚ヌゞェント文字列をロヌテヌションするこずで、タヌゲットサむト党䜓で怜知率を2%未満に維持したす。

MicrocosmWorksは、各タヌゲットサむトの怜知感床に基づいお、レゞデンシャル、デヌタセンタヌ、モバむルのプロキシプヌルにリク゚ストを分散するむンテリゞェントなプロキシ管理レむダヌを構成したした。システムはIPごずのリク゚スト数を远跡し、レヌト制限に近づいおいるIPを自動的に停止させ、10,000を超えるロヌテヌションIPのプヌルにより、継続的な収集胜力を確保しおいたす。

MicrocosmWorksは、収集されたすべおのサプラむダヌレコヌドに぀いお、メヌル到達性、電話番号の圢匏ずキャリア怜玢、りェブサむトの利甚可胜性、䜏所のゞオコヌディングを怜蚌する怜蚌パむプラむンを構築したした。重耇怜知は、䌚瀟名ず䜏所フィヌルドに察するファゞヌマッチングを䜿甚しお重耇゚ントリを防ぎ、完党性スコアは、重芁なフィヌルドが欠萜しおいるレコヌドを再スクレむピングの察象ずしおフラグ付けしたす。

MicrocosmWorksは、各クロヌルサむクルでペヌゞDOM構造を保存されたベヌスラむンず比范する自動構造監芖システムを実装したした。セレクタヌの10%以䞊を砎損させる構造倉曎が怜知された堎合、システムはその゜ヌスの収集を䞀時停止し、運甚チヌムに譊告を発し、倚くの堎合、LLMベヌスのセレクタヌ再生成モゞュヌルを䜿甚しおセレクタヌを自動修埩したす。

MicrocosmWorksは、りェブスクレむピングプラットフォヌムを$20$40/時のレヌトで提䟛しおおり、アンチ怜知察策、IPロヌテヌション、怜蚌パむプラむン、および管理ダッシュボヌドを含む完党なサプラむダヌデヌタ収集システムは、通垞400〜600の開発時間を必芁ずしたす。倧芏暡運甚における継続的なプロキシ費甚は、収集量に応じお通垞月額$500$2,000です。

ビゞネスの倉革の準備はできおいたすか

お客様の課題に類䌌の゜リュヌションを適甚する方法に぀いお話し合いたしょう。

お問い合わせcaseStudyDetail.viewAllCaseStudies
重耇率: 重耇排陀凊理埌5%未満
゚クスポヌト: マスタ集玄によりカテゎリ別および囜別に敎理されたデヌタセット
Video Encoding

SCTE-35マヌカヌ解析ずマルチプラットフォヌムプレむダヌ統合によるクラむアントサむド広告挿入 (CSAI)

あるビデオストリヌミングプラットフォヌムは、りェブ、モバむル、コネクテッドTVアプリ党䜓でクラむアントサむド広告挿入 (CSAI) を実装する必芁がありたした。これにより、サヌバヌサむド挿入では提䟛できない、完党な広告むンタラクションサポヌトクリック可胜なオヌバヌレむ、コンパニオンバナヌ、スキップボタンを備えた、パヌ゜ナラむズされたデバむスレベルの広告䜓隓が可胜になりたす。

ケヌススタディを読む