IPローテーション用のプロキシを設定する

Sunday, April 08, 2018 10:34 AM

サイトのスクレイピングは、スクレイピング先のサーバーに負荷をかけるため、あるサイトはIPブロックのようなスクレイビング防止対策を取ります。Octoparseでプロキシの手動設定は、外部プロキシー(または特定の国)からサイトにアクセスしたい場合や、クラウド抽出  の自動IPローテーション機能を使わなくご自分のプロキシを使う場合にとても便利です。また、「スクレイピング禁止」と書かれているサイトでのご利用は控えてください。

 

有料の外部プロキシ設定機能を持つ他のスクレイピングツールとは異なり、Octoparseではすべてのユーザーがカスタマイズのプロキシを追加できます。IPアクセス拒否は、スクレイピングに発生する問題の1つです。ですから、プロキシまたはプロキシサーバーは、Webスクレイピングの不可欠な部分であり、匿名Webスクレイピングに広く使用されています。

ローテーションに外部プロキシを使うには:

 

タスクの設定が完了したら、ワークフローの上にある「設定」をクリックします。

(「設定」オプションは、ワークフローに「テキストを抽出する」ステップがある場合にのみ使用できます。)

 

 

「IPプロキシを使う」を選択し、「設定」をクリックしてカスタムプロキシを追加します。 現在、OctoparseはHTTPプロキシだけをサポートしています。プロキシサーバーのIPアドレスとポート番号をコロンで区切ります。

複数のIPがある場合は、「IPプロキシ」に各プロキシを新しい行で追加します。

 

 

「OK」と「保存する」をクリックして変更を保存します。ローカルでタスクを行うとき、Octoparseは設定のIPに従って実行します。

 

ヒント!

プロキシのカスタマイズは、ローカル抽出 でのみ使用可能です。(現在、Octoparseはローカル抽出のIPプロキシーを提供していません。外部プロキシーを取得するには、Web上にプロキシサーバーが多数あります。)

 Octoparse有料版 の場合、ローカル抽出 を選択すると、タスクは独自のIPアドレスを持つ数千台のクラウドサーバによってサポートされるクラウドプラットフォーム上で実行されます。6〜20台のサーバーが同時に割り当てられ、さまざまなIPを介してアクセスするため、追跡またはブラックリストに登録する可能性が最小限に抑えられます。

(Octoparseクラウドサービスのメリットを見る)

 

プロキシを使ってIPアドレスを変更してOctoparseにログインする - 学校または企業のイントラネットが外部アクセスを制限するせいで、Octoparseにログインできない場合、プロキシを使ってOctoparseを使用します。

これを行うには、「IPプロキシを使う」をクリックし、必要な情報を入力してください:

接続が成功したかどうかをテストするには、「テストボタンをクリックします。 成功すると、以下の提示が出てきます。

 

関連記事:

クラウドでタスクを行う 

ローカルコンピューターでタスクを行う 

タスクとは?

 

btn_sidebar_use.png
btn_sidebar_form.png