Octoparseで作ったWebスクレイピングタスクは、ローカルコンピューター(ローカル抽出) またはクラウド (クラウド抽出
)で実行できます。ローカルでタスクを行うと、
1) ワークフローの問題をトラブルシューティング/デバッグ
2) クラウドリソースを利用せずにデータを抽出する
ヒント!
ローカル抽出は、無料版と有料版両方にも利用できます。無料版の場合、毎回出力データ数が10,000件と並行処理 が2件に制限されています。有料版ならその制限はありません。
|
このチュートリアルでは、次の機能について説明します。
ローカル抽出でタスクを行う
ウィザードモード
では、Octoparseが「完成」に進むと、「ローカル抽出」をクリックしてローカルコンピューターでスクレイピングタスクを実行できます。

カスタマイズモード ら、「抽出開始」をクリックし、[ローカル抽出」を選択できます。

次に、タスクの実行プロセスが見られるし、取得したデータもを表示できます。

ローカル抽出の設定
タスク実行中、ローカルタスクの「抽出設定」を変更できます。Octoparseはこれらの3つの機能をデフォルトで無効にします。タスクの要件に基づいて有効にできます。

メッセージを表示する: データ欠落などのエラーが発生した場合、内蔵ブラウザにエラーメッセージが表示されます。
画像を読む: 画像の読み込みを無効にして、Webページを開く時間を短くします。
メモリ解放: ローカル抽出はコンピュータのメモリをを占用します。解放するには「メモリ解放」を選択してください。
ヒント!
1. ローカルタスクはどこで実行されますか?
ローカル抽出でローカルコンピューターでクローリングします。あるWebサイトでは同じIPの訪問時間を制限する場合があります。このような状況下では、制限を超えるなら、ブロックされる可能性があります。
2. ローカル抽出は何に影響しますか?
クローリングはローカルマシン上で実行されているため、ネットワークの速度とハードウェアの性能に影響します。
|
関連記事:
Cloud Extraction 
Wizard Mode 
Advanced Mode 
並行処理とは?