Octoparseで複数のページからデータを取得するタスクを作る方法を学んだので、Local Extraction(ローカル抽出)またはCloud Extraction(クラウド抽出)を使ってタスクを行い、データを抽出しましょう。
1) 「ローカル抽出」でタスクを行う
タスクを作った後、「操作ヒント」パネルで「保存して実行」をクリックするか、「抽出開始」をクリックするか、タスクを行います。

次に、「ローカル抽出」を選択してローカルクライアント上でスクレイピングを行います。

「ローカル抽出」画面では、Webページが設定されたワークフローによって自動的に行われ、「抽出したデータ」パネルにどんどんデータを取得してくれます。

タスクの実行を行うと、「抽出したデータ」パネルの下部に抽出した行数とかかった時間を知らせます。

または、ダッシュボード(Dashboard)からローカルクライアント上のデータ抽出量を確認できます。

「抽出設定」をクリックすると:
· ローカル抽出プロセス中にエラーメッセージを表示する(「ローカル抽出」処理中のエラーメッセージを表示する)
· ローカル抽出で「画像の読み込みを無効にする」でイメージの読み込みを無効にする)
· メモリ解放(メモリを自動リリースする)

ヒント!
1.「ローカル抽出」はどこで行いますか?
「ローカル抽出」を使ってタスクを行うと、ご自分のローカルIPアドレスを使ってローカルクライアント上で行います。
2.「ローカル抽出」の速度に影響するものは何ですか?
「ローカル抽出」の速度は、コンピュータの性能、インターネット、対象サイトの読み込み速度に影響されます。
|
2) 「クラウド抽出」でタスクを行う(有料版の場合)
「クラウド抽出」を選択すると、Octoparseのクラウドプラットフォーム上でスクレイピングを行い、コンピュータまたはアプリケーションが停止されてもタスクを実行できます。Octoparseクラウドサービスには自動IPローテーション、スケジュール設定、抽出速度向上、API接続などの高度な機能があります。(Octoparseクラウドサービスを見る
)
ヒント!
1. クラウドタスクのIPは何ですか?
クラウドタスクは、それぞれ唯一のIPアドレスを持つクラウドサーバー上で行われます。「クラウド抽出」を選択すると、タスクは6〜20台のサーバーに同時配布され、対象サイトでブラックリストに登録される可能性が最小限に抑えられます。
2. 「クラウド抽出」ではどのように抽出速度を向上しますか?
タスクが分割可能な場合、複数のサーバーで同時に行われるサブタスクに分割されます。 (分割可能なタスクタイプを見る )
|
「クラウド抽出」をクリックしてクラウド上でタスクを行います。タスクが正しく設定されば、抽出したデータに自由にアクセスできます。

ダッシュボード(Dashboard)からクラウドタスクのステータスを確認できます。
「編集」をクリックすると、さまざまなタスクステータスを選択できます。

抽出量とかかった時間も、ダッシュボードで表示できます。

レッスン8:取得したデータを出力する