一般に、Octoparseで作ったタスクは、対象のWebページを開くことから始まります。この手順を容易にするため、広告ブロックとキャッシュクリアという2つの機能を提供しています。これらの機能を適切に活用することで、Webスクレイピングの作業を大幅に高速化できます。
広告ブロック
クローラの抽出速度は、ページの読み込み速度の影響を受けます。バナーやポップアップなど多くの広告がページに表示された場合、ページの読み込みは遅くなり、時間がかかります。 広告をブロックすると、読み込みは速くなります。
広告をブロックする方法
Octoparseには広告ブロックを設定する方法が2つあります。
1. 「Webページを開く」のステップを選択して、「操作ヒント」の「ポップアップをブロックする」を簡単に見つけられます。
2. または「設定」をクリックすると、「広告をブロックする」オプションがあります。

キャッシュクリア
例えば、ログイン後にデータを抽出するために、保存されたクッキーを削除する必要がある場合など、Octoparseではキャッシュクリアのオプション提供し、ページを再度読み込むこともできます。
キャッシュをクリアする方法
1. 「Webページを開く」のステップを選択すると、「高級オプション」で「Webページを読み込む前にキャッシュを削除する」を簡単に見つけられます。

2. ページを開いた後、Octoparseに新しいクッキーを保存記憶させたいのも簡単です。
- 「次の指定Cookieを使う」をクリックします。
- 「現在ページからCookieを読み込む」をクリックします。

そうすると、新しいクッキーはOctoparseに保存されました。
ヒント!
1. クッキーはさまざまなので、有効期間も異なります。ブラウザを閉じた後すぐに無効になるのがあり、長く滞在するのもあります。Octoparseでは、保存されたクッキーは有効期限が切れたら無効になります。ですから、キャッシュをクリアしてクッキーを再度読み込む必要があります。
2. キャッシュ設定は、特にログインが必要なウェブサイトにとっては非常に重要です。ログインした後のデータ取得ご覧ください。
|
関連記事:
XPathで要素を見つける
ログインした後のデータ取得