広告ブロック&キャッシュクリア

Friday, April 27, 2018 2:47 AM

一般に、Octoparseで作ったタスクは、対象のWebページを開くことから始まります。この手順を容易にするため、広告ブロックとキャッシュクリアという2つの機能を提供しています。これらの機能を適切に活用することで、Webスクレイピングの作業を大幅に高速化できます。

 

 

 

広告ブロック

クローラの抽出速度は、ページの読み込み速度の影響を受けます。バナーやポップアップなど多くの広告がページに表示された場合、ページの読み込みは遅くなり、時間がかかります。 広告をブロックすると、読み込みは速くなります。

 

広告をブロックする方法

Octoparseには広告ブロックを設定する方法が2つあります。

1. 「Webページを開く」のステップを選択して、「操作ヒント」の「ポップアップをブロックする」を簡単に見つけられます。

 

 

2. または「設定」をクリックすると、「広告をブロックする」オプションがあります。

 

 

 

ヒント!

広告ブロック技術を使うと、Webページの構造が変更されることがあります。その場合は、要素の位置を定めるためにXPathを直してください。

XPathで要素を見つける詳細をご覧ください。

 

 

 

 

キャッシュクリア

例えば、ログイン後にデータを抽出するために、保存されたクッキーを削除する必要がある場合など、Octoparseではキャッシュクリアのオプション提供し、ページを再度読み込むこともできます。

 

 

キャッシュをクリアする方法

1. 「Webページを開く」のステップを選択すると、「高級オプション」で「Webページを読み込む前にキャッシュを削除する」を簡単に見つけられます。

 

2. ページを開いた後、Octoparseに新しいクッキーを保存記憶させたいのも簡単です。

  • 次の指定Cookieを使う」をクリックします。
  • 現在ページからCookieを読み込む」をクリックします。

そうすると、新しいクッキーはOctoparseに保存されました。

 

ヒント!

1. クッキーはさまざまなので、有効期間も異なります。ブラウザを閉じた後すぐに無効になるのがあり、長く滞在するのもあります。Octoparseでは、保存されたクッキーは有効期限が切れたら無効になります。ですから、キャッシュをクリアしてクッキーを再度読み込む必要があります。

2. キャッシュ設定は、特にログインが必要なウェブサイトにとっては非常に重要です。ログインした後のデータ取得ご覧ください。

 

関連記事:

XPathで要素を見つける

ログインした後のデータ取得

 

btn_sidebar_use.png
btn_sidebar_form.png