漸増抽出 - 更新されたデータを簡単に入手する

Thursday, April 18, 2019 10:47 AM

ニュースポータルやフォーラムなどのWebサイトでは、動的ではないにしても、通常は新しいコンテンツをすばやく追加できます。 このようなWebサイトを常に最新の状態に保つために、Octoparseの漸増抽出では、すでに開かれたページをスキップすることで、更新されたデータをより効果的に抽出できます。いわゆる、開かれていないページから更新されたデータだけをスプレイピングします。

 

漸増抽出をいつ使用しますか?

 

以下の条件を満たす場合は、漸増抽出をご利用してください。

1.1つのWebサイトから必要なデータが頻繁に更新された場合

2.新しい情報が更新されたWebページ(新しいURL)で表示される場合(既存のWebページに新しい情報が追加または更新されるのではありません)。

 

CNN.comを例として説明します。CNN.comからほぼリアルタイムでニュースフィードを取得する必要がある場合なら、サイトに追加されたものがタイムリーに抽出されるように、必要な頻度でタスク/クローラーをスケジュールして実行することが重要です。これは基準(1)に満たされます。さらに、CNN.comの各ニュース記事には更新されたURLがある場合も、それらのURLが簡単に識別できます。これは基準(2)にも満たされています。

タスクを予め設定したとしましょう。前の実行ですでに取得された記事をもう一度取得するのは意味がありません。漸増抽出を使用すると、URLリストが抽出されていないかどうかを最初に確認し、新しいものしか取得されないようになっています。

 

漸増抽出はどうやって新しいデータを識別しますか。

 

漸増抽出は、新しく追加されたデータを新しいURLとして識別できる場合にのみ機能します。抽出プロセス中に、Octoparseは各URLをチェックして、それが以前にスプレイピングされたものかどうかを識別します。すでにスプレイピングされたURLは漸増抽出で実行するプロセスで自動的にスキップされます。

 

どうやって漸増抽出を設定しますか。

 

以下の手順に従い、簡単に漸増抽出を設定できます。

1.最初はワークフローで「データ抽出」ステップを完成したのを確認してから、「設定」をクリックします。

 

 

2.「漸増抽出を有効にする」にチェックを入れます。

 

 

3.「URL全体を識別する」または「URLの一部を識別する」を指定します。

 

 

 

URL全体を識別する

このオプションを指定すると、OctoparseはURL全体を現在のものとマッチします。ごくわずかな違いでも、それは「新しい」URLとして識別されます。

 

URLの一部を識別する

多くの場合、URLはさまざまな属性で構成されています。たとえば、以下のeBayのURLには、 "_ from"、 "_ trksid"、 "_ nkw"、および "sacat"などの属性が含まれます。

漸増抽出で実行すると、Octoparseは自動的に属性を検出し、パラメーターとして利用できるようにします。マッチに使うパラメーターとして1つまたはそれ以上の属性が選択される場合、それらの属性に基づいて現在のURLを比較し、同じ場合はスキップし、それ以外の場合はページをスクレイプします。

 

ヒント!

 

  1. 漸増抽出は「データを抽出する」アクションのみがあるタスクをクラウド抽出する場合のみに利用できます。
  2. 漸増抽出を使用するには「データを抽出する」アクションの近くの上に新しいURLを開く動作を引き起こすアクションは不可欠です。
  3. [URLの一部を識別する]を選択して、そして「データを抽出する」アクションも選択していてもパラメータが表示されません。それはURLにパラメーターが含まれていないことを意味します。「URL全体を識別する」のみを選択できます。
  4. 複数のパラメーターが選択されている場合、Octoparseは現在のURLを識別します。これらのパラメーターのいずれかが異なる場合は「新しい」URLとして識別されます。

 

関連記事:

URLの一括入力 

複数のURLからデータを抽出する 

 

btn_sidebar_use.png
btn_sidebar_form.png