タスク分割とは?

Thursday, December 13, 2018 3:19 PM

抽出モードには、ローカル抽出とクラウド抽出という2つの方法があります。クラウド抽出を使う場合、Octoparseは多くのクラウドサーバーを備えたクラウドプラットフォームを提供し、いつでもデータ抽出を実行でき、ローカル抽出よりも約6〜20倍速くなります。クラウド抽出の詳細をご覧ください。

タスクが分割可能なら、一つのタスクは複数のサブタスクに分割され、サブタスクを同時に複数のサーバで実行できるため、抽出が高速になります。

ヒント!

クラウド抽出は現在、プレミアムユーザー(Standard / Professionalプラン)のみが利用できます。

 

 

どんなタスクが分割可能ですか?

Octoparseでは、5つのループモードがあります。タスクには、URLリストループ、テキストリストループ、固定リストループの一つのモードを持つループが含まれている場合、タスクを分割できます。

 

1.「List of URLs」ループ

同じページ構造を共有する複数のページからデータを抽出する場合、OctoparseにこれらのページのURLを入力してループを設定することができます。Octoparseは、URLを1つずつ読み込み、各ページからデータを抽出します。

そのため、「List of URLs」ループのあるタスクがクラウド抽出で実行するように設定されている場合、Octoparseは、URLに基づいてそのタスクを複数のサブタスクに分割します。

「List of URLs」については、「複数のURLからデータを抽出する」と「URLの一括インポート」を参照してください。

 

2.「Text list」ループ

「Text list」ループは、「List of URLs」ループと非常によく似た方法で動作しますが、定義済みのテキストをループするために使用されます。

「Text list」ループの詳細については、「テキスト/キーワードの入力」を参照してください。

 

3.「Fixed list」ループ

「Fixed list」ループは、Octoparseに固定のXPathリストを使用させて、各XPathに対応する要素を見つけて抽出させることです。同じレイアウトの要素をスクレイピングしたり、同じレイアウトのWebページに表示されているリンクをクリックしたりする場合は、「Fixed list」ループを使ってクラウド抽出を高速化できます。

 

以下は、タスクを分割できない2つのループモードです。 ループモードで生成されるXPathは1つだけなので、この2種類のタスクは分割できません。

 

1.「Single element 」ループ

これは主に、ボタンをループクリックすることによってページネーションに使用されます。

 

2.「Variable list」ループ

「Fixed list」とは異なり、「Variable list」は、共有HTMLパターンに基づいて、1つのXPathですべての同じ要素を取得するために使用されます。

 

どんな時タスクを分割しないほうがいいですか?

1.クラウドでいくつのタスクの同時実行する場合は「タスク分割」を無効にする

それは、タスクが多数のサブタスクに分割され、これらのサブタスクがクラウド内のすべてのサーバーを占有する可能性があるためです。すべてのサーバーが完全に占有されている場合、サーバーがリリースされるまで、新しいタスクや他のサブタスクは順番で待っています。

 

2.対象のWebサイトはログインが必要で、同じアカウントへの同時ログインを禁止する場合は「タスク分割」を無効にする

 

3.Webページに表示されている順序と同じ順序でデータを抽出する場合は「タスク分割」を無効にする

 

「Settings」で「タスク分割」を無効にすることができます。そうすると、タスクが分割可能であっても、クラウド抽出を開始した後このタスクを分割されません。「タスク分割」を無効にするには、まず「Settings」をクリックし、「Disable task split」にチェックを入れ、「Save」をクリックします。

 

 

 

btn_sidebar_use.png
btn_sidebar_form.png