どのようにURLリストを使ってデータを抽出しますか?

2019年03月09日

1. Octoparse URLのループモードを理解する

同じページ構造を共有する複数のページからデータを抽出する場合、OctoparseにこれらのページのURLを入力してループを設定することができます。Octoparseは、URLを1つずつ読み込み、各ページからデータを抽出します。

 

  

2. 入力可能なURLの最大量

1つのタスクに20,000件URLを超えないことをお勧めします。URLの長さによっては、この数字は若干異なります。

制限を超えた場合、次のようなエラーが表示されます。

 

 

3. URLリストで新しいタスクを開始する

「Webサイト」ボックスに複数行のURLを追加すると、Octoparseはデフォルトで「URLリスト」ループモードに入り、自動的にループアイテムを作成します。

 

 

- 「実行前に」を設定する

URLが不完全に読み込まれるのを防ぐため、アクションが実行されるまで待機時間を設定できます(通常は2秒が動作します)。

高級オプション > 実行前に

 

 

 

4. 入力したURLリストを編集する

URLリストを入力した後も、それを変更することはできます。

高級オプション >URLリスト

 

 

 

 

 

 

 

btn_sidebar_use.png
btn_sidebar_form.png