なぜOctoparseは最初のアイテムだけを抽出して重複のデータを取得するのですか?

2019年03月09日

「ループアイテム」は、Octoparseでは非常に重要です。なぜなら、これは、スクレイピング・タスクを構築する際に最も頻繁に使用される手順の1つです。

Octoparseが最初のアイテムのみを抽出して重複のデータを取得するタスクがある場合は、そのタスクで作成した「ループアイテム」を修正する必要があります。

発生した原因は主に2つがあります。

1) 抽出対象のデータが選択領域にありません。(たとえば、タイトルだけを選択してループを作成するで、タイトル以外のデータをクリックして抽出するなど)

通常、リストページからデータを抽出する必要があるときにこの間違いはよく発生します。

この場合、「ループアイテム」全体を削除し、再構築する必要があります。ループを作成するには、領域全体をアイテムとして選択しなければなりません。(データ抽出は選択した領域でのみ可能です。)領域全体を直接選択できない場合は、「操作ヒント」のこのアイコンをクリックして必要なすべてのデータを含めるまで領域を拡大します。

 

 

2) ループを終了すると、Octoparseは最初の項目を赤色でマークします。下のスクリーンショットの表示のように、最初の項目からデータの抽出を始めるように指示します。

しかしOctoparseのヒントに従わず、2番目のアイテムまたは他のアイテムからデータを抽出し始めると、Octoparseは2番目のアイテムまたは他のアイテムのデータをスクレイピングし、重複のデータを生成する可能性があります。「データを抽出する」のステップを削除し、Octoparseの指示に従ってループ内に「データを抽出する」の新しいステップを追加してください。

以下の手順に従って、「ループアイテム」を手動でチェックすることができます。

 

  1. 下のスクリーンショットに示すように、「ループアイテム」の最初のアイテムをクリックすると、抽出されたデータをチェックできます。
  2. 「ループアイテム」の2番目のアイテムをクリックしてデータを確認します。 2番目のアイテムを選択しても抽出されたデータが常に同じ場合は、上記の解決策に従ってタスクを修正する必要があります。

 

 

 

btn_sidebar_use.png
btn_sidebar_form.png