レッスン5:データ取得 - 各アイテムのページからデータを抽出する
2019年06月03日
1) 「ループアイテム」を作成し、結果ページの各製品をループクリックする
最初の2つ製品のリンクを選択します。
· URLを含む1番目の製品タイトルをクリックすると、詳細ページにアクセスします(同じ構えのアイテムが赤で強調表示されていて、選択されたアイテムが緑色で強調表示されています)
· 2番目の商品タイトルをクリックします。
· 「各要素をループクリップする」を選択します(ワークフロー内で「ループアイテム」が自動生成されます)。
ヒント! リストページにある各アイテムをループするには、アンカーテキスト(文字リンク)を選択してください。 Octoparseは、選択したアイテムのタグを自動的に識別します。 リンクが張られているアイテムを選択すると、選択されたタグは "A"になります。「a」タグは通常、あるページから他のページに移動するアンカーを表します。 |
2) アイテムページに抽出するデータを選択する
「ループアイテム」を作成したと、Octoparseは1番目のアイテムページを開きます。
アイテムページに抽出するデータを指定すると、Octoparseが残りの作業を行います。
· タイトル、レビュー、価格などの情報を選択します。
· 選択が終わったら、「選択した要素のテキストを抽出する」をクリックして抽出します。
· ワークフローで「選択した要素のテキストを抽出する」ステップが自動生成されます。 抽出するデータフィールドは、[データフィールド]パネルに表示されます。
ヒント! 「アイテムをクリックする」や「選択した要素のテキストを抽出する」のような手順では、データのスキップを避け、より人間らしく動作するために、「高級オプション」で待ち時間を長く設定してください! (通常2〜5秒です) |
これで終わり!スクレイピングプロジェクトを完了するためにレッスン6でページ遷移を扱う方法を学びましょう!
レッスン6:ページ遷移の扱い - 複数のページからデータを抽出する