楽天市場から商品価格をスクレイピングする

2019年10月09日

以前、AmazoneBayから商品情報のスクレイピングする方法を紹介しました。今回はOctoparseを使って、日本最大級のインターネットショッピングサイト「楽天市場」から商品価格をスクレイピングしようと思います。

 

この度、メンズ腕時計の価格を取得します。

次のURLを例として使います。

https://www.rakuten.co.jp/category/301981/?l-id=top_normal_gmenu_d_watch_002

 

以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3) データを抽出する - 抽出したいデータを選択する

4) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
  • カスタマイズモード」を選択し、タスクを作ります。 自由度の高い「カスタマイズモード」は、複雑なウェブサイトを対応できます。
  •  URLを入力して「URLを保存する」をクリックします。
  • ワークフロー」をオンにするとタスクの作りはやすくなります。

webページを開く

 

 

 

2) ページ遷移のループを作る - 複数のページからデータを取得する
  • ページの下にある「次のページ」ボタンをクリックし、「操作ヒント」パネルから「選択したリンクをループクリップする」を選択します。

ページ遷移のループを作る

 

 

 

 

3) データを抽出する - 抽出したいデータを選択する
  •  ステップ2では、2ページ目に移動しました。ですから、「Webページを開く」をクリックして1ページ目に戻ります。
    ページネーション」オプションを左クリックします。
  •  5番目まではPR製品なので、6番目から製品内容の全体を囲む緑色の枠が出る後にクリックします。7番目も同じようにします。
  • Octoparseはページ内に同じフォーマットとなるデータが自動的に識別されます。
  • 操作ヒント」にある「選択した要素のテキストを抽出する」をクリックします。
  •  「ループアイテム」の中にある1番目の内容をクリックして、抽出する必要なデータをクリックして、「操作ヒント」の「選択したリンク/要素のテキストを抽出する」を選択すれば、データをフィールドとして抽出できます。

データを抽出する

 

  •  いらないフィールドを削除して、必要に応じフィールド名を編集します。

フィールド名を編集

 

 

 

ヒント!

1.タスクを作った後、チェックするのは大事です。特に「ページネーション」と「ループアイテム」です。

2.抽出の速度が速すぎると、アクセス拒否やエラーなどが発生しやすくなります。そのため、実行前に待つ時間の設定が必要です。(通常は2秒です。)

 

 

4) 抽出タスクを始める - タスクの実行を行いデータを取得する
  • 保存する」をクリックします。
  • 抽出開始」をクリックします。

 

抽出タスクを始める

 

 

 

ヒント!

ローカル抽出 」で抽出するのは、タスクが順調的に行われるかどうかを確認できます。テストにはよく使われています。もし、タスクに問題がなければ、「クラウド抽出」ではタスクのスケジュールもできます。

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください! 

 

 

btn_sidebar_use.png
btn_sidebar_form.png