ASINコードでAmazonの商品情報をスクレイピングする

2019年10月14日

前回、Amazonから製品情報をスクレイピングする方法を紹介しました。今回のチュートリアルでは、WebスクレイピングツールOctoparseを使って、ASINコードでAmazonから商品情報を取得する方法を説明します。

ASINコードは、Amazonグループの独自のコードで書籍以外の商品を識別する10桁の固有番号です。同じ商品は、どの国のamazonでも、同じASINコードで管理されています。ですから、ASINを知ってると、商品リサーチをする際に無駄な時間を奪われることが減るかもしれません。

始める前に、事前にASINのリストを用意しておく必要があります。

ASIN

 

 

チュートリアルで次のURLを使用します。

https://www.amazon.com/

 

以下はチュートリアルの主な手順です。 [デモファイルをダウンロードする ]

1)「Webページを開く」- 内蔵ブラウザで対象のWebページを開く

2)「ループアイテム」 - ASINのリストを入力し検索する

3)「データを抽出する」 - 抽出したいデータを選択する

4)「XPathを変更する」 - データ抽出の精度を向上させる(オプション)

5)「抽出開始」 - データ取得のタスクを実行する

 

 

 

 

1) 「Webページを開く」- 内蔵ブラウザで対象のWebページを開く 

  • カスタマイズモードの「+ タスク」をクリックします。
  • URLを「Webサイト」ボックスに貼り付け、「URLを保存する」をクリックして移動します。

webページを開く

 

 

2) 「ループアイテム」 - ASINのリストを入力し検索する

このステップでは、OctoparseがASINコードを1つずつ検索ボックスに自動的に入力するように設定します。

  • 「ループアイテム」アクションをワークフローデザイナにドロップします。
  • 「ループモード」の「テキストリスト」を選択します。
  • 「A」バーをクリックし、ASINリストをテキストボックスに貼り付けます。
  • 「OK」をクリックして保存します。

 

 ループアイテム-を作る

今、ASINリストがループアイテムボックスに表示されています。それでは検索操作のループを作り始めましょう。

  • Amazon検索ボックスをクリックし、「操作ヒント」の「テクストを入力する」をクリックします。
  • 一番目のASINをテキストボックスに入力し、「OK」をクリックして保存します。

Octoparseの正しい実行順序を生成するために、ワークフローの「テクストを入力する」アクションの位置を調整する必要があります。

  • 「テクストを入力する」アクションを「ループアイテム」の中にドラッグします。
  • 「ループテキスト」のところにチェックを入れ、「OK」をクリックして保存します。

  テクストを入力する

 

 

ASINを入力したあと、検索する必要があります。 

  • ページの検索ボタンをクリックし、「操作ヒント」の「ボタンをクリックする」をクリックします。

AmazonはAJAXで検索結果を読み込むので、「AJAX読み込み」を設定する必要があります。

  • 「再試行」のチェックを外します。
  • 「AJAX読み込み」にチェックを入れ、タイムアウト時間を設定します。
  • 「保存する」をクリックして保存します。

ajax読み取り

 

 

 

ヒント!

AJAXの詳細について以下チュートリアルをご参考ください。

· AJAXを扱う 

 

 

 

 

3) 「データを抽出する」 - 抽出したいデータを選択する

  • 抽出したい情報をクリックし、「操作ヒント」の「選択した要素のテキストを抽出する」を選択します。
  • 必要に応じて、フィールド名を変更します。

 データを抽出する

 

 

 

 

 

 

 

4) XPathを変更する - データ抽出の精度を向上させる(オプション)

このケースには、異なる詳細ページにある「Reviewer」要素は、必ずしもの同じ場所に配置されているとは限りません。したがって、この問題によってデータが失われるのを防ぐために、OctoparseでXPathを変更する必要があります。

  • 「Reviewer」データフィールドを選択し、「データフィールドをカスタマイズする」modify.pngをクリックします。
  • 「Xpathをカスタマイズする」を選択し、下記のXPathを「絶対Xpath」に貼り付けます。

//div[@id="centerCol"]//span[@id="acrCustomerReviewText"]

  • 「OK」をクリックし、保存します。

 

xpathを変更する

 

 

ヒント!

OctoparseでXPathを変更すると、自動生成されたXPathよりも高い柔軟性と精度で非常にうまく動作します。

関連するチュートリアル:

 · 正しいデータフィールドを抽出できません

 · XPathで要素を見つける

 · 近くの2箇所のデータを関連付ける方法

 

 

 

 

5) 「抽出開始」 - データ取得のタスクを実行する

 

  •  左上の「保存する」、をクリックします。「抽出開始」をクリックします。
  • 「ローカル抽出」または「クラウド抽出」(有料版のみ)を選択します。

抽出タスクを始める 

 

ここにサンプルデータがあります。

サンプル出力

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png
btn_sidebar_form.png