注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。
ASINコードでAmazonの商品情報をスクレイピングする
2019年10月14日前回、Amazonから製品情報をスクレイピングする方法を紹介しました。今回のチュートリアルでは、WebスクレイピングツールOctoparseを使って、ASINコードでAmazonから商品情報を取得する方法を説明します。
ASINコードは、Amazonグループの独自のコードで書籍以外の商品を識別する10桁の固有番号です。同じ商品は、どの国のamazonでも、同じASINコードで管理されています。ですから、ASINを知ってると、商品リサーチをする際に無駄な時間を奪われることが減るかもしれません。
始める前に、事前にASINのリストを用意しておく必要があります。
チュートリアルで次のURLを使用します。
以下はチュートリアルの主な手順です。 [デモファイルをダウンロードする ]
1)「Webページを開く」- 内蔵ブラウザで対象のWebページを開く
2)「ループアイテム」 - ASINのリストを入力し検索する
4)「XPathを変更する」 - データ抽出の精度を向上させる(オプション)
1) 「Webページを開く」- 内蔵ブラウザで対象のWebページを開く
2) 「ループアイテム」 - ASINのリストを入力し検索する
このステップでは、OctoparseがASINコードを1つずつ検索ボックスに自動的に入力するように設定します。
今、ASINリストがループアイテムボックスに表示されています。それでは検索操作のループを作り始めましょう。
Octoparseの正しい実行順序を生成するために、ワークフローの「テクストを入力する」アクションの位置を調整する必要があります。
ASINを入力したあと、検索する必要があります。
AmazonはAJAXで検索結果を読み込むので、「AJAX読み込み」を設定する必要があります。
ヒント! AJAXの詳細について以下チュートリアルをご参考ください。 · AJAXを扱う |
3) 「データを抽出する」 - 抽出したいデータを選択する
4) XPathを変更する - データ抽出の精度を向上させる(オプション)
このケースには、異なる詳細ページにある「Reviewer」要素は、必ずしもの同じ場所に配置されているとは限りません。したがって、この問題によってデータが失われるのを防ぐために、OctoparseでXPathを変更する必要があります。
//div[@id="centerCol"]//span[@id="acrCustomerReviewText"]
ヒント! OctoparseでXPathを変更すると、自動生成されたXPathよりも高い柔軟性と精度で非常にうまく動作します。 関連するチュートリアル: |
5) 「抽出開始」 - データ取得のタスクを実行する
ここにサンプルデータがあります。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!