ASINコードでAmazonの商品情報をスクレイピングする

Thursday, November 22, 2018 11:59 AM

ASINコードは、Amazonグループの独自のコードで書籍以外の商品を識別する10桁の固有番号です。同じ商品は、どの国のamazonでも、同じASINコードで管理されています。ですから、ASINを知ってると、商品リサーチをする際に無駄な時間を奪われることが減るかもしれません。

このチュートリアルでは、WebスクレイピングツールOctoparseを使って、ASINコードでAmazonから商品情報を取得する方法を説明します。

始める前に、事前にASINのリストを用意しておく必要があります。

 

チュートリアルで次のURLを使用します。

https://www.amazon.com/

 

以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする ]

1) 「Webページを開く」 - 対象のWebページを開く

2) 「ループアイテム」を作る - 各リストのデータを取得する

3)  データを抽出する - 抽出したいデータを選択する

4)  XPathを変更する - データ抽出の精度を向上させる(オプション)

5)  抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

1) 「Webページを開く」 - 対象のWebページを開く

· カスタマイズモード
· 
URLを「Webサイト」ボックスに貼り付け、「URLを保存する」をクリックして移動します。
の「+ タスク」をクリックします。

 

 

2) 「ループアイテム」を作る - 各リストのデータを取得する

ASINリストを「テキストリスト」に貼り付け、検索ループを作ります。Octoparseがリスト中のASINコードを1つずつ検索ボックスに自動的に入力します。

· 「ループアイテム」アクションをワークフローデザイナにドロップする

· 「ループモード」の「テキストリスト」をクリックする

· 「A」バーをクリックする

·   ASINリストをテキストボックスに貼り付ける

· 「保存する」をクリックして保存する

 

 

今、ASINリストがループアイテムボックスに表示されています。それでは検索アクションループを作り始めましょう。

 

· 検索ボックスをクリックする

· 「操作ヒント」の「テクストを入力する」をクリックする

· 一番目のASINをテキストボックスに入力する

· 「OK」をクリックして保存する

Octoparseの正しい実行順序を生成するために、ワークフローの「テクストを入力する」アクションの位置を調整する必要があります。

· 「テクストを入力する」アクションを「ループアイテム」にドラッグする

· 「ループにあるテキストを使ってテキストボックスに入力する」をチェックする

· 「OK」をクリックして保存する

  

 

 

「ループアイテム」と「テクストを入力する」アクションを設定した後、検索アクションを有効にするために「要素をクリックする」アクションを追加する必要があります。

 

· ページの検索ボタンをクリックする

· 「操作ヒント」の「ボタンをクリックする」をクリックする

AmazonはAJAXで検索結果を読み込むので、ソフトウェアが停止するのを防ぐために、「AJAX読み取り」を設定する必要があります。

· 「ページに変更がない場合は再試行する(AJAX読み込みには慎重にお使いください)」のチェックを外す

· 「AJAX読み取り」をチェックし、時間を設定する

· 「OK」をクリックして保存する

 

 

ヒント!

AJAXについて以下チュートリアルをご参考ください。

· AJAXを扱う 

 

 

 

 

3) データを抽出する - 抽出したいデータを選択する

· 必要な情報をクリックする

· 「操作ヒント」の「選択した要素のテキストを抽出する」を選択する

· 必要に応じて、フィールド名を変更する

 

 

 

 

 

 

 

 

4) XPathを変更する - データ抽出の精度を向上させる(オプション)

このケースには、異なる詳細ページにある「Reviewer」要素は、必ずしもの同じ場所に配置されているとは限りません。したがって、この問題によってデータが失われるのを防ぐために、OctoparseでXPathを変更する必要があります。

このチュートリアルでは、「Reviewer」フィールドのXPathを直します。

· 「Reviewer」データフィールドを選択する

· 「データフィールドをカスタマイズする」をクリックする

· 「Xpathをカスタマイズする」を選択する

· 直したXPathを「絶対Xpath」に貼り付ける

  「Reviewer」フィールドのXPathは:

     //div[@id="centerCol"]//span[@id="acrCustomerReviewText"]

· 「OK」をクリックする

 

 

ヒント!

OctoparseでXPathを変更すると、自動生成されたXPathよりも高い柔軟性と精度で非常にうまく動作します。

関連するチュートリアル:

 · 正しいデータフィールドを抽出できません

 · XPathで要素を見つける

 · 近くの2箇所のデータを関連付ける方法

 

 

 

 

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

· 「抽出開始」をクリックする

· コンピュータでタスクを実行するには「ローカル抽出」を選択し、クラウドでタスクを実行するには「クラウド抽出」を選択します(有料版のみ)。

 

 

ここにサンプル出力があります。

 

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png
btn_sidebar_form.png