Amazonから製品情報をスクレイピングする

Sunday, April 08, 2018 10:36 AM

ネットショップやオンラインビジネスを始めるときは、Amazon、eBayなどで販売されている同類の製品について市場調査を行いますよね。

これはすごく面倒な作業です。もしWebスクレイピングスキルを身につけるなら、マーケティングリサーチを大幅に促進できます。

今回は使いやすいWebスクレイピングツールOctoparse 7.Xを紹介し、Amazonから製品情報の取得を簡単にします。

このチュートリアルで次のURLを例として使います。

https://www.amazon.co.jp/s/ref=nb_sb_ss_i_1_4?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&url=search-alias%3Daps&field-keywords=headphone&sprefix=head%2Caps%2C243&crid=LIBH2TS7M8P4

この度、AmazonからBluetoothイヤホンの製品情報をスクレイピングします。

以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

2)  ページ遷移のループを作る - 複数のページからデータを取得する

3) 「ループアイテム」を作る - 各ページ上のデータを取得する

4) データを抽出する - 抽出したいデータを選択する

5)  データカスタマイズ – 通常サイズの画像を取得する

6)  抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

 

     · 「カスタマイズモード」を選択し、タスクを作ります。

   自由度の高いカスタマイズモードは、複雑なウェブサイトを対応できます。

     · URLを入力して「URLを保存する」をクリックします。

     · 「ワークフロー」をオンにするとタスクの作りはやすくなります。

 

 

 

 

2) ページ遷移のループを作る - 複数のページからデータを取得する

     · ページの下にある「次のページ」ボタンをクリックし、

  「操作ヒント」パネルから「選択したリンクをループクリップする」を選択します。

 

 

3) 「ループアイテム」を作る - 各ページ上のデータを取得する

   · 「Webページを開く」をクリックすると、最初のWebページを開きます。

   · 「ページネーション」ループを選択します。

   これで、ループアイテムを作って、すべてのページにある関する情報を抽出できます。

  • 一番目のリスト製品のタイトルをクリックすると、Octoparseはページ内の同じのURLを自動的に識別します。
  • 「操作ヒント」にある「すべて選択」をクリックします。
  • 「各要素をループクリックする」をクリックします。

  

 

しかし、Octoparseが自動的に識別したURLは24件しかありません。   

ですので、すべてのURLを選択するために、Xpathを変更する必要があります。

「ページネーション」を選択し、「ループモード」で「固定リスト」から「変数リスト」に変更します。

以下の正しいXpathを入力します。

//li//h2[contains(@class,"a-text-normal")]

「OK」をクリックしてから、「ループアイテム」にあるURLは32件に変わります。

4) データを抽出する - 抽出したいデータを選択する  

     · 必要なデータをクリックし、「操作ヒント」にある「選択した要素のテキストを抽出する」を選択します。

     · 画像のURLを抽出する手順は以下のようです。

      画像をクリックします。

    「操作ヒント」から拡張アイコンをクリックして「IMG」のタグを選択する必要があります。

IMGを選択すると、選択されたタグは「IMG」になります。Octoparseは自動的に選択されたアイテムのタグを識別するので、通常は変更する必要はありません。しかしこの場合は、「操作ヒント」の一番下にあるタグを修正する必要があります。

  「操作ヒント」の「選択した画像のURLを抽出する」を選択します。

     · フィールド名を編集します。

 

 

 

 

ヒント!

セル内ですべての画像のURLを抽出する必要な場合は、RegExpツールを使用してHTMLからすべての画像のURLを取得することができます。

画像全体の部分を選択します。

「操作ヒント」の「選択した要素の外部HTMLを抽出する」を選択します。

 フィールドを選択し、「データフィールドをカスタマイズする」をクリックします。

「抽出データを再フォーマットする」を選択します。

 「ステップを追加する」をクリックし、「正規表現でマッチする」を選択します。

「RegExツールを試す」を選択します。

「で始める」ボックスをチェックし、「src="」と入力します。

「で終わる」ボックスをチェックし、「">」と入力します。

「生成する」と「マッチする」をクリックします。

「適用する」をクリックし、「OK」をクリックします。

「OK」をクリックして保存します。

 

 

 

5) データカスタマイズ – 通常サイズの画像を取得する

先ほど抽出した画像のURLは、原画像を縮小加工された画像のURLです。したがって、通常サイズの画像を取得したい場合は、RegExツールを使用してそのURLを再フォーマットする必要があります。

「データフィールドをカスタマイズする」をクリックします。

「抽出データを再フォーマットする」を選択します。

 「ステップを追加する」をクリックし、「置換える」を選択します。

「._」と「_.」の間にある内容を「置換部分」のボックスに入れます。

「計算する」と「OK」をクリックして保存します。

6)抽出タスクを始める - タスクの実行を行いデータを取得する

     · 「保存する」をクリックします。

     · 「抽出開始」をクリックします。

 

 

 

 

 

この記事は役に立ちましたか? もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png
btn_sidebar_form.png