eBayから商品価格をスクレイピングする

2019年10月12日

eBayやAmazonなどのネットショップから情報をWebスクレイピングするのは非常に重要なデータソースになっており、価格、機能、評価から人気商品を比較できます。

今回では、使いやすいWebスクレイピングツールOctoparse 7.XによるeBayからの商品情報の取得を紹介します。ウェブサイトでのデータマイニングをやすくします。

このチュートリアルで次のURLを例として使います。

https://www.ebay.com/sch/Digital-Cameras-/31388/i.html

 

この度、eBayから「デジタルカメラ」の商品情報をスクレイピングします。以下はチュートリアルの主な手順です。[タスクファイルをダウンロードする]

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3) 「ループアイテム」を作る - 各ページ上のデータを取得する

4) データを抽出する - 抽出したいデータを選択する

5) データカスタマイズ - 不要な文字を削除してデータを整理する

6) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

 

     · 「カスタマイズモード」を選択し、タスクを作ります。 自由度の高いカスタマイズモードは、複雑なウェブサイトを対応できます。

     ·  URLを入力して「URLを保存する」をクリックします。

     · 「ワークフロー」をオンにするとタスクの作りはやすくなります。

 webページを開く 

 

 

2) ページ遷移のループを作る - 複数のページからデータを取得する

    · ページの下にある「>」ボタンをクリックし、「操作ヒント」パネルから「選択したリンクをループクリップする」を選択します。

ページ遷移のループを作る

 

 

 

3) ループアイテム」を作る - 各ページ上のデータを取得する

 

     · 2ページ目に移動しましたので、「Webページを開く」をクリックして1ページ目に戻ります。「ページネーション」オプションも左クリックします。

     · 一番目のリスト製品のタイトルをクリックすると、Octoparseはページ内の同じフォーマットとなるデータが自動的に識別されます。

     · 「操作ヒント」にある「すべて選択」をクリックします。

     · 「各要素をループクリックする」をクリックします。

 

ループアイテム-を作る 

 

4) データを抽出する - 抽出したいデータを選択する 

     · 必要なデータをクリックし、「操作ヒント」にある内容に応じて、「選択した要素のテキストを抽出する」を選択します。

     · ファイル名を編集します。

 データを抽出する

 

ヒント!

1. 選択したアイテムに抽出したい情報がない場合、「ループアイテム」から抽出したいデータがあるほかのアイテムを選択してください。 例えば、「Current Bid」と「Price」を抽出したいですが、1番目のアイテムにはないですが、両方のデータもある3番目のアイテムを選択すれば、必要なデータを選択できます。

step5

 

2. 商品価格は時々変更する可能性があるので、データ抽出の時刻を追加したい場合は、データフィールドの下にある 「定義済みフィールドを追加する」をクリックすると、「現在時刻を追加する」というオプションが表示されます。

定義済みフィールドを追加する

 

 

 

 

5) データカスタマイズ - 不要な文字を削除してデータを整理する

すべての商品タイトルに「Details about」が含まれていることに気付きましたか。データをきれいにしたい場合は以下の手順に従ってください。    

     · データフィールドを選択します。

     · 「データフィールドをカスタマイズする」をクリックします。

     · 「抽出データを再フォーマットする」を選択します。

     · 「ステップを追加する」をクリックし、「置き換える」を選択します。  

     · 「置き換える」フィールドに「Details about  」をコピーし、「に」フィールドを空白にしてから「計算する」をクリックします。

     · 「OK」をクリックします。

     · 「保存する」をクリックします。

 データカスタマイズ

 

 

6) 抽出タスクを始める - タスクの実行を行いデータを取得する

     · 「保存する」をクリックします。

     · 「抽出開始」をクリックします。

 

抽出タスクを始める 

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

 

btn_sidebar_use.png
btn_sidebar_form.png