すべてのコレクション
応用例
Eコマース
【2023年】Amazonから製品情報をスクレイピングする
【2023年】Amazonから製品情報をスクレイピングする
一週間前以上前にアップデートされました

Octoparseとは

Octoparseは、数クリックでWebページを構造化されたデータに変換でき、コーディング不要のWebスクレイピングツールです。


以下の記事では、コンピュータークライアントを使用してAmazonのデータを収集する方法を紹介します。もし大量のAmazonデータの収集が必要な場合は、クライアントをダウンロードして、内蔵のスクレイピングプログラムを使用してください。いくつかのキーワードを入力するだけで、数百万のデータを収集できます。

このガイドで抽出するデータ

  • 商品名

  • 商品ページURL

  • 商品画像(シングルまたは複数)

  • 価格

  • ASIN

詳細ステップ

1.対象URLをバーに貼り付け、スタートを押す

ロボットでないことを確認させる画面が現れる可能性があります、ブラウザモードでご完了ください。

何回も要求される場合、設定でブラウザをSafari 15.1にご設定ください

アマゾンの画面が現れたら、詳細設定でCookieを保存しましょう。

このステップにより、ロボット確認画面をスキップことができます。

2.複数の検索キーワードを入力する

ASINを検索する場合は、複数のテキストを入力するオプションを選択できます。

次は検索ボタンをクリックし、操作パネルの「選択したボタンをクリックする」を選択します

現在のワークフローは下記のようになります。

mceclip8.png

複数テキストを入力した場合

3.ページループを作る

もし最初のページの商品のみを収集する必要がある場合は、このステップをスキップしていただいて構いません。

下までスクロールし、ページボタンを探します。①、②の手順で③ページループを生成します。

4.商品のクリックループを作る

  • 任意商品名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。    

  • ①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。

  • 操作パネルの下、③ A をクリックします。

  • ④「類似要素をすべて選択」➡「各要素にループクリック」をクリックすることより、⑦のループアイテムが生成されます

これで商品ループの生成が終わりました。

もしフローが⑦と異なる場合、ドラッグアンドドロップで調整することができます。

5.抽出データを選択する

商品のクリックループを作るが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作提案」にあるテキストを選択します。

ダブルクリックでフィールド名を編集します。

mceclip19.png

デフォルトで生成されたXpathは全商品をカバーできないため、手動でXpathを修正しましょう。

ワークフローの「データを抽出」を選択した状態で、データプレビューの所でデータの表示方法を縦向きにし、ダブルクリックでXpathを調整します。

mceclip23.png

参考

タイトル
//span[@id="productTitle"]

ASIN 
//th[text()[contains(., 'ASIN')]]/following-sibling::td

価格 
//span[@class='a-price-whole']
  • ページURLの取得

URLは、クライアント内蔵の機能を使用して取得できますので、特別に設定する必要はありません。

  • 画像URLの取得

続けて、画像を抽出するために新しいループを作成する必要があります。ループのアイテムは次の通りです:

//div[@id="altImages"]/ul/li[@data-csa-c-action="image-block-alt-image-hover"]//img

次に、データを抽出ステップ設定を調整し、新しい「画像URL」フィールドを追加します。

XPathとデータタイプの設定は次のとおりです。

ページに再度アクセスすると、画像のアドレスがすでに収集されているのが確認できるはずです。

アマゾン側のスクレイピング防止対策がかからないように、ワークフローを調整します。

最適化方向:各ステップ間の待機時間を増やす

7.実際の抽出結果

保存➡実行、ブラウザと実行ログから現在の実行状況が確認できます。

mceclip21.png

実際の抽出結果:

mceclip26.png

こちらの回答で解決しましたか?