注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。
Tripadvisorからホテルの情報をスクレイピングする
2019年10月14日前回BookingとAirbnbからホテルの情報をスクレイピングする方法をご紹介いたしました。今回のチュートリアルでは、WebスクレイピングツールOctoparseを使って、TripAdvisorからホテルの情報をスクレイピングする方法を説明します。
次のURLを例として使います。
https://www.tripadvisor.com/Hotels-g186338-London_England-Hotels.html
ホテルの詳細ページに入り、ホテルのタイトル、住所、価格、評価を取得しようと思います。
以下はチュートリアルの主な手順です。[タスクファイルをダウンロードする ]
2)「ページネーション」 - 複数のページからデータを取得する
5)「データカスタマイズ」 - データを再フォーマットする(オプション)
1) 「Webページを開く」 - 対象のWebページを開く
Tripadvisorのクッキー設定のため、Octoparseで条件を設定する必要があります。
今、必要な結果ページになります。
2)「ページネーション」 - 複数のページからデータを取得する
TripAdvisorがAJAXでコンテンツを読み込むから、「ページネーション」アクション用にAJAXを設定する必要があります。
3) 「ループアイテム」 - 詳細ページからデータを取得する
Octoparseは保存されたクッキーをwebサイトに送信し、Tripadvisorがすでにさっきの操作を覚えたから、これらのアクションを削除しても結果ページを直接開くことができます。
これから「ループアイテム」を作ります。
そうすると、ループアイテムが自動作成され、一番目の詳細ページに入ります。
4) 「データを抽出する」 - 抽出したいデータを選択する
ヒント! ホテルの評価をクリックすると、「選択した要素の外部HTMLを抽出する」を選択します。抽出されたデータは、正規表現でさらに処理する必要があります。ステップ5で処理方法をご覧ください。 |
5) 「データカスタマイズ」 - データを再フォーマットする(オプション)
目標データがWebページに表示可能なテキストとして表示されていない場合は、まずソースコード(HTML)を抽出し、抽出したソースコードを必要な形式に処理する必要があります。
6) 「抽出開始」 - データ取得のタスクを実行する
ここにサンプルデータがあります。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!