注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。
Bookingからホテルの情報をスクレイピングする
2019年10月12日世界観光機関(UNWTO)によると、2017年の世界の観光客の総数は、前年と比べ7%増加して約13億2,220万人を果たしました。旅行業の発展に伴い、Booking.com、TripAdvisor.com、Airbnb.comなど世界のオンライン旅行代理店が急速に上場し、これまで以上に簡単にホテル、航空券の情報を入手できます。
このチュートリアルでは、WebスクレイピングツールOctoparseを使って、Booking.comからホテルの情報をスクレイピングする方法を説明します。
次のURLを例として使います。
ヒント! 1. 検索条件を絞ったURLをOctoparseに入力することを強くお勧めします。 2. Booking.comの構成と表示は、所在地のIPと優先言語によって異なる場合があります。 |
以下はチュートリアルの主な手順です。 [デモファイルをダウンロードする ]
2)「ページネーション」 - 複数のページからデータを取得する
1) 「Webページを開く」 - 対象のWebページを開く
そうすると、ページが内蔵ブラウザで開られます。
2) 「ページネーション」 - 複数のページからデータを取得する
そうすると、2番目のページに入っています。
3)「ループアイテム」 - 詳細ページからデータを取得する
そうすると、ループアイテムが自動作成されます。
他のページに移動してワークフローが正しいかどうかを確認すると、「このXPathを使用している要素が見つかりません」というメッセージが表示される場合があります。 この場合、要素を見つける精度を向上させるために、XPathを変更することをお勧めします。
//a[@class='hotel_name_link url']
4)「データを抽出する」 - 抽出したいデータを選択する
5)「抽出開始」 - データ取得のタスクを実行する
ここにサンプルデータがあります。「Hotel_Image_1」列と「All_Rooms_Include」列に空白のフィールドがいくつか表示されます。これは、一部の詳細ページにホテルのイメージや客室設備の情報が含まれていないためです。
ヒント! デフォルトでOctoparseがページ上で定義されたパターンの要素を見つけられない場合、フィールドは空白のままになります。しかしOctoparseは必要な要素がWebサイトに表示されていても、定義されたパターンの要素を見つけられないこともあります。この問題が発生した場合は、以下のチュートリアルをご参考ください。 |
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!