注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。
LIFULL HOME'Sから不動産情報をスクレイピングする
2019年10月12日「そろそろマイホームを!」と思って、夢に見たマイホームでの新生活を暮らしたい方はたくさんいますよね。でも何から始めたらよいのかよくわかりません。住まいは、人生で最大とも言える大きな買い物だからこそ失敗したくないものです。しかし、実際は思うようなマンションが購入できなかったり、購入前のイメージとの違いなどから買ってから後悔したりするケースもあります。
後悔のないよう、物件情報の把握が重要です。まず住みたい地域の物件情報を全部取得して、その中に気になる物件を選びましょう!今回のチュートリアルはWebスクレイピングツールOctoparseを使って、LIFULL HOME'Sから東京都の新築マンション情報を取得します。
次のURLを例として使います。
https://www.homes.co.jp/mansion/shinchiku/tokyo/list/
以下はチュートリアルの主な手順です。 [デモファイルをダウンロードする]
1)「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
2)「ページネーション」 - 複数のページからデータを取得する
そうすると、ページが内蔵ブラウザで開られます。
そうすると、2番目のページに入っています。
ヒント! Xpathの詳細については、以下の記事をご参考ください。 |
そうすると、ループアイテムが自動作成されます。
チェックした結果、一ページに30件の物件があるはずですが、わずか22件です。ですから「ループアイテム」のXpathを変更しなければなりません。変数リスト」に正しいXpathを入力します。
//DIV[contains(@class, 'mod-mergeBuilding--sale')]
ヒント! 複数行のデータを一緒に選択するのは「操作ヒント」にある拡大ボタン |
タスクをテストした後、13ページデータの構造が違い、あるデータがなくなることをわかりました。ですから、フィールドのXpathを直す必要があります。
今回直すのは、以下のデータです。
「タイトル」 正しいXpath: //span[@class='bukkenName']
「交通所在地」 正しいXpath: //th[text()='交通']/following-sibling::td[1]
「構造階数」 正しいXpath: //th[contains(text(),'構造')]/following-sibling::td[1]
「販売戸数_総戸数」 正しいXpath: //th[contains(text(),'戸数')]/following-sibling::td[1]
「完成日」 正しいXpath: //td[contains(text(),'年')]
「画像URL」 正しいXpath: //P[@class='photo']/img
ヒント! 交通所在地、構造階数などの情報を抽出するなら、近くの2箇所のデータを関連付ける方法でも抽出できます。 |
6)「抽出開始」 - データ取得のタスクを実行する
「保存する」をクリックします。
「抽出開始」をクリックします。
いいマンションを購入して、理想の暮らしを叶えましょう。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!