SUUMO(スーモ)から物件情報をスクレイピングする
2019年10月12日参考ビデオ:https://www.youtube.com/watch?v=v6flVG6fDJQ
春から新卒で、一人暮らしを始める人も多いのではないでしょうか。はじめての部屋探し、たくさんある賃貸物件の中から「これだ!」という部屋を見つけるのは、簡単ではありません。SUUMO(スーモ)、マイナビ賃貸、HOME’Sなど数多くある不動産関連サイトなどの詳細調査を人力で調査するのはコストと時間の面を見ても困難といえます。もしWebスクレイピングスキルを身につけるなら、すべて楽になると思います。
今回のチュートリアルはWebスクレイピングツールOctoparse 7.Xを使って、SUUMO(スーモ)から物件情報の取得を簡単にします。
この度、新宿駅から徒歩15分以内、家賃7万円以下のワンルームを探します。
次のURLを例として使います。
https://suumo.jp/jj/chintai/ichiran/FR301FC005/?shkr1=03&cb=0.0&shkr3=03&rn=0005&shkr2=03&mt=9999999&ar=030&bs=040&shkr4=03&ct=7.0&ra=013&ek=000519670&md=01&cn=9999999&mb=0&fw2=&et=15
以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
2) ページ遷移のループを作る - 複数のページからデータを取得する
3) 「ループアイテム」を作る - 各ページ上のデータを取得する
4) データを抽出する - 抽出したいデータを選択する
5) データカスタマイズ - 余計なデータを削除する
6) 抽出タスクを始める - タスクの実行を行いデータを取得する
場合によっては、必要なデータが不要な文字列と一緒になることがあります。この場合、まずすべてを抽出し、不要な文字列を削除するために抽出したデータを再フォーマットする必要があります。
例えば:
「他の費用」データを選択し、「データフィールドをカスタマイズする」をクリックします。
「抽出データを再フォーマットする」と「ステップを追加する」を選択し、「置き換える」をクリックします。
「置き換える」に 「合計」を入力、「計算する」をクリックします。
「OK」をクリックします。
他のデータも同じように削除できます。
ヒント! 一回で削除できないデータは引き続き再フォーマットしてください。 |
「保存する」をクリックします。
「抽出開始」をクリックします。
はじめての一人暮らしはドキドキするものよね。「なんとなく」で決めてしまって、結果失敗してしまったなんて先輩たちの話もよく聞きます。家賃の予算、お部屋の希望条件をしっかりと意識して、お気に入りのお部屋を見つけてね!
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!