注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。
SUUMO(スーモ)の詳細ページから各物件情報をスクレイピングする
2019年04月25日前回はSUUMO(スーモ)から物件情報をスクレイピングするというテーマでSUUMOのリストページからデータをスプレイピングしてみました。今度はレベルアップして、リストページから詳細ページに入って各物件情報をスプレイピングしましょう。
今回のチュートリアルはWebスクレイピングツールOctoparse 7.Xを使って、SUUMO(スーモ)の詳細ページから各物件情報の取得を簡単に紹介します。
この度、JR山手線(東京都)から中古住宅・一戸建ての購入情報を探します。
次のURLを例として使います。
https://suumo.jp/jj/bukken/ichiran/JJ010FJ001/?ar=030&bs=021&ra=030013&jspIdFlg=patternEnsen&ohf=0&rn=0005&kb=1&kt=9999999&tb=0
&tt=9999999&hb=0&ht=9999999&ekTjCd=&ekTjNm=&tj=0&cnb=0&cn=9999999&srch_navi=1
以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
2) ページ遷移のループを作る - 複数のページからデータを取得する
3) 「ループアイテム」を作る - 各ページ上のデータを取得する
4) データを抽出する - 抽出したいデータを選択する
5) データカスタマイズ - 物件の評価を再フォーマットする
6) 抽出タスクを始める - タスクの実行を行いデータを取得する
目標データがWebページに表示可能なテキストとして表示されていない場合は、まずソースコード(HTML)を抽出し、抽出したソースコードを必要な形式に処理する必要があります。
· 「ランキング」を選択し、「データフィールドをカスタマイズする」をクリックします。
· 「抽出データを再フォーマットする」を選択します。
· 「ステップを追加する」をクリックし、「正規表現でマッチする」を選択します。
· 「RegExツールを試す」を選択します。
· 「で始める」ボックスをチェックし、「">」と入力します。
· 「で終わる」ボックスをチェックし、「</span>」と入力します。
· 「生成する」と「マッチする」をクリックします。
· 「適用する」をクリックし、「OK」をクリックします。
· 「OK」をクリックして保存します。
「保存する」をクリックします。
「抽出開始」をクリックします。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!