Yellowpagesとは職業別電話帳、イエロー・ページで、日本の「タウン・ページ」に相当するサービスです。このチュートリアルでは、yellowpagesからデータをスクレイピングする方法を説明します。
Yellowpageからデータをマイニングすることで、次のことが可能になります。
・独自のビジネスWebサイトを作る
・電話番号を取得して売り込み電話をかける
・企業向けのスクレイピングサービスを提供する
・見込み客のリストを作る
・メールマーケティング
...
このチュートリアルでは、以下のURLを使用して、店名、住所、電話番号などのデータを取得します。
https://www.yellowpages.com/search?search_terms=Anesthesiologists&geo_location_terms=New+York
以下はチュートリアルの主な手順です。 [デモファイルをダウンロードする
]
1)「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
2)「ページネーション」 - 複数のページからデータを取得する
3)「ループアイテム」 - 各詳細ページからデータを取得する
4)「データを抽出する」 - 抽出したいデータを選択する
5)「抽出開始」 - データ取得のタスクを実行する
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
- 「カスタマイズモード」を選択し、新規タスクを作ります。
- URLを入力して「URLを保存する」をクリックします。
そうすると、ページが内蔵ブラウザで開られます。

2) 「ページネーション」 - 複数のページからデータを取得する
- ページ読み込み後、ページの下にある「Next」ボタンをクリックします。「操作ヒント」にある「次のページをループクリックする」を選択します。
そうすると、2番目のページに入っています。
3) 「ループアイテム」 - 各詳細ページからデータを取得する
今は2番目のページですから、念の為に、1番目のページに戻ってください。
- 番目の店舗名をクリックし、Octoparseは残りの店舗を自動的に識別します。
- 「操作ヒント」にある「すべて選択」をクリックします。
- 「各要素をループクリップする」をクリックします。
そうすると、一番目の詳細ページに入ります。

4) 「データを抽出する」 - 抽出したいデータを選択する
· 必要なデータをクリックし、「操作ヒント」にある「選択した要素のテキストを抽出する」を選択します。
· 必要に応じてフィールド名を編集します。

5) 「抽出開始」 - データ取得のタスクを実行する
· 「保存する」をクリックします。
· 「抽出開始」をクリックします。


ヒント!
· より良いパフォーマンスでタスクを実行するには、「クラウド抽出」 を強くお勧めします。「クラウド抽出」を選択すると、タスクはOctoparseのIPを使って複数のクラウドサーバーで実行されます。実行中、アプリケーションやコンピュータを停止もかまいません。 ハードウェアの制限を心配する必要はありません。 抽出したデータはクラウドに保存され、いつでもアクセスできます。
|