Yellowpageからセールスリストを取得する

Sunday, April 08, 2018 10:41 AM

このチュートリアルでは、yellowpages.comからデータをスクレイピングする方法を説明します。 Octoparseを使うと、ビジネスに必要があるビジネス名、住所、電話番号、電子メールなどの情報を簡単に抽出できます。コーディング必要もないし、URLを入力して抽出タスクを設定するだけで、たくさんのセールスリストを無料で入手できます!

抽出したデータをCSV、JSONなどの構造化形式でダウンロードでき、データベースにも直接保存できます。(あるいはOctoparse Data APIと接続して、ご自分のシステムに配信できます。)

Yellowpageからデータをマイニングすることで、次のことが可能になります。

・独自のビジネスWebサイトを作る

・電話番号を取得して売り込み電話をかける

・企業向けのスクレイピングサービスを提供する

・見込み客のリストを作る

・メールマーケティング

...

 

このチュートリアルでは、yellowpages.comからニューヨークの麻酔医の情報を例としてスクレイピングします。

例のURL:https://www.yellowpages.com/search?search_terms=Anesthesiologists&geo_location_terms=New+York

 

 

以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]

1)「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3)「ループアイテム」を作る - リストの各アイテムを回してクリックする

4) データを抽出する - 抽出したいデータを選択する

5) データカスタマイズ - 星の評価を再フォーマットする

6) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

      ·「カスタマイズモード」を選択し、タスクを作ります。 自由度の高いAdvanced modeは、複雑なウェブサイトを対応できます。

      · URLを入力して「URLを保存する」をクリックします。

      ·ワークフロー」をオンにするとタスクの作りはやすくなります。

2) ページ遷移のループを作る - 複数のページからデータを取得する

      ·  ページの下にある「次へ」ボタンをクリックし、「操作ヒント」パネルから「次のページをループクリップする」を選択します。

 

 

3) 「ループアイテム」を作る - リストの各アイテムを回してクリックする

      · 一番目のリスト製品のタイトルをクリックすると、Octoparseはページ内の同じのURLを自動的に識別します。

      · 「操作ヒント」にある「すべて選択」をクリックします。

      · 要素をループクリップする」をクリックします。

 

 

 

 

4) データを抽出する - 抽出したいデータを選択する

      · 必要なデータをクリックし、「操作ヒント」にある「選択した要素のテキストを抽出する」を選択します。

      · 必要に応じてフィールド名を編集します。

   

 

5) データカスタマイズ - 星の評価を再フォーマットする

      ·   星評価をクリックし、「選択した要素の外部HTMLを抽出する」を選択します。

      · 「スターランキング」行を選択し、「データフィールドをカスタマイズする」をクリックし、「抽出データを再フォーマットする」オプションを選択して「ステップを追加する」ボタンをクリックします。

      · 「正規表現でマッチする」をクリックし、「正規表現」ボックスに「(?<=title=")(.+?)(?= star)」の正規表現を入力します。

      · 「OK」ボタンをクリックします。

   

ヒント!

      · Octoparseでは、正規表現を使用して、抽出したデータを処理できます。

      · 8つのデータ再フォーマットオプションの詳細を読む

 

 

 

 

6) 抽出タスクを始める - タスクの実行を行いデータを取得する

      · 「保存する」をクリックします。

      · 「抽出開始」をクリックします。

   

 

 

ヒント!

      · より良いパフォーマンスでタスクを実行するには、クラウド抽出を強くお勧めします。「クラウド抽出」を選択すると、タスクはOctoparseのIPを使って複数のクラウドサーバーで実行されます。実行中、アプリケーションやコンピュータを停止もかまいません。 ハードウェアの制限を心配する必要はありません。 抽出したデータはクラウドに保存され、いつでもアクセスできます。

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!
btn_sidebar_use.png
btn_sidebar_form.png