Indeedから求人情報をスクレイピングする

Wednesday, June 06, 2018 5:21 PM

このチュートリアルでは、Indeed.comから求人情報をスクレイピングする方法を説明します。 Octoparseを使うと、仕事名、会社、給料、説明などの情報を簡単に抽出できます。コーディング必要もないし、URLを入力して抽出タスクを設定するだけで、たくさんの求人情報を無料で入手できます!

indeed.comから求人情報をスクラビングすると、次のことができます。

· より多くの就職チャンス

· 業界の長所と短所を分析する

· 仕事の説明を分析して自分の能力を高める

...

 

 

今回は、ホームページの直接抽出ではなく、キーワード「DevOps」と 「Dallas-Fort Worth, TX」を検索した後にデータをスクレイピングします。そうすると、必要なURLをが出てきます:

 https://www.indeed.com/jobs?q=devops&l=Dallas-Fort%20Worth%2C%20TX&radius=50

 

 

以下はチュートリアルの主な手順です。[タスクファイルをダウンロードする ]

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3) XPathを直す - ページの遷移を正しくする

4) データを抽出する - 抽出したいデータを選択する

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
  • 「カスタマイズモード」を選択し、タスクを作ります。 自由度の高いカスタマイズモードは、複雑なウェブサイトを対応できます。
  •  URLを入力して「URLを保存する」をクリックします。
  • 「ワークフロー」をオンにするとタスクの作りはやすくなります。

 

 

2) ページ遷移のループを作る - 複数のページからデータを取得する

 

  • スクロールして「次へ」ボタンをクリックします。ボタンの「A」タグに自動的に置かないので「A」タグを選択し、「選択したリンクをループクリップする」をクリックする必要があります。

 

 

 

3) XPathを直す - ページの遷移を正しくする
XPathは、タグと属性に基づいて文書内の位置を正確に指し示す言語構文です。したがって、XPathを書く前に、HTML構造をチェックする必要があります。
  
  • FirefoxブラウザでFirepath / Firebug拡張機能から正しいXPathを見つけます。

  • 正しいXPathは//span[contains(text(),'Next')][@class="np"]/../

  • ワークフローにある「ページネーション」ループをクリックし、正しいXPathを「高級オプション」の「単一要素」ボックスに貼り付けます。

 

 

 

4) データを抽出する - 抽出したいデータを選択する
  • 1番目と2番目の仕事を選択し、「操作ヒント」に「選択した要素のテキストを抽出する」をクリックします。
  • 「高級オプション」の下の 「変数リスト」ボックスに正しいXPathを貼り付け、「OK」をクリックして保存します。 正しいXPathは  .//td[@id='resultsCol']/div[contains(@class,'row')]
  • 必要に応じて、フィールド名を編集変します。

 

 

 

 

ヒント!

· Firebug拡張ツールは、HTML文書の要素を検索するのに非常に便利です。(Firebugは旧バージョンのFireboxでのみ利用可能です。旧バージョンのFireboxをダウンロードする)

· 要素をクリックすることによって自動生成されるXPathより、XPathの変更で、タスクは自由度が高くなり、正しくしくなります。したがって、次のページからデータを抽出できない場合は、「ループモード」で「単一要素」をチェックする必要があります。

· Xpathの初心者なら、このチュートリアルをご覧ください


 

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

      ·  「保存する」をクリックします。

      ·  「抽出開始」をクリックします。

 

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

 

btn_sidebar_use.png
btn_sidebar_form.png