リクナビNEXTから求人情報をスクレイピングする

2019年10月12日

以前、Indeedから求人情報のスクレイピングする方法を紹介しました。今回はOctoparseを使って、日本最大級の転職求人サイト「リクナビNEXT」から求人情報をスクレイピングしようと思います。「リクナビNEXT」はベテラン経験者から若手未経験者まで、550万人以上の転職希望者が利用している、実績ある転職サイトです。この例を通じて、仕事を探している方にお役に立てれば何よりです。

このチュートリアルで次のURLを例として使います。

https://next.rikunabi.com/lst/?leadtc=top_jbmodal_submit&__m=1

(ご注意:「リクナビNEXT」サイトで予め職種と勤務地を選択しても、その特定のURLを新しいページで開くなら、絞る条件が無効にあります。ですから、職種と勤務地を入力する必要があります。この度入力する方法を割愛します。入力する方法をご覧ください。また、「リクナビNEXT」のテンプレートも用意しておりますから、ご参考ください。)

 

以下はチュートリアルの主な手順です。[デモファイルをダウンロードする ]

1)「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く

2)「ページネーション」 - 複数のページからデータを取得する

3)「ループアイテム」 - 詳細ページに入るループを作る

4)「データを抽出する」 - 抽出したいデータを選択する

5)「データカスタマイズ」 - データを再フォーマットする

6)「抽出開始」 - データ取得のタスクを実行する

 

 

 

1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
  • 「カスタマイズモード」を選択し、新規タスクを作ります。
  •  URLを入力して「URLを保存する」をクリックします。

そうすると、ページが内蔵ブラウザで開られます。

webページを開

2) 「ページネーション」 - 複数のページからデータを取得する
  • ページ読み込み後、ページの下にある「」ボタンをクリックします。「操作ヒント」にある「単一要素をクリックする」を選択します
 そうすると、2番目のページに入っています。
ページ遷移のループを作る
3)「ループアイテム」 - 詳細ページに入るループを作る
  •   今は2番目のページですから、念の為に、「Webページを開く」、「ページネーション」をクリックして1番目に戻ります。
  •   一番目の仕事のタイトルをクリックすると、Octoparseは同じページに残るタイトルを自動的に識別します。
  • 「操作ヒント」にある「すべて選択」をクリックします。
  • 「各URLをループクリップする」をクリックします。

 そうすると、一番目の詳細ページに入ります。

ループアイテム-を作る

 

4)「データを抽出する」 - 抽出したいデータを選択する
  • 「求人情報」をクリックして、「操作ヒント」パネルから「要素をクリックする」を選択して、詳細の求人情報が出てきます。

 求人情報が出て

  • 必要なデータをクリックし、「操作ヒント」にある「データを抽出する」を選択します。
  • 必要に応じて、フィールド名を編集します。

選択した要素のテキストを抽出

 

ヒント!

仕事の内容、求めている人材などの情報を抽出するなら、近くの2箇所のデータを関連付ける方法でも抽出できます。


 

5) 「データカスタマイズ」 - データを再フォーマットする

場合によっては、必要なデータが不要な文字列と一緒になることがあります。たとえば、会社名を抽出したいですが、それをクリックして横にある「企業ページ」も一緒に抽出されます。この場合、まずすべてを抽出し、不要な文字列を削除するために抽出したデータを再フォーマットする必要があります。 

  • 「会社名」データを選択し、「データフィールドをカスタマイズする」データフィールドをカスタマイズするをクリックします。
  • 「抽出データを再フォーマットする」と「ステップを追加する」を選択し、「置き換える」をクリックします。
  • 「置き換える」に 「    企業ページ」を入力、「計算する」をクリックします。
  • 「OK」をクリックします。

データカスタマイズ


6)「抽出開始」 - データ取得のタスクを実行する
  • 「保存する」をクリックします。
  • 「抽出開始」をクリックします。

抽出タスクを始める

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png
btn_sidebar_form.png