リクナビNEXTから求人・転職情報を取得する
Wednesday, June 06, 2018 5:21 PM以前、Indeed.comから求人情報のスクレイピングする方法を紹介しました。今回はOctoparseを使って、日本最大級の転職求人サイト「リクナビNEXT」から求人情報をスクレイピングしようと思います。「リクナビNEXT」はベテラン経験者から若手未経験者まで、550万人以上の転職希望者が利用している、実績ある転職サイトです。この例を通じて、仕事を探している方にお役に立てれば何よりです。
この例に使うURL:
(「リクナビNEXT」サイトで予め職種と勤務地を選択しても、その特定のURLを新しいページで開くなら、以上のURLになります。ですから、職種と勤務地を選択したい場合はOctoparseの内蔵ブラウザで選択してください。)
以下はチュートリアルの主な手順です。[タスクファイルをダウンロードする ]
1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く
2) ページ遷移のループを作る - 複数のページからデータを取得する
3) 「Loop Item」を作る - 各ページ上のデータを取得する
6) 抽出タスクを始める - タスクの実行を行いデータを取得する
- 「Advanced Mode」を選択し、タスクを作ります。 自由度の高い「Advanced mode」は、複雑なウェブサイトを対応できます。
- URLを入力して「Save URL」をクリックします。
- 「Workflow」をオンにするとタスクの作りはやすくなります。
- ページ遷移にある「 > 」ボタンをクリックし、「Action Tips」パネルから「Loop click the single element」を選択します。
- ステップ2では、2ページ目に移動しました。ですから、「Go To Web Page」をクリックして1ページ目に戻ります。
- 「pagination」をクリックします。
- ページにある一番目の仕事のタイトルをクリックすると、Octoparseは同じページに残るURLを自動的に識別します。
- 「Action Tips」にある「Select all」をクリックします。
- 「Loop click each URL」をクリックします。
- 「Loop Item」をクリックします。
- 「Loop Item」にある1番目のデータを選択し、「Click Item」をクリックして、詳細ページを開きます。
- 「求人情報」をクリックして、「Action Tips」パネルから「Click element」を選択して、詳細の求人情報が出てきます。
- 必要なデータをクリックし、「Action Tips」にある「Extract data」を選択します。
- フィールド名を編集します。
ヒント! 仕事の内容、求めている人材などの情報を抽出するなら、近くの2箇所のデータを関連付ける方法でも抽出できます。 |
場合によっては、必要なデータが不要な文字列と一緒になることがあります。たとえば、会社名を抽出したいですが、それをクリックして横にある「企業ページ」も一緒に抽出されます。この場合、まずすべてを抽出し、不要な文字列を削除するために抽出したデータを再フォーマットする必要があります。
「会社名」にある不要なデータを削除する
- 「会社名」データを選択し、「Customize data field」
をクリックします。
- 「Refine extracted data」と「Add step」を選択し、「Replace」をクリックします。
- 「Replace」に 「 企業ページ」を入力、「Evaluate」をクリックします。
- 「OK」をクリックします。
- 「Save」をクリックします。
- 「Start Extraction」をクリックします。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!