ログインした後のデータ取得

Sunday, April 08, 2018 7:55 AM

対象サイトがログインする必要がある場合でも、Octoparseでデータをスクレイピングできます。ログイン情報(ユーザー名とパスワード)を入力してログインします。このチュートリアルでは、ログイン後のデータ抽出方法とクッキーの使う方法を紹介します。

web scraping with octoparse - extract behind a login

 

1) ログイン情報を入力してログインする

2) クッキーを使ってワークフローを最適化する

 

 

 

ログイン情報を入力してログインする

  • ユーザー名入力用のテキストボックスをクリックします。
  • 「操作ヒント」から「テクストを入力する」を選択します。

  • テキストボックスにユーザー名を入力します。

  • 「OK」をクリックすると、入力されたユーザー名がWebページのユーザー名ボックスに自動的に入力されます。
  • 同じ手順に従ってパスワードを入力します。
  • ページの「Sign In」ボタンをクリックします。

  • 「操作ヒント」から「ボタンをクリックする」を選択します。


ウェブサイトに正常にログインしました!

 

 

 

クッキーを使ってワークフローを最適化する

1. クッキーを保存する

ほとんどの場合、ログイン後にクッキーをタスクに保存してワークフローを最適化できます。そうすると、読み込む時、Octoparseはクッキーをサイトに送信し、サイトがユーザー情報を記録し、ログインをスキップする可能性があります。 

  • ログインしていない場合は内蔵ブラウザでサイトにログインしてください。
  • ワークフローモードに切り替え、「Webページを開く」アクションをワークフローに追加し、ログインステップの下に置きます。
  • 「ページのURL」のテキストボックスに対象ページのURLを入力します。

  • 「高級オプション」で「キャッシュを削除する」をクリックします。
  • 「次の指定Cookieを使う」を選択します。
  • 「現在ページからCookieを読み込む」をクリックします。
  • 「OK」をクリックして設定を保存します。

 

  • Webページがユーザー情報を記録しログインステップをスキップするようになったので、前作ったログインアクションを削除します。アクションを右クリックし、「削除」を選択します。

ヒント!

保存されたクッキーは有効期限が切れる前に有効です。

クッキーには有効期限があり、有効期限が切れたクッキーは消滅し、リクエストに載りません。更新されたクッキーを取得して保存するために、適切なアクションを追加して、再度ログインする必要があります。

ご入力のパスワードは十分に保護されています。

· Octoparseでは、パスワードを入力すると、自分のOctoparseアカウントでのみアクセスできます。タスクを出力すると、タスクに保存されたパスワードは自動削除されます。

· タスクを削除すると、保存されたログイン情報はすぐにアカウントから永久に削除されます。

 

 

2. クッキーをクリアする

新しいユーザー情報でログインする場合、以前保存したクッキーをクリアしなければなりません。そうすると、対象サイトは前の情報を削除し、ログインページに移動します。

  • ログインページの「Webページを開く」をクリックします。
  • 「キャッシュを削除する」で「Webページを読み込む前にキャッシュを削除する」を選択します。

 

ヒント!

local extraction(ローカル抽出)を実行しながらキャプチャ認証を手動で入力する

· キャプチャ認証が出た場合は、ローカルで実行するときにキャプチャを手動で入力できます。クラウド抽出はキャプチャ認証の処理をサポートしていません。

· 現在、Octoparesはデジタルキャプチャのみをサポートしており、reCaptcha v2などの他のタイプはサポートしていません。

 

 

関連記事:

テキスト/キーワードの入力  

待ち時間を設定す  

 

btn_sidebar_use.png
btn_sidebar_form.png