Wizard Mode(ウィザードモード)

Sunday, April 08, 2018 4:26 AM

Wizard Mode(ウィザードモード)とは?

Wizard Mode は、あらかじめ作ったテンプレートに基づいて簡単にスクレイピングできる方法で、Webスクレイピングの初心者にとって特に便利です。

スクレイピングタスクを作るには、内蔵のウィザード/テンプレートを使うと、提示ガイドがあります。

Wizard Modeは、普通なWeb構造への一般的なスクレイピングプロセスを事前定義することによって、Webスクレイピングをよりやすく、よりはやく行うことを目指しています。

より複雑な構造を持つWebサイト(ログインや検索が必要なサイトなど)では、より柔軟なワークフローを設定できるAdvanced Modeをお勧めします。

 

このチュートリアルでは、Wizard Modeで3つの抽出タイプを適用してWebデータをスクレイピングする方法を説明します。

1)「リストまたはテーブル」からスクレイピングする - 単一または複数のWebページからリスト/テーブルを抽出する

 

2)「リストと詳細」からスクレイピングする - リスト上のリンクをクリックしてアイテムページからデータを抽出する

3)「単一ページ」からスクレイピングする - 単一のWebページからのデータを抽出す

 

 

 

1) 「リストまたはテーブル」からスクレイピングする - 単一または複数のWebページからリスト/テーブルを抽出する

1. ウィザードモードでタスクを作る

  · 「+タスク」をクリックします。

 

  · URLを入力し、「」をクリックします。

 

2. 抽出タイプを選択する

  · リストまたはテーブル」を選択し、「次へ」をクリックします。

抽出のタイプを選択したあと、Octoparseはワークフローの各ステップを定義します。

全体的な進捗状況は、インターフェイスの右上に表示されます。

 

3. リストを設定する: 対象データを含むリストを指定する

  ·  リストにある最初の2つアイテムをクリックします。Octoparseはすべてのアイテムを自動的に識別し、テキストボックスに追加します。

  · 「次へ」をクリックして、次のステップに進みます: リストを設定する

 

 

ヒント!

リスト上のアイテムを選択するときは、必要なデータが選択/強調されるのを確認することが重要です。

この例では、各アイテムから3つのデータ要素を抽出します。 

 

4. フィールドを定義する: 対象データフィールドを指定する

  · 象データをクリックすると、「フィールドを定義する」に表示されます。

  · フィールド名を編集します。

  · 「次へ」をクリックして次のステップに進みます:ページネーション

 

 

5. ページネーション: 複数のページからスクレイピングするならOctoparseに伝える

ウィザードモードでは、ページネーションはデフォルトで無効になっています。

単一のページからのデータをスクレイピング場合は、「次へ」をクリックして続きます。

複数のページからスクレイピングする必要がある場合は、「ページネーションを有効にする(「次のページ」ボタンまたはリンクをクリックする)」を選択し、

「次へ」ボタンをクリックしてページの遷移を定義します。

ナビメニューの「次へ」をクリックして次の手順に進みます。

 

 

6. 完了

タスクの設定が完了しました。  ローカル抽出  または クラウド抽出  でタスクを行います。

 

 

 

2) 「リストと詳細」からスクレイピングする - リスト上のリンクをクリックしてアイテムページからデータを抽出する

1.ウィザードモードでタスクを作る

  · 「+ タスク」をクリックします。

 

  ·  URLを入力し、「次へ」をクリックします。

2. 抽出タイプを選択する

  · 「リストと詳細」を選択し、「次へ」をクリックします。

抽出のタイプを選択したあと、Octoparseはワークフローの各ステップを定義します。

全体的な進捗状況は、インターフェイスの右上に表示されます。

 

 

3. リストを設定する: 対象データを含むリストを指定する

  ·  リストにある最初の2つアイテムをクリックします。

  Octoparseはすべてのアイテムを自動的に識別し、テキストボックスに追加します。

  · 「次へ」をクリックして、次のステップに進みます: ページネーション

 

 

 

4. ページネーション: 複数のページからスクレイピングするならOctoparseに伝える

ウィザードモードでは、ページネーションはデフォルトで無効になっています。

単一のページからのデータをスクレイピング場合は、「次へ」をクリックして続きます。

複数のページからスクレイピングする必要がある場合は、「ページネーションを有効にする(「次のページ」ボタンまたはリンクをクリックする)」を選択し、

「次へ」ボタンをクリックしてページの遷移を定義します。

 ナビメニューの「次へ」をクリックして次の手順に進みます。

 

 

5.フィールドを定義する: 抽出するデータフィールドを指定する

「リストまたはテーブル」のスクレイピングとは異なり、この場合はリストの各リンクをクリックし、詳細ページに移動します。

  · 対象データをクリックすると、「データフィールド」に表示されます。

  · フィールド名を編集します。

  · 「次へ」をクリックしてタスクの設定は完了します。

 

 

6. 完了

タスクの設定が完了しました。 ローカル抽出 または クラウド抽出   タスクを行います。

 

 

 

3) 「単一ページ」からスクレイピングする - 単一のWebページからのデータを抽出する

1. ウィザードモードでタスクを作る

  · 「+ タスク」をクリック

 

  · URLを入力し、「次へ」をクリックします。

2. 抽出タイプを選択する

  · 「単一ページ」を選択し、「次へ」をクリックします。 

3. フィールドを定義する:抽出するデータフィールドを指定する

  · 対象データを選択します。

  · フィールド名を編集します。

  · 次へ」をクリックします。

タスクの設定が完了しました。 ローカル抽出 または クラウド抽出  タスクを行います。

 

 

ヒント!

1. Wizard Modeでテキスト以外のデータタイプを抽出できますか?

  · はい、できます。「抽出タイプのドロップダウンリストをクリックして、抽出データのタイプを選択できます。

  · 通常、テキスト、内部HTML、外部HTMLの形式でデータを抽出できます。

  · 画像の場合、 Wizard Modeでは、 "src"をスクレイピングこともできます。

 

2. ウィザードモードでXPathを変更やデータを再フォーマットできますか

いいえ、できません。スクレイピングの精度を向上させるため、またはXPathの変更やデータの再フォーマットする必要がある場合は

カスタマイズモードに切り替えてください

XPathで要素を見つける とデータを再フォーマットする方法をご覧ください。

 

3. カスタマイズモードに切り替えるには?

カスタマイズモード切り替える方法が2つあります。

  · ワークフローを完了してタスクを実行する前に、「カスタマイズモードで編集する」をクリックして、カスタマイズモード切り替えることができます。

 

スタマイズモードに切り替えるには、タスクの右端にある「オプション」をクリックし、「タスク」を選択すると「カスタマイズに変換」オプションがあります。

 

 

 

関連記事:

Advanced Mode 

XPathで要素を見つける 

取得したデータを再フォーマットする 

Local extraction 

Cloud extraction 

Octoparseでタスクを作る 

btn_sidebar_use.png
btn_sidebar_form.png