Advanced Mode(カスタマイズモード)

Sunday, April 08, 2018 4:27 AM

Advanced Modeとは?

Advanced Modeは自由度の高く強力なWebスクレイピングモードです。

複雑なサイトからスクレイピングしたい人にとって、Advanced Modeを強くお勧めします。

Octoparse Advanced Modeでは、

 · ほとんどWebページからデータをスクレイピングできる;

 · テキスト、URL、画像、HTMLなどのデータを抽出できる;

 · ログイン認証、キーワードの検索、ドロップダウンメニューの開きなど、Webページとのやり取りを設計できる;

 · 待ち時間の設定、XPathの変更、データの再フォーマットなど、ワークフローをカスタマイズできる;

 

スクレイピングするWebサイトが非常にシンプルな場合は、Wizard Mode を使いましょう。

 

このチュートリアルでは、Advanced Modeでタスクを作る3つのステップAdvanced Modeユニークな機能について説明します。

1) カスタマイズモードで新しいタスクを作る

2) ワークフローの設計とカスタマイズ

     1. 内蔵ブラウザでWebページとやり取る

         · 操作ヒント

     2. ワークフローを設計する

         · ワークフローのタスクアクション

         · ワークフローの実行順序

      3. ワークフローをカスタマイズする

         · タスクアクションのカスタマイズ

3) タスクを行いデータを抽出する

 

 

 

 

 

1) カスタマイズモードで新しいタスクを作る

1.カスタマイズモードで「+タスク」をクリックします。

 

2. URLを入力し、「URLを保存する」をクリックします。

 

 

 

 

 

 

2) ワークフローの設計とカスタマイズ

「URLを保存する」をクリックすると、タスク設定画面に入ります。

タスクの最も重要な部分は、特定のデータ抽出要件のワークフローです。Octoparseは、ワークフローで設定されたすべてのアクションを実行して、データ収集を完了します。

カスタマイズモードでは、タスク設定画面は、選択モードワークフローモード の2つのモードに切り替えることができます。

通常、Octoparseはデフォルトで選択モードに入りました。右上隅のオン/オフボタン を使ってワークフローモードを開きます。ワークフローモードを開くと、作ったタスクをよりよく把握でき、ステップを間違いないようにできます。

それでは、ワークフローを一緒に構築しましょう。

 

1. 内蔵ブラウザでWebページとやり取る - 簡単なクリックでデータを取得する

1.1操作ヒント

新しいタスクを作る際には、通常、Webページから取得したいデータを選択して  スクレイピングします。

カスタマイズモードでは、内蔵ブラウザでWebページとやりとりするとき、Octoparseは「操作ヒント」でお知らせと利用可能なアクティビティを提供します。クリックだけでWebデータをスクレイピングできます。

 

 

2. ワークフローを設計する - 抽出するデータの位置と順番をOctoparseに伝える

2.1 ワークフローにおけるタスクアクション

内蔵ブラウザでページから任意の要素をクリックすると、Octoparseはスクレイピングしたいデータを予測して検出し、利用可能な操作を「操作ヒント」から選択できます。

必要なアクションを選択すると、対応するタスクアクションがワークフローで自動的に生成されます。

ワークフローを構成するタスクアクションは10種類あります。

 

たとえば、「操作ヒント」から[選択したリンクのテキストを抽出する]をクリックすると、「データを抽出する」アクションがワークフローに追加されます。

「要素をクリックする」を選択すると、「要素をクリックする」がワークフローで生成されます。

 

クリックするだけでなく、タスクアクションを引きずってワークフローに追加できます。

したがって、ワークフローを設計する際に自由度を高めることができます。

 

 

ヒント!

1.「分岐判断」アクションは、手動追加のみです。分岐判断」の詳細はこちら

2. 「ページネーション」は「ループアイテム」の一種で、「次のページをループクリップする」は「アイテムをクリックする」の変形です。

 ページ遷移を扱い複数のページを抽出する とき、ワークフローで作成されたのを見られます。

3. ワークフロー内のすべてのタスクアクションの概要をご覧にたい方は、ここをクリックしてください。

 

 

 

2.2 ワークフローの実行順序

ワークフローで追加されたアクションは、上から下に実行されます。「ループアイテム」中のアクションは複数回実行されます。

ワークフローの順序を変更するには、アクションを上下に引きずることができます。

 

3. ワークフローをカスタマイズする - ワークフロー内の各アクションを設定する

3.1 タスクアクションをカスタマイズする

今、ワークフロー設計が完了しました。ワークフロー内の各ステップをクリックすると、

Octoparseがサイトとどのようにやりとりしているか、対象データを期待どおりに抽出できるかを簡単に確認できます。

カスタマイズモードでは、効果的なデータスクレイピングを実現するために、さまざまなカスタマイズオプションを用意しています。

ワークフローのアクションをクリックすると、利用可能なカスタマイズオプションが「カスタマイズオプション」に表示されます。

例えば、「データを抽出する 」アクションでは、抽出したデータのフィールド名を「Field1_Text」から「Title」に変更したり、クリックして抽出したデータを削除できます。

Webページを開く」アクションでは、広告が抽出速度を低下させないようにポップアップウィンドウをブロックできます。

 

 

 

 

 

3) タスクを実行する

タスクの設定を確認したら、「抽出開始」をクリックしてタスクを実行します。

 

ローカル抽出  または クラウド抽出でタスクを実行できます。

 

関連記事:

タスクとは?

タスクを作る 

Webページとのやり取り 

アクションのカスタマイズ 

より多くのテク 

 

btn_sidebar_use.png
btn_sidebar_form.png