タスクとは?

Sunday, April 08, 2018 4:29 AM

Octoparseでデータスクレイピングプロジェクトを開始するには、必要なデータをクローリングして抽出するタスクを作る必要があります。

Octoparseのタスクは、Webサイトからテキスト/URLをスクレイピングするクローラーを意味します。

Octoparseはクリック、検索、ページの遷移などの実際の閲覧体験を真似します。作ったタスクは、開くURL、取得するページの数、収集するデータなどを決めます。

このチュートリアルでは、以下の内容を説明します。

1) 「カスタマイズモード」タスク/「ウィザードモード」タスク

2) ワークフロー

3) タスク管理

 

 

 

 

  

1) 「カスタマイズモード」タスク/「ウィザードモード」タスク

「カスタマイズモード」または「ウィザードモード」の 「+ タスク」ボタンをクリックしてタスクを作ります。

「カスタマイズモード」でデータ抽出を始めるのを強くお勧めします。 「カスタマイズモード」は、より高い自由度があり、

  キーワードの検索、ログイン認証、ドロップダウンメニューの開きなどの複雑なWebスクレイピングのケースを処理できます。

 

「ウィザードモード」では、一つ一つのガイドで簡単なタスクを作成できます。

「ウィザードモード」で作ったタスクは、「アドバンストモード」で編集できます。

 

 

Octoparse の「ウィザードモード」は3種類のウィザード(抽出タイプ)を提供しています。

      · リストまたはテーブル

      · リストと詳細

      · 単一ページ

 

 

 

2) ワークフロー

タスクの最も重要な部分は、特定のデータ抽出要件のワークフローです。

Octoparseは、ワークフローで設定されたステップを実行してデータ収集を完了します。

Octoparse 7.Xバージョンでは、ユーザーが「選択モード」と「ワークフローモード」を切り替えるボタンを追加しました。

 

ヒント!

作ったタスクをよりよく把握、ステップを間違いないように、「ワークフローモード」を有効にすることを強くお勧めします。

 

 

 

3) タスク管理

    1. タスク情報の編集

Octoparse 7.Xバージョンでは、入力したURLを保存するとタスク名が自動的に作成されます。

      · タスク名を変更するには、ワークフローパネルの上にあるテキストボックスをクリックし、新しい名前を入力してください。

      · また、保存されたタスク名を編集する場合はダッシュボードでをクリックしてください。

      · タスクの説明を編集するには、下のをクリックしてください。

 

 

    2. タスクのインポート/エクスポート

 ボタンをクリックすると、コンピュータの任意の場所に保存されたタスクをインポートできます。

特定のタスクをエクスポートするには:

      · 「オプション」ボタンを選択します。

      · 「タスク」を選択します。

      · 「エクスポート」を選択します。

 

タスクをバッチエクスポートするには:

      · 複数のタスクを選択します(1つでもいい)。

      · タスクボックスの左側にあるボックスを選択します。

      · 「タスクのエクスポート」を選択します。

 

    3. タスク管理にある「オプション」

以下では使用可能なのより多くのアクションです。

オプションにあるタスク管理のオプション

      · 編集 – タスクの編集(またはダッシュボード上のタスク名をダブルクリックして編集する)

      · 削除 – タスクの削除(バッチ削除には、複数のタスクを選択し、ボックスを選択する)

      · 改名 – タスク名の変更

      · 設定 – 基本設定(タスクグループの選択とタスクの説明を含む)と抽出設定

       (クラウドタスク分割、画像読み込みの設定と広告ブロック、ブラウザユーザーの切り替え、増加のクラウド抽出などを含む)

      · コピー– タスクのコピー

      · エクスポート – タスクのエクスポート

 

関連記事:

並行処理とは?

Octoparse Advanced Mode

Octoparse Wizard Mode

Octoparse Cloud Extraction

Octoparse Local Extraction

btn_sidebar_use.png
btn_sidebar_form.png