Octoparseでデータスクレイピングプロジェクトを開始するには、必要なデータをクローリングして抽出するタスクを作る必要があります。
Octoparseのタスクは、Webサイトからテキスト/URLをスクレイピングするクローラーを意味します。
Octoparseはクリック、検索、ページの遷移などの実際の閲覧体験を真似します。作ったタスクは、開くURL、取得するページの数、収集するデータなどを決めます。
このチュートリアルでは、以下の内容を説明します。
1) 「カスタマイズモード」タスク/「ウィザードモード」タスク
2) ワークフロー
3) タスク管理
1) 「カスタマイズモード」タスク/「ウィザードモード」タスク
「カスタマイズモード」または「ウィザードモード」の 「+ タスク」ボタンをクリックしてタスクを作ります。
「カスタマイズモード」でデータ抽出を始めるのを強くお勧めします。 「カスタマイズモード」は、より高い自由度があり、
キーワードの検索、ログイン認証、ドロップダウンメニューの開きなどの複雑なWebスクレイピングのケースを処理できます。

「ウィザードモード」では、一つ一つのガイドで簡単なタスクを作成できます。
「ウィザードモード」で作ったタスクは、「アドバンストモード」で編集できます。

Octoparse の「ウィザードモード」は3種類のウィザード(抽出タイプ)を提供しています。
· リストまたはテーブル
· リストと詳細
· 単一ページ

2) ワークフロー
タスクの最も重要な部分は、特定のデータ抽出要件のワークフローです。
Octoparseは、ワークフローで設定されたステップを実行してデータ収集を完了します。
Octoparse 7.Xバージョンでは、ユーザーが「選択モード」と「ワークフローモード」を切り替えるボタンを追加しました。

ヒント!
作ったタスクをよりよく把握、ステップを間違いないように、「ワークフローモード」を有効にすることを強くお勧めします。
|
3) タスク管理
1. タスク情報の編集
Octoparse 7.Xバージョンでは、入力したURLを保存するとタスク名が自動的に作成されます。
· タスク名を変更するには、ワークフローパネルの上にあるテキストボックスをクリックし、新しい名前を入力してください。
· また、保存されたタスク名を編集する場合はダッシュボードで
をクリックしてください。
· タスクの説明を編集するには、下の
をクリックしてください。

2. タスクのインポート/エクスポート
ボタンをクリックすると、コンピュータの任意の場所に保存されたタスクをインポートできます。
特定のタスクをエクスポートするには:
· 「オプション」ボタンを選択します。
· 「タスク」を選択します。
· 「エクスポート」を選択します。

タスクをバッチエクスポートするには:
· 複数のタスクを選択します(1つでもいい)。
· タスクボックスの左側にある
ボックスを選択します。
· 「タスクのエクスポート」を選択します。


3. タスク管理にある「オプション」
以下では使用可能なのより多くのアクションです。
「オプション」にあるタスク管理のオプション
· 編集 – タスクの編集(またはダッシュボード上のタスク名をダブルクリックして編集する)
· 削除 – タスクの削除(バッチ削除には、複数のタスクを選択し、
ボックスを選択する)
· 改名 – タスク名の変更
· 設定 – 基本設定(タスクグループの選択とタスクの説明を含む)と抽出設定
(クラウドタスク分割、画像読み込みの設定と広告ブロック、ブラウザユーザーの切り替え、増加のクラウド抽出などを含む)
· コピー– タスクのコピー
· エクスポート – タスクのエクスポート

関連記事:
並行処理とは?
Octoparse Advanced Mode
Octoparse Wizard Mode
Octoparse Cloud Extraction
Octoparse Local Extraction