注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。
カスタマイズモード
2019年09月29日カスタマイズモードとは?
カスタマイズモードは自由度の高く強力なWebスクレイピングモードです。
複雑なサイトからスクレイピングしたい人にとって、カスタマイズモードを強くお勧めします。
Octoparse カスタマイズモードでは、
· ほとんどWebページからデータをスクレイピングできる;
· テキスト、URL、画像、HTMLなどのデータを抽出できる;
· ログイン認証、キーワードの検索、ドロップダウンメニューの開きなど、Webページとのやり取りを設計できる;
· 待ち時間の設定、XPathの変更、データの再フォーマットなど、ワークフローをカスタマイズできる;
スクレイピングするWebサイトが非常にシンプルな場合は、ウィザードモード を使いましょう。
このチュートリアルでは、カスタマイズモードでタスクを作る3つのステップとカスタマイズモードユニークな機能について説明します。
1. 内蔵ブラウザでWebページとやり取る
· 操作ヒント
2. ワークフローを設計する
· ワークフローのタスクアクション
· ワークフローの実行順序
3. ワークフローをカスタマイズする
· タスクアクションのカスタマイズ
1) カスタマイズモードで新しいタスクを作る
1.カスタマイズモードで「+タスク」をクリックします。
2. URLを入力し、「URLを保存する」をクリックします。
2) ワークフローの設計とカスタマイズ
「URLを保存する」をクリックすると、タスク設定画面に入ります。
タスクの最も重要な部分は、特定のデータ抽出要件のワークフローです。Octoparseは、ワークフローで設定されたすべてのアクションを実行して、データ収集を完了します。
カスタマイズモードでは、タスク設定画面は、選択モードとワークフローモード の2つのモードに切り替えることができます。
通常、Octoparseはデフォルトで選択モードに入りました。右上隅のオン/オフボタン を使ってワークフローモードを開きます。ワークフローモードを開くと、作ったタスクをよりよく把握でき、ステップを間違いないようにできます。
それでは、ワークフローを一緒に構築しましょう。
1. 内蔵ブラウザでWebページとやり取る - 簡単なクリックでデータを取得する
1.1操作ヒント
新しいタスクを作る際には、通常、Webページから取得したいデータを選択して スクレイピングします。
カスタマイズモードでは、内蔵ブラウザでWebページとやりとりするとき、Octoparseは「操作ヒント」でお知らせと利用可能なアクティビティを提供します。クリックだけでWebデータをスクレイピングできます。
2. ワークフローを設計する - 抽出するデータの位置と順番をOctoparseに伝える
2.1 ワークフローにおけるタスクアクション
内蔵ブラウザでページから任意の要素をクリックすると、Octoparseはスクレイピングしたいデータを予測して検出し、利用可能な操作を「操作ヒント」から選択できます。
必要なアクションを選択すると、対応するタスクアクションがワークフローで自動的に生成されます。
ワークフローを構成するタスクアクションは10種類あります。
たとえば、「操作ヒント」から[選択したリンクのテキストを抽出する]をクリックすると、「データを抽出する」アクションがワークフローに追加されます。
「要素をクリックする」を選択すると、「要素をクリックする」がワークフローで生成されます。
クリックするだけでなく、タスクアクションを引きずってワークフローに追加できます。
したがって、ワークフローを設計する際に自由度を高めることができます。
ヒント! 1.「分岐判断」アクションは、手動追加のみです。「分岐判断」の詳細はこちら 2. 「ページネーション」は「ループアイテム」の一種で、「次のページをループクリップする」は「アイテムをクリックする」の変形です。 ページ遷移を扱い複数のページを抽出する 3. ワークフロー内のすべてのタスクアクションの概要をご覧にたい方は、ここ |
2.2 ワークフローの実行順序
ワークフローで追加されたアクションは、上から下に実行されます。「ループアイテム」中のアクションは複数回実行されます。
ワークフローの順序を変更するには、アクションを上下に引きずることができます。
3. ワークフローをカスタマイズする - ワークフロー内の各アクションを設定する
3.1 タスクアクションをカスタマイズする
今、ワークフロー設計が完了しました。ワークフロー内の各ステップをクリックすると、
Octoparseがサイトとどのようにやりとりしているか、対象データを期待どおりに抽出できるかを簡単に確認できます。
カスタマイズモードでは、効果的なデータスクレイピングを実現するために、さまざまなカスタマイズオプションを用意しています。
ワークフローのアクションをクリックすると、利用可能なカスタマイズオプションが「カスタマイズオプション」に表示されます。
例えば、「データを抽出する 」アクションでは、抽出したデータのフィールド名を「Field1_Text」から「Title」に変更したり、クリックして抽出したデータを削除できます。
「Webページを開く」アクションでは、広告が抽出速度を低下させないようにポップアップウィンドウをブロックできます。
関連記事: