注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。
Octoparse 7.1の新機能を見ましょう!
2019年09月29日Octoparseバージョン7.1.2のリリースをお知らせ致します!
このリリースでは、新しい機能を導入した:タスクテンプレート。これはAmazon、Twitter、食べログなどのさまざまなWebサイトを抽出するための使用準備済のプログラムです。他には、ダッシュボード、URL入力機能、ブロック防止の設定が含まれる3つの主要な更新があります。
New
· タスクテンプレート
Octoparseの新しいタスクテンプレートは、誰でも簡単にWebスクレイピングを利用できるように設計されています。予め作成されたタスクテンプレートを使用すると、スクレイピングタスクを設定する必要はありません。すぐに使用できるタスクテンプレートは学習時間を短縮し、すぐにデータを取得できます。
- どのようにスクレイピングを容易にするのか?
タスクテンプレートを使うと、プログラミング知識の少ない/ない人でも簡単にWebスクレイピングを達成できます。パラメータ(ターゲットページのURL、検索キーワードなど)を入力するだけで、データがどんどん抽出されてきます。
1. 異なる業界間で最も人気のあるWebサイトをカバーする数十類のテンプレート
2. 豊富な作成されたデータフィールド
3. サンプル出力のプレビュー
- 使い方?
必要のテンプレートを選択すると、検索対象のキーワードやターゲットURLなどの必須パラメータを入力するよう要求されます。Webスクレーパーは自動実行してWebサイトからデータを収集します。
ヒント! ウィザードモード は引き続き使えます。 アドバンスモードの「+タスク」のプルダウンメニューから見つけられます。
|
Updates
· ダッシュボードのアップグレード
バージョン7.0のダッシュボードと比べると、新しいダッシュボードのレイアウトは、より情報に富んだ、カスタマイズ可能で効率的です。
バージョン7.1では、ダッシュボードの外観とタスクの表示順序を変更できます。
1. カスタマイズ可能な情報コラム
どのようなタスク情報を表示するかは、ユーザーが選択できるようになっています。
2. 2つのデフォルト閲覧モード
デフォルトでは、タスクはダッシュボード上のグループによって分けされます。閲覧モードを切り替えると、最後に実行された時間に基づいてタスクを降順で並べ替えることができます。
3. 効率的なカスタムフィルタ
アップグレードされたフィルタ/並べ替えを使うと、ごくわずかな労力で、独自のダッシュボードを持つことも、単一のタスク/特定のタスククラスタに絞り込むこともできます。
· URL入力のアップグレード
入力URLの制限を20,000から1,000,000に拡大し、大規模なデータ抽出プロジェクトに2つの新しい入力方法を導入しました。
1. URLの最大入力数の増加
一度に入力できるURLの最大数が大幅に増加します。これまでの20k URLと比べると、Octoparseは最大100万のURLを単一のタスク/クローラーに追加できるようになりました。
ヒント! URLをペストして入力するなら最大数は10Kに推定されることをご注意ください。 |
2. ファイルまたは別のタスクからURLの一括インポート
- ファイルからURLをインポートする
バージョン7.1では、CSV、TXT、またはExcelファイルをインポートすることができ、OctoparseはファイルからURLデータをインテリジェントに読み込みます。
- タスクからURLをインポートする
2つのオプションがあります。1つは完成したタスクで抽出されたURLを直接導入する簡単なオプションです。もう1つはまだ実行中の親タスクで抽出されたURLを即刻導入する高級なオプションです。
2つのタスクが関連付けられている場合、Octoparseは4つの実行オプションを提供します。たとえば、「親タスクが開始したらすぐにタスクを実行する」を選択すると、Octoparseは親タスクで抽出されたURLを読み込むと自動的にそのURLを子タスクに転送し、子タスクを実行します。
ヒント! 1. アドバンスドインポートは クラウドでタスクを行う/スケジュール設定によってのみサポートされています。 2. 親タスクに抽出されたデータがない場合、子タスクの作成を開始するには、手動で1つのURLに貼り付ける必要があります。 |
3. あらかじめ定義されたパターンに基づいてURLをバッチ生成する
この機能を使用すると、特定のURL内の必要なパラメータを簡単に変更して、そのパターンに基づくURLのリストを生成することができます。
必要なパラメータを強調表示し、「パラメーターを追加する」をクリックして、必要なパターンを定義する4つのオプションから選択します。
· ブロック防止設定のアップグレード
スクレイピングに敏感なWebサイトによってブロックされる可能性を減らすために、2つのオプションが追加されました。バージョン7.1では、Octoparseは自動的にユーザエージェントを切り替え、クッキーをクリアすることができます。
1. ブラウザを自動切り替える(ユーザエージェント)
2. 自動クリアクッキー