レッスン3:データ取得 - ページからテキストを抽出する

Thursday, March 15, 2018 4:31 AM
前のレッスンではOctoparseをダウンロードし、ユーザーインターフェイスも十分了解したので、今ご自分のWebスクレイピングプロジェクトを始める準備が完了しました。
 
スクレイピングに、テキストデータの抽出は基本的なスキルです。ニュース記事、製品情報、ブログなど、Web上のほとんどのデータがビジュアルテキストとして表現されるからです。
このレッスンでは、簡単なテキストデータをWebページから取得する方法について説明します。
基本的なテキスト抽出スキルは、ページネーションの移動やリストの作るなどの他のテクニックと組み合わせると、様々なWebページでデータをスクレイピングするための基盤となります。

それでは、単一ページ上テキストを抽出しましょう。[このレッスンのタスクファイルをダウンロードする]
ご参考頂けるために、文字の他に、ビデオも作っております。こちらへクリックしてください。

1) 新しいタスクをはじめ、対象のWebページのURLを入力する

ログインしたら、カスタマイズモードの「+タスク 」ボタンをクリックして新しいタスクを作ります。次に、1つまたは複数のURLを入力します。

 

ヒント!

1. タスクは何ですか?

タスクとは、通常は1つのWebサイトからデータをスクレイピングするためのクローラを意味します。

Octoparseのクローラは、設定されたスクレイピングタスクによって決まります。

スクレイピング作業はどのウェブサイトを開くか、クロールする予定のデータはどこにあるかなどをOctoparseに伝えます。

2. カスタマイズモードを使う理由は何ですか?

カスタマイズモードはすごく強力なモードで、より柔軟に使用できます。

キーワードの検索、ログイン認証、ドロップダウンリストの開きなど、抽出を行うための必要なすべてのアクションを選択できます。

 
ここでは、ブログ記事の1つを例として取り上げます。URLをコピーして 「URLを入力」というテキストボックスに貼り付けます。

その後、 「URLを保存する」をクリックすると、Octoparseは内蔵ブラウザでWebページを開きます。

URL: https://www.octoparse.com/blog/top-5-web-scraping-tools-comparison/

 

 

 

2) 対象データをクリックし選択する

Webページをクリックすることで、必要なデータを選択できます。

データが選択されると、選択領域は緑色のボックスになります。

タイトル、日付、または他のデータをクリックします。

 

抽出するデータが操作パネルに表示されます。 クリックでまたは後で「データフィールド」パネルでフィールド名を編集できます。

選択したデータを取得するには、「データを抽出する」をクリックします。

 

 

ヒント!

1. 「ワークフロー」ボタンをオンにして、設計したワークフローをプレビューできます。

2. Octoparse 7.Xバージョンでは、タスク名が設定インターフェースの一番上に自動的に作成されます。

  変更したい場合は、テキストボックスをクリックして改名してください。 をクリックして変更を保存することを忘れないでください。

 

3) タスクを保存し、データ抽出の実行を行う

 操作パネルで[保存して実行]をクリックするか、[抽出開始]をクリックしてタスクを行います。

 抽出したデータをエクセルで表示すると以下のように、ちゃんと取得されています。

 抽出したデータをエクセルで表示すると以下のように、ちゃんと取得されています。

 

 

レッスン4:データ取得 - リストの内容を抽出する

 

btn_sidebar_use.png
btn_sidebar_form.png