Google検索の結果をスクレイピングする

2019年10月12日

Google検索は最も多く使われている検索エンジンですよね。このチュートリアルでは、Google検索のデータをスクレイピングする方法を説明します。

 

チュートリアルで次のURLを使用します。

https://www.google.com/

 

以下はチュートリアルの主な手順です。[デモファイルをダウンロードする ]

1)「Webページを開く」 - 対象のWebページを開く

2)「テキストを入力する」 – キーワードを入力し検索する

3)「ページネーション」 - 複数のページからデータを取得する

4)「ループアイテム」 - 一覧ページからデータを取得する

5) 「抽出開始」 - データ取得のタスクを実行する

 

 

 

 

1) 「Webページを開く」 - 対象のWebページを開く

  • カスタマイズモードの「+ タスク」をクリックし、新規タスクを作ります。
  • URLを「Webサイト」ボックスに貼り付け、「URLを保存する」をクリックして移動します。

 webページを開く 

 

 

 

 

 

2) 「テキストを入力する」 – キーワードを入力し検索する

  • 入力ボックスをクリックし、「操作ヒント」の「テクストを入力する」をクリックします。
  • キーワードを入力し、「OK」をクリックします。
  • ページの検索ボタンをクリックし、「操作ヒント」の「ボタンをクリックする」をクリックします。

テクストを入力する

 

 

ヒント!

1.デフォルトの内蔵ブラウザーが結果ページと互換性がないと判明した場合は、ブラウザー設定を変更できます。

· 「設定する」をクリックします。デフォルトのブラウザをFirefox 45.0に切り替え、「保存する」をクリックします。

2.テキスト/キーワード入力の詳細についてを参照してください。

 

 

 

3) 「ページネーション」 - 複数のページからデータを取得する

  • ページ読み込み後、次へボタン「Next」をクリックします。
  • 「操作ヒント」の「次のページをループクリップする」をクリックします。

 

ページ遷移のループを作る 

 

 

 

 

 

4)「ループアイテム」 - 一覧ページからデータを取得する

今は2番目のページですから、念の為に、1番目に戻ってください。

  • ワークフローの「Webページを開く」、「テクストを入力する」、「アイテムをクリックする」と「ページネーションループ」を順番にクリックします。

各ステップをクリックすることで、Octoparseがサイトとどのようにやり取りしているかを簡単に確認できます。 

  • 一番目と二番目の検索結果を選択します。

セクション全体が強調表示されるまで、「操作ヒント」にある拡大ボタンをクリックしてください。

  • 「すべてのサブ要素を選択する」をクリックし、「すべて選択」をクリックします。
  • 「選択したデータを抽出する」をクリックします。
  • 必要に応じて、不要なデータフィールドを削除するとか、フィールド名を変更するとかします。

 

データ抽出

 

 

 

 

 

 

5) 「抽出開始」 - データ取得のタスクを実行する

  • 左上の「保存する」、をクリックします。「抽出開始」をクリックします。
  • 「ローカル抽出」または「クラウド抽出」(有料版のみ)を選択します。

 

抽出タスクを始める 

 

 

ここにサンプルデータがあります。

 

サンプル 

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png
btn_sidebar_form.png