Google検索の結果をスクレイピングする

Monday, October 29, 2018 6:23 PM

Google検索は最も多く使われている検索エンジンですよね。このチュートリアルでは、Google検索のデータをスクレイピングする方法を説明します。

 

チュートリアルで次のURLを使用します。

https://www.google.com/

 

以下はチュートリアルの主な手順です。[タスクファイルをダウンロードする ]

1) 「Webページを開く」 - 対象のWebページを開く

2) 「テキストを入力する」 – 一つ/複数の検索するキーワードを入力する

3) ページ遷移のループを作る - 複数のページからデータを取得する

4) データ抽出 - 各ページのデータをスクレイピングする

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

1) 「Webページを開く」 - 対象のWebページを開く

· カスタマイズモードの「+ タスク」をクリックします。

自由度の高い「カスタマイズモード」は、複雑なサイトを対応できます。特にGoogleのような複雑な構造のサイトからデータを抽出するなら、カスタマイズモードを強くお勧めします。 

· URLを「Webサイト」ボックスに貼り付け、「URLを保存する」をクリックして移動します。

  

 

 

 

 

2) 「テクストを入力する」 – 一つ/複数の検索するキーワードを入力する

· 「テクストボックス」をクリックします。

· 「操作ヒント」の「テクストを入力する」をクリックします。

· キーワードを入力します。

Octoparseに複数のキーワードを入力すると、Octoparseはループを生成し、すべての単語を1ずつ検索ボックスに自動的に入力します。

· 「OK」をクリックします。

· 「検索」ボタンをクリックします。

· 「操作ヒント」の「ボタンをクリックする」をクリックします。

 

 

ヒント!

デフォルトの内蔵ブラウザーが結果ページと互換性がないと判明した場合は、ブラウザー設定を変更できます。

· 設定する」をクリックします。

Octoparse 7.0.2を使用している場合は、設定を変更する前にタスクを保存してください。

· デフォルトのブラウザをFirefox 45.0に切り替えます。

· 変更した設定を適用するには、「保存するをクリックします。

テキスト/キーワード入力の詳細についてを参照してください。

 

 

 

3) ページ遷移のループを作る - 複数のページからデータを取得する

· 下にスクロールして、Webページの「次へ」ボタンをクリックします。

· 「操作ヒント」の「次のページをループクリップする」をクリックします。

 

 

 

 

 

 

4)データ抽出 - 各ページのデータをスクレイピングする

今、2番目の結果ページに入っています。続く前に、一番目のページに戻ってください。

· ワークフローの「Webページを開く」をクリックします。

· 「テクストを入力する」と「要素をクリックする」を順番にクリックします。

ワークフローの各ステップをクリックすることで、Octoparseがサイトとどのようにやり取りしているかを簡単に確認できます。

· ワークフローでページネーションループを選択します。

これにより、Octoparseが実行順序を決定し、ワークフローの適切な位置にループアイテムを生成するのを支援できます。

 

さて、検索結果を抽出しましょう!

· 一番目と二番目の検索結果を選択します。

必要なセクション全体が強調表示されるまで、セクションの上にマウスを移動します。

選択した部分は緑色で強調表示され、タイトルと説明のようなすべてのサブ要素が赤色で強調表示されます。

· 「すべてのサブ要素を選択する」をクリックします。

· 「すべて選択」をクリックします。

· 「選択した要素のテキストを抽出する」をクリックします。

· 必要に応じて、不要なデータフィールドを削除するとか、フィールド名を変更するとかします。

 

 

 

 

 

 

 

5) - タスクの実行を行いデータを取得する

· 「抽出開始」をクリックします。

· コンピュータでタスクを実行するには「ローカル抽出」を選択し、クラウドでタスクを実行するには「クラウド抽出」を選択します(有料版のみ)。

 

 

 

ここにサンプル出力があります。

 

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png
btn_sidebar_form.png