注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。
テキスト/URL/画像/HTMLを抽出する方法
2019年08月23日このチュートリアルでは、Octoparseを使ってテキスト、URL、画像、およびHTMLを抽出する方法を説明します。
始める前に、Octoparseが必要なデータをどのようにスクレイピングするかを見てみましょう。
新しいタスクを作る際に、Webページで必要なデータを選択してスクレイピングします。
ページ上の要素を選択するには、選択を作る必要があります。一般に、選択を作るには2つのステップがあります。
1. 対象データをクリックします。
2. 「操作ヒント」から適切なアクションを選択します。
対象要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。
これは、Octoparseがページ上の選択された要素のパターンを識別し、同じ構えがある他の要素を自動的に選択するためです。
選択を作ると、複数のページにわたるすべての同じ要素が検出され、選択アイテムに追加されます。
Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。
これから、 Octoparseで特定の3種類のデータを選択して抽出する方法を見てみましょう!
1) テキストを抽出する
ほとんどのデータは、ニュース記事、製品情報、ブログなどのような読めるテキストとしてWeb上に表示されます。
ですから、テキストデータを抽出する方法を身につければ、ページの遷移やリストの作るなどの他のテクニックと組み合わせると、
ほぼすべてのWebページからデータを取得できます。
Octoparseでテキストデータを抽出する方法を見てみましょう。
1. 対象データをクリックする
対象要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。
2. 選択を作る
「操作ヒント」にある「すべて選択」をクリックして、赤色要素の類似要素はすべて緑色になります。
Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。
3. テキストを抽出する
「選択した要素のテキストを抽出する」をクリックして、選択を終了し、抽出を始めます。
2) リンクや画像のURLを抽出する
簡単にいえば、URLはハイパーリンクです。URLをクリックするだけで、
新しいWebページを開いたり、新しいWebサイトに移動することができます。
Webページ以外、URLを使うと、画像など特定のファイルにもアクセスできます。
URLを取得したら、インターネットからファイルや画像をダウンロードできます。
Octoparseを使ってリンクや画像のURLを抽出する方法を見てみましょう。
1. 必要なリンク/画像をクリックする
必要なリンク/画像をクリックすると、選択エリアが緑色になります。
同時に他にもいくつかの要素が赤色になることもあります。
ヒント! URLを含む要素を選択すると、「操作ヒント」の下部にあるタグは「A」になります。「A」タグはあるページから別のページにリンクするアンカーを表します。正しい要素を選択するのを確認してください。 |
2. 選択を作る
「操作ヒント」にある「すべて選択」をクリックして、赤色要素の類似要素はすべて緑色になります。
Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。
3. URLを抽出する
「選択した要素のURLを抽出する」/「選択した画像のURLを抽出する」をクリックして、選択を終了し、抽出を始めます。
ヒント! URLではなく画像をWebページから直接取得できますか? 残念ですが、画像自体を直接抽出できません。画像を抽出する場合は、まず画像のURLを抽出し、ツールを使って画像を一括ダウンロードできます。 |
3) 内部/外部HTMLを抽出する
テキストやURLとは異なり、アイコンのようなデータは直接抽出できません。
星の評価のような非テキストコンテンツを抽出する場合は、これらの内部/外部HTMLを抽出しなければなりません。
アイコンのほかに、要素のHTMLを抽出することで、Webページから隠されたテキスト、グラフをスクレイピングもできます。
アイコンに埋め込まれたデータを取得するには、正規表現を適用してデータを処理する必要があります。
Octoparseで内部/外部のHTMLを抽出する方法を見てみましょう。
1. 対象データをクリックする
必要な要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。
2. 内部/外部HTMLを抽出する
「操作ヒント」の「選択した要素の内部/外部HTMLを抽出する」をクリックして、選択を終了し、抽出を始めます。
ヒント! Octoparseは、正規表現を適用するための便利な機能とツールを提供します。 関連記事: |
関連記事: