Webサイトからメールや電話番号を抽出することはできますか?

2019年03月12日

 Webサイトからメールや電話番号を抽出することはできますか?

Octoparseを使用すると、同じ/類似のページ構造のWebページから簡単にメールと電話番号を抽出できます。メール/電話番号の抽出は、タスクを設定することで簡単に行うことができます。

 

どのような種類のメールまたは電話番号がOctoparseから抽出されますか?

Octoparseはデータを抽出すると、実際にソースコードから内容を解析して取り込みます。したがって、テキスト形式のメールまたは電話番号は正常に取得できます。

例えば「Krishnam Bio-tech」を抽出すると、Octoparseは実際に<span>ここのテキストを抽出する<span>という属性間のテキストを抽出します。

 

一部のWebサイトでは、クロール防止対策を使用して、イメージやその他のテキスト以外の形式でメールと電話番号を暗号化することがあります。(しかしそれはテキストフォーマットのように見える)。この場合、Octoparseは画像からそれらを抽出することも、テキスト形式にデコードすることもできません。

 

Octoparseはメールや電話番号をどのように抽出しますか?

対象メールや電話番号を取得するには、まず、その情報を直接クリックしてその場所を指定する必要があります。

例えばyellowpages.comからメールと電話番号を抽出するには、Webページ上の場所を選択して指定する必要があります。

(Yellowpage.comからセールスリストを取得するチュートリアルをご覧ください )

メールと電話番号をクリックし、「選択した要素のテキストを抽出する」を選択します。

データが正しく選択されると、選択が緑色で強調表示されます。

 

 

 

ページネーションなどの他の手法と組み合わせると、カテゴリまたはサイト全体でデータをスクレイピングすることができます。

(入門レッスンからはじめよう  )

 

btn_sidebar_use.png
btn_sidebar_form.png
当社ウェブサイトは、利便性、品質維持・向上を目的に、Cookieを使用しております。詳しくはプロキシーをご確認ください。Cookieの利用に同意頂ける場合は、「同意する」ボタンを押してください。同意頂けない場合は、ブラウザを閉じて閲覧を中止してください。
同意する 閉じる