Web上に公開されている情報の中から特定のデータだけを自動抽出する「Webスクレイピング」が注目されています。Webスクレイピングを活用することで、個人や企業活動のあらゆるビジネスシーンで業務効率化や、付加価値の創造に役立ちます。
しかしながら、世間ではWebスクレイピングに関する誤解も少なくありません。Webスクレイピングツールを開発する当社にも日々多くの質問が寄せられています。そこで本記事では、「Webスクレイピングに関する10の誤解」について解説します。
本記事をご覧いただくことでスクレイピングに関する正しい知識を持っていただけたら幸いです。
関連記事:【徹底解説】スクレイピングとは|初心者にも分かるスクレイピングに関する解説!
Webスクレイピングは違法なのか?
Webサイトから自動的にデータを集めるWebスクレイピングを使えば作業効率を飛躍的に効率化します。しかし、「そもそもWebサイトから情報を抽出するのは違法ではないか?」といった疑問を持つ方は特に多いでしょう。
結論として、Webスクレイピングそのものに違法性はありません。データ分析を目的とし、新たに自社のデータベースとして活用する場合には問題ないとされています。
Webデータの活用は、民間に限らず政府も行っています。たとえば、総務省では平成元年に消費者物価指数(CPI)の調査にWebスクレイピングの活用を発表しています。
参照:消費者物価指数(CPI)へのウェブスクレイピングの活用について
一方、抽出したデータを勝手に公開する著作権侵害や、Webサイトの利用規約にスクレイピング行為について言及されている場合は違法とみなされ、法的措置をとられる可能性もあります。Webスクレイピングで、気を付ける必要があるのは以下の3つです。
- Webサイトの利用規約に違反する(利用規約で触れている場合は違反になる)
- サーバに過度の負荷をかける(アクセス不能になり業務妨害にあたる)
- 著作権を侵害する(抽出したデータを無断で公開・販売するなど)特にスクレイピングをする際には著作者の利用許諾が必要になりますが、著作権法ではいくつかの「例外」を認めています。著作権法における例外には以下の3つが挙げられます。私的使用のための複製 (第30条)家庭内で仕事以外の目的のために使用するために、著作物を複製することができる。同様の目的であれば、翻訳、編曲、変形、翻案も可能情報解析のための複製等 (第47条の7)コンピュータ等を用いて情報解析を行うことを目的とする場合には、必要と認められる限度において記録媒体に著作物を複製・翻案ができる送信可能化された情報の送信元識別符号の検索等のための複製等(第47条の6)インターネット検索サービス事業者(Google、Yahoo!など)は、サービスを提供するために必要と認められる限度で、著作物の複製・翻案・自動公衆送信を行うことできる参考:文化庁|著作物が自由に使える場合
WebスクレイピングとWebクローリングは同じ?
WebスクレイピングとWebクローリングは、どちらともWeb上の情報収集を行う手法としては共通していますが性質は大きく異なります。
Webスクレイピングは、英語の「Scrape」に由来しており、「削り出す」などの意味があります。つまり、Web上のデータ構造から余分な情報を削り、必要な情報だけを抽出することを指します。
たとえば、営業リスト、不動産物件情報、ECサイトの商品在庫のデータ抽出が含まれます。
一方Webクローリングは、サイトクローラーと呼ばれるロボットが目的に応じてWeb上を巡回し、必要な情報を収集することを指します。
たとえば、自社のWebサイトをGoogleなどの検索結果に表示させるには、サイトクローラーにWebサイトの存在を知ってもらい読み込んでもらう必要があります。
任意のWebサイトでもスクレイピングできる?
Webサイト上のユーザー名、パスワードなどの個人情報はスクレイピングできません。しかし実際には、メールアドレス、Facebookの投稿、LinkedInの企業情報などのスクレイピングニーズもたくさんあります。
ビジネスSNSのLinkedIn(リンクトイン)では、一般公開されているプロフィールデータを他の企業がスクレイピングして利用していたことで、訴訟に発展したことは当時大きな話題となりました。
このように、サイトによっては利用規約でスクレイピングを禁止している場合があります。
そのため、任意のWebサイトでスクレイピングを行う前には、必ず「robots.txt」を確認してください。robots.txtとは、スクレイピングを行うプログラムに対する指示書のことです。
robots.txtには、Webサイト上の指定されたパスへのクロールの許可(あるいは禁止)の表示や、リクエストの間隔などが記載されています。そのため、Webスクレイピング中にアクセスをブロックされないようrobots.txtファイルの記述を理解することが重要です。
プログラミングの知識・経験が必要?
一般的に、スクレイピングはプログラミングによって実行されます。しかし今では、プログラミングを行わずともマウス操作で動かせる「Webスクレイピングツール(データ抽出ツール)」が登場しています。
ノーコード(NoCode)で扱えるスクレイピングツールは、マーケティング担当者、統計学者、財務コンサルタント、研究者、ジャーナリストなどの非プログラマーにとって非常に便利です。
たとえば、OctoparseではWebスクレイピングテンプレートという機能を提供しています。この機能は、YouTube、Twitter、Amazon、eBay、Instagramなどを含む30以上のWebサイトをカバーしており、テンプレートを呼び出すだけで誰でもかんたんにスクレイピングを開始できます。
スクレイパーの起動で必要なのは、キーワード・URLなどのパラメータを入力するだけです。Web上で必要なデータを抽出するうえで、作業の効率化に便利です。
スクレイピングしたデータは自由に使える?
先述したとおり、スクレイピングは「データ分析を目的とし、新たに自社のデータベースとしてスクレイピングデータを活用する場合は合法」です。しかし、著作権侵害、Webサイトの利用規約違反、機密情報を収集する場合は違法となります。
たとえば、許可なく個人の連絡先情報をスクレイピングし、それを第三者に売却して利益を得ることは違法です。
その上、元ソースを提供せずにスクレイピングされたコンテンツを、あたかも自分自身のものとして再パッケージ化するのも倫理的に問題でしょう。
法律によって、スパム、盗作、またはデータの不正使用は禁止されているので、使用方法を誤らないようにしましょう。
Webスクレーパーは万能なのか?
Webスクレイパーは万能かといえばそうではありません。たとえば、一度スクレイピングを行ったサイトで、再度スクレイピングするとき、同じWebスクレイパーを使っても、データを上手く抽出できないことがあります。
それにはいくつかの理由があります。
たとえば、
- Webサイトのレイアウトや構造が更新されてしまった
- Webスクレイパーを疑わしいBOTとして識別されている
- 地理的な場所や利用デバイスなどアクセス環境が異なる
このような場合では、しばしばWebスクレイピングが実行できない場合があります。
いくらWebスクレイパーの設定を調整してもデータ抽出が上手くいかない場合は、上記のような要因も考えられるため、Webスクレイパーは必ずしも万能とはいえないのです。
高速でスクレイピングできるのか?
Webクローラーがいかに速いものかを示すように、瞬時にデータを集めているスクレイピングの広告を見たことがある方もいるでしょう。たしかに、スクレイピングツールを使えば短時間でのデータ収集は可能です。
ただしWebサイトへのアクセスリクエストが早過ぎる場合、Webサーバーが過負荷になり、サーバーがクラッシュする可能性があります。過去には、スクレイピングによってサーバーに負荷が掛かり、他の利用者が閲覧しにくい状態にしたとして、偽計業務妨害の疑いで逮捕された事例(岡崎市中央図書館事件)があります。
こうした事態を防ぐためにも、間隔を空けてWebサーバーにアクセスした方が良いでしょう。具体的には、人間がアクセスするのと同じスピード(1秒以上)でのクローリングが望ましいとされています。
APIとWebスクレイピングは同じ?
APIとWebスクレイピングは、外部からデータを取得する手法であることは、すでに多くの方に知られてます。APIとは、サービス提供者による開発者向けの機能です。APIは外部リソースからデータを取得して、他のデータと合わせて自分たちのサービスに付加価値を追加できます。
さらにAPIにはさまざまなサービスがあります。たとえば、Facebook API、Twitter API、Instagram APIなどがあり、API連携をすることでデータの取得が効率化します。ただし、要求したデータをすべて取得できるわけではありません。
一方、Webスクレイピングでは、ユーザー向けのHTMLコンテンツをコンピュータに解析させるものなので、あらゆるデータを収集できます。さらに、OctoparseではWebスクレイピングテンプレートがあり、キーワード/ URLなどのパラメータを入力することによってデータ抽出を効率化します。
スクレイピングはWeb全体からデータを抽出できる?
Webスクレイピングは、インターネットに公開されたWebサイト全体、あるいは少なくとも数十万PVものWebサイトからデータをスクレイピングできると多くの人が信じています。
しかしながら、実際には実現不可能といえるでしょう。なぜなら、各Webサイトはページ構造も異なるため、1つのWebスクレイパーが全ページをスクレイピングするのは現実的ではないからです。インターネット全体ではなく、ジャンルを絞ることをおすすめします。
Webスクレイピングはビジネスでのみ使える
Webスクレイピングは、現在さまざまな分野で広く使用されています。見込み客の獲得、価格チェック、ビジネス市場分析に加えて、学生はGoogle scholarから研究を行うこともできます。不動産業者は住宅研究を行い、住宅市場を予測することができます。
また自社ブランドを宣伝するには、YoutubeインフルエンサーやTwitterのエバンジェリスト(伝道者)を見つけることもできます。あるいは、ニュースメディアとRSSフィードをスクレイピングすることによって、効率的・効果的にニューストピックを集めることも可能です。
まとめ
本記事では、Webスクレイピングに関して、多くの方が感じている疑問について解説をしました。Webスクレイピングは、政府機関でも活用する手法であり、それ自体に違法性はありません。しかしながら、扱いを誤ると法的に問題が発生する可能性もあるため、目的・用途に合わせて利用するようにしましょう。
まずはWebスクレイピングに実際に触れてみながら、使い方に迷うことがあれば、その都度調べると良いでしょう。Octoparse(オクトパス)では、無料でスクレイピングを行うことができます。利用開始後も、ヘルプデスクにお問い合わせいただくことも可能ですので、まずはアカウント登録からはじめてみてください。
