Webクローラー20選|Webデータの収集を自動化できる

(2019年5月29日に更新)

Webクローリング(Webスクレイピングとも呼ばれる)は、今では多くの分野で広く適用されています。Webクローラーツールが公開される前は、プログラミングスキルのない普通の人にとってはかなりハードルの高い困難なチャレンジになります。Webクローラーは自動クローリングテクノロジで、その敷居を下げました。

Webクローラーツールを使うと、面倒なコピペ作業がなくなり、データ収集が自動化に実現できます。さらに、抽出されたデータは、Excel、HTML、CSVなどの構造化形式にエクスポートできます。自動化することで、作業の負担を軽減でき、大幅な時間短縮ができます。マーケティング担当者、経営者、YouTubers、研究者などプログラミングできない人々にとって、Webクローラーは強力なツールです。

前回、Webクローラーに関する基礎知識について紹介しましたので、今回の記事では、WEB上で人気のあるトップ20のWebクローラーツールを紹介したいと思います。

 

1. Octoparse

 

OctoparseはWebサイト上で必要とするほとんどのデータを抽出できる強力なWebクローラーです。Octoparseにはブラウザを内蔵し、ポイントアンドクリックのインターフェースで、マウスクリックで簡単にデータを抽出できます。それに、ソフトを使いやすくするために、Yahooショッピング、楽天、マイナビ転職、Twitterなど数多くのWebクローラーテンプレートを利用できます。パラメータ(ターゲットページのURL、検索キーワードなど)を入力するだけで、データがどんどん抽出されてきます。取得したデータをCSV、Excel、またはデータベースなどの構造化フォーマットとして保存できます。

それに、クラウド型プラットフォームも提供するので、スケジュール設定が可能で、自動取得したデータはクラウドに保存され、どこでもアクセスできます。ハードウェア保守も不要だし、ネットワーク中断に心配する必要もありません。IPが自動的に巡回できるので、アクセス拒否を効果的に避けられます。

また、内蔵Regexツールを使って、多くの複雑なWebサイトからデータを抽出でき、XPathツールを使ってWeb要素を正しく見つけることができます。

結論として、Octoparseは、コーディングスキルがなくても、ユーザーのほとんどのデータ収集ニーズを満たすことができるはずです。

 

 

 2. Cyotek WebCopy

WebCopyは名前のように、ローカルに部分的または完全なWebサイトをハードディスクにコピーすることを可能にする無料のWebクローラーです。

設定を変更して、どのようにスクレイピングするかをボットに指示することができます。それ以外に、ドメインエイリアス、ユーザーエージェント文字列、デフォルト文書などを設定することもできます。

ただし、WebCopyには仮想DOMやいかなる形式のJavaScript解析も含まれていません。JavaScriptが多用されているWebサイトには、レイアウトを正しく処理できないから、WebCopyが本物のコピーを作成できない可能性が高くなります。

 

 

3.HTTrack

 

Webクローラーのフリーツールとして、HTTrackはPCにWebサイト全体をダウンロードするのに最適な機能を提供しています。Windows、Linux、Sun Solaris、および他のUnixシステムで利用可能なバージョンがあり、ほとんどのユーザーを対象としています。HTTrackが1つのサイトまたは複数のサイトを一緒にミラーリングすること(共有リンクで)ができます。「set options」でWebページをダウンロードしている同時に開くページ数を決めることができます。 ミラーリングされたWebサイトから写真、ファイル、HTMLコードを取得し、中断したダウンロードを再開することができます。

さらに、収集スピードを最大化するためにHTTTrack内でプロキシサポートが利用可能です。HTTrackコマンドラインプログラムとして、またはプライベート(スクレイピング)またはプロ用(オンラインWebミラー)の両方でシェルを介して機能します。そうは言っても、HTTrackは高度なプログラミングスキルを持つ人とってはいい選択肢です。

 

 

4Getleft 

 

Getleftは、Webサイトまたは任意の単一のWebページをスクレイピングできる無料Webクローラーです。Getleftを起動した後は、URLを入力して、ダウンロードを開始する前にサイトの一覧表を表示する機能があり、ダウンロードするファイルを選択できます。ダウンロードしたページは、相対リンクに変更されるので、オフラインでのブラウジングが容易です。さらに、多言語サポートも提供し、今Getleftは14種の言語をサポートしています!しかし、限られたFtpサポートを提供するだけで、ファイルをダウンロードできますが、繰り返し用いられません。

とりあえず、GetleftはフリーのWebクローラーツールとして、より複雑なスキルを必要とせず、基本的なクローリングニーズを満たす便利なソフトです。

 

 

5Scraper

ScraperはWebデータを手軽に取得できるChrome拡張機能で、オンライン調査やGoogleスプレッドシートへのデータエクスポートに役立ちます。これでWeb上のデータを、エクセルやスプレッドシートに保存でき、データ収集の手間がかなり省けます。Scraperは無料のWebクローラーで、ブラウザでよく機能し、クローリングするURLを定義するためのXPathを自動生成します。データ抽出機能が限られていますが、スクレイピングの知識がない初心者にとっては使いやすいツールです。

 

 

6OutWit Hub

 

OutWit Hubは、Webデータ抽出機能を備えたFirefoxアドオンで、Web検索を簡単にさせます。このWebクローラーは、ページを閲覧し、抽出された情報を適切な形式で保存できます。

OutWit Hubは、ニーズに応じて、大量のデータをスクレイピングできる単一のインターフェースを提供しています。OutWit Hubを使うと、ブラウザ自体から任意のWebページをスクレイピングしたり、自動エージェントを作成してデータを抽出したり、設定によってフォーマットすることさえもできます。

これは最も簡単なWebスクレイピングツールの1つで、無料で使用でき、コードを書くことなくWebデータを抽出できるのに便利です。

 

7. ParseHub

 

Parsehubは、AJAXテクノロジ、JavaScript、Cookieなどを使用するWebサイトからのデータ収集をサポートする優れたWebクローラーです。Webドキュメントを読み取り、分析してから関連データに変換できる機械学習テクノロジを応用しています。

Parsehubのデスクトップアプリケーションは、Windows、Mac OS X、Linuxなどのシステムをサポートしています。ブラウザ内に組み込まれているWebアプリを使用することもできます。

無料ツールとして、Parsehubにはプロジェクトを5つしか設定できません。有料プランでは、Webサイトをスクレイピングするクローラーを少なくとも20個作成できます。

 

 

8.Visual Scraper

 

VisualScraperは、簡単なポイントアンドクリックのインターフェイスを備え、もう1つの優れた無料のWebクローラーです。コードを書くことなく、複数のWebページからリアルタイムのデータを取得し、抽出したデータをCSV、XML、JSONまたはSQLファイルとしてエクスポートできます。 SaaS以外にも、VisualScraperはデータ配信サービスや抽出ソフトウェアの作成などのWebスクレイピングサービスを提供しています。

Visual Scraperを使うと、ユーザーは自分のプロジェクトを特定の時間に実行するようにスケジュールしたり、分、日、週、月、ごとにスクレイピングを繰り返すことができます。ニュース、フォーラムなど頻繁に更新するデータを抽出できるのは魅力です。

 

 

9.Scrapinghub

 

Scrapinghubは、何千人もの開発者が貴重なデータを取得するのに役立つクラウドベースのデータ抽出ツールです。そのオープンソースの視覚的なWebクローラーツールは、ユーザーがプログラミングの知識なしでWebサイトをスクレイピングすることを可能にします。

Scrapinghubは、ボット対策の回避をサポートするスマートプロキシローテーターCrawleraを使って、巨大なまたはボットで保護されたサイトを簡単にクローリングできます。これにより、ユーザーは単純なHTTP APIの代わり、複数のIPと場所からスクレイピングすることを可能にします。

ScrapinghubはWebページ全体を構造化されたコンテンツに変換します。このツールが要件を満たすことができない場合、専門家チームを利用することできます。

 

 

10.Dexi.io

 

ブラウザベースのWebクローラーツールとして、Dexi.ioは、3つのタイプのロボット(Extractor、Crawler、Pipes)を提供し、任意のWebサイトからデータをスクレイピングすることができます。

Dexi.ioには、スクレイピングしたデータをGoogleドライブに直接保存したり、JSONやCSVファイルとしてエクスポートする機能もあります。また、匿名Webプロキシサーバーも提供しています。収集したデータは、アーカイブされる前にDexi.ioのサーバーで2週間ホストされます。リアルタイムデータを取得するためのニーズに合わせて有料サービスを提供しています。

 

 

 

11.Webhose.io

Webhose.ioを使用すると、世界中のオンラインソースをさまざまなクリーンな形式にクロールして、リアルタイムのデータを取得できます。このWebクローラーを使うと、さまざまなソースをカバーする複数のフィルターを使用でき、取得したデータからさまざまな言語のキーワードをさらに抽出することができます。

スクレイピングしたデータをExcel、XML、JSON、RSSなども形式で保存でき、アーカイブから履歴データにアクセスすることができます。さらに、webhose.ioは取得したデータを最大80種言語でサポートします。ユーザーはWebhose.ioによってクロールされた構造化データに簡単にインデックスを付けて検索することができます。

とにかく、Webhose.ioはユーザーの基本的なクローリング要件を満たすことができます。

 

 

 

12Import. io

 

Import. IoはURLを入力するだけでデータの抽出ができるWebクローラーツールです。コードを書くことなく数千のWebページを数分で簡単にスクレイピングでき、要件に基づいて1000を超えるAPIを構築できます。クラドベースのサービスであるため、ソフトウェアなどのダウンロードやインストールは一切必要ありません。Import.ioは、Webデータを独自のアプリまたはWebサイトに統合することで、数回クリックするだけでクローリングすることができます。

ユーザーのスクレイピング要件を満たすために、Windows、Mac OS X、およびLinux用の無料アプリも用意しています。データ抽出プログラムとクローラーを作成し、データをダウンロードしてオンラインアカウントと同期します。さらに、毎時、毎週、毎日のスクレイピング作業をスケジュールできます。

 

 

13.80legs 

80legsは、カスタマイズ要件に基づいて設定できる強力なWebクローラーツールです。膨大な量のデータを取り込むことができ、抽出されたデータを即時にダウンロードするオプションもあります。80legsは、無料からでも利用でき、1回あたり10,000 URLまでわずか数秒でデータを取得できる高性能クローリング体験を提供します。

 

 

14.Spinn3r

 

Spinn3rでは、ブログ、ニュース、ソーシャルメディアサイト、RSS、ATOMフィードからデータ全体を取得することができます。Spinn3rは、インデックス作成作業の95%を管理するFirehouse APIと共に配布されています。スパムや不適切な言語の使用を排除し、データの安全性を高める高度なスパム対策を提供しています。

Spinn3rはGoogleのように、コンテンツを索引付けし、抽出したデータをJSONファイルに保存します。 Webクローラーは度々にWebサイトをスキャンし、複数のソースから更新するのもを見つけてリアルタイムの内容を取得します。その管理コンソールではクローリングを制御でき、全文検索では生データに対して複雑なクエリを実行できます。

 

15.Content Grabber

 

Content Graberは、企業向けのWebクローラーツールです。単独なWebクローリングエージェントを作成できます。ほぼすべてのWebサイトからコンテンツを抽出し、Excel、XML、CSV、およびほとんどのデータベースなどの任意の形式で構造化データとして保存できます。

多くの強力なスクリプト編集とデバッグインターフェースを提供するから、Content Graberは高度なプログラミングスキルを持つ人に向いています。ユーザーはC#またはVB.NETを使って、スクリプトをデバッグまたは書き込んで、クローリングプロセスを制御することができます。たとえば、Content GrabberはVisual Studio 2013と統合して、ユーザーの特定のニーズに基づいて、高度で洗練されたカスタマイズされたクローラーに最も強力なスクリプト編集、デバッグ、単体テストをサポートします。

 

 

16. Helium Scraper 

Helium Scraperは、可視化なWebクローラーツールで、要素間の関連が小さい場合にも非常にうまく機能できます。コーディング、配置すること必要がなく、ユーザーはさまざまなクローリングニーズに基づいてオンラインテンプレートを利用することができます。普通には、初級レベルのユーザーのクローリングニーズを満たすことができます。

 

17. UiPath

 

UiPathはWebスクレイピング用の無料のロボティックプロセスオートメーション(RPA)ソフトウェアです。ほとんどのサードパーティ製アプリからWebおよびデスクトップデータを自動抽出できます。Windows上で実行すれば、ロボティックプロセスオートメーション(RPA)ソフトウェアをインストールできます。Uipathは、複数のWebページにわたってテーブル形式およびパターンベースのデータを抽出することができます。

Uipathはクローリングするための組み込みツールを提供して、複雑なUIを扱うときに非常に効果的です。スクリーンスクレイピングツールは、個々のテキスト要素、テキストグループ、テキストブロック(テーブルデータなど)を処理できます。

さらに、インテリジェントなWebエージェントを作成するためにプログラミングは必要ありませんが、内部の.NETハッカーがデータを完全に制御できます。

 

 

18.Scrape. it

Scrape.it はクラウドベースのWebデータ抽出ツールで、node.jsのWebスクレイピングに使われています。世界中の何百万もの開発者とコードを発見、再利用、更新、共有できるパブリックパッケージとプライベートパッケージの両方を提供しているため、高度なプログラミングスキルを持つユーザー向けに設計されました。その強力な統合は、ニーズに合わせてカスタマイズされたクローラーを構築するのを助けます。

 

19.WebHarvy 

 

WebHarvy は非プログラマーのために設計されているポイントアンドクリック式のWebクローラーツールです。WebHarvyは自動的にWebサイトからテキスト、画像、URLおよびメールをスクレイピングし様々なフォーマットで保存することができます。

また、匿名でクローリングを可能にする組み込みスケジューラとプロキシサポートを提供し、WebクローラーがWebサーバによってブロックされるのを防ぐことができます。プロキシサーバまたはVPN経由でターゲットWebサイトにアクセスするすることもできます。

WebHarvy現在のバージョンでは、スクレイピングしたデータをXML、CSV、JSONまたはTSVファイルとしてエクスポートでき、SQLデータベースにエクスポートすることもできます。

 

 

 

20.Connotate

Connotateは企業規模Webデータ抽出用に設計された自動化Webクローラーです。ユーザーは、コードを書くことなく、ポイントアンドクリックだけで抽出エージェントを簡単に作成できます。

Ajaxなどの複雑なJavaScriptベースの動的サイト技術を含め、コーデイングなしで95%以上のサイトを自動的に抽出することができます。

さらに、ConnotateはWebページとデータベースコンテンツを統合する機能も提供しています。データベース抽出のためのSQLデータベースとMongoDBからのコンテンツを含みます。

 

 

 

まとめ

Webコンテンツの作成から、大学などの研究機関、情報収集を専門とするアウトソーシング企業まで様々な企業や団体がデータ収集のニーズがあります。上記のWebクローラーは、ほとんどのクローリングニーズを満たすことができますが、これらのツール間ではそれぞれの機能に多くの違いがあります。したがって、大量のデータ取得や解析が必要な場合は、ニーズに合わせて最適なWebクローラーを使ってみると良いでしょう。

 

  

 

関連記事:

まだ知らない?Webクローラーのあれこれ

デキる人は知っている!Webスクレイピング用のソフト30選

ネット情報収集の味方「スクレイピングツール」3選