Webスクレイピングソフトウェアはデータ抽出ツールとも呼ばれます。このツールはWebサイト上のデータを簡単に抽出し収集することができます。多くの人にとって、データ抽出やデータスクレピングを実施する際にプログラミング知識が不可欠だ、あるいは、ネット上のデータを一括に収集することがプログラミングマンしかない技術で、きっと簡単ではないというイメージがありますが、実際そうではありません。プログラミングマンのようにコードを書くのではなく、ソフトウェアを使って、プログラミングしなくても、ネット上のデータを一括に収集することができます。このソフトウェアによって、仕事の効率化やビジネスの情報収集に役立ちます。この記事では、代表的な使いやすい二つのWebスクレピングツールOctoparseとimport.ioを紹介した上で、その二つWebスクレピングツールの機能、サービスなどの情報を徹底的に比較して行こうと思います。
1.機能の比較
OctoparseとImport.Io機能の一般的な比較を次に示します。
機能 | Octoparse | Import.Io |
---|---|---|
Webスクレイピング | サポートあり | サポートあり |
クラウドベース | あり | あり |
データ抽出 | 複数のデータ型をサポート | 複数のデータ型をサポート |
ページングデータの自動処理 | サポートあり | サポートあり |
JavaScriptの実行 | サポートあり | サポートあり |
サポートされるプラットフォーム | Windows、Mac OS X | ウェブベース |
データエクスポート | CSV、Excel、API、データベース | CSV、Excel、API、データベース |
データ転送 | FTP、SFTP、Dropboxなど | FTP、SFTP、Dropboxなど |
自動化 | スケジュール、API、クラウド | スケジュール、API、クラウド |
テンプレートマネージャー | サポートあり | サポートあり |
カスタムスクリプトのサポート | あり | あり |
カスタムヘッダーのサポート | あり | あり |
2.共通点
OctoparseとImport.Ioの両方のスクレイピングツールは、インターフェースとpoint-and-clickの原則に従って構築されているため、コーディングを必要とせずに簡単にデータを抽出することができます。また、JavascriptページとAJAXページを処理でき、Webサイトにログインする前にスクレープすることもできます。Botのように、アイテムをクリックするだけで、他のページのデータを抽出し、リンクをたどってより深いWebページにアクセスすることができます。正規表現やXPathを利用することで、手動でデータを調整・変更することも可能です。両方のツールはクラウドサービスも提供しており、スケジュールの設定によりリアルタイムで実行することができます。コンピューターの電源を入れなくても、定期的にデータを自動的に収集することができるため、非常に便利です。
3.Octoparseのメリットとデメリット
Octoparseの動作原理は完全に人間の行動を模倣しています。だから非常に複雑なサイトであっても、人間の指示に従ってデータを抽出することも可能です。
- メリット
複数のURLを同時に抽出したり、キーワードを入力して検索することもできます。
「次へ」ボタ次へボタンをクリックして新しいページに移動し、無限にスクロールして新しいページからデータを自動で取得することもできます。
リストページから詳細ページに移動してデータを取得することも可能です。
クラウドベースのWebスクレイピングをサポートしており、クラウドでスクレイピングを実行することで、高速かつ安定したスクレイピングを実現できます。
クラウドベースのWebスクレイピングをサポートしており、クラウドでスクレイピングを実行することで、高速かつ安定したスクレイピングを実現できます。
APIを提供しており、他のツールとの連携も可能です。
テキスト、画像、リンクなど、さまざまなタイプのデータを抽出できます。
データの出力形式として、Excel、CSV、JSON、HTML、SQLデータベースなどをサポートしています。
スケジュールの設定により、定期的にデータを抽出できます。
自動でIPアドレスをローテーションして、スクレイピングのブロックを回避することができます。
スクレイピングの進行状況をリアルタイムで監視できます。
スクレイピングが途中で停止した場合、自動で再開することができます。
豊富なチュートリアルやテンプレートを提供しており、初心者でもスムーズに使い始めることができます。
Octoparseのスクレピング機能の一覧を以下のように示します
IP自動ローテーション |
API |
ループ、変数、動作原理 |
テキスト、HTML、属性を抽出 |
スケジュール管理 |
クラウドサービス |
ファイルと画像URLの抽出 |
フォーム検索とテキスト入力 |
ドロップダウン、タブ、ホバー、ポップアップからデータを取得 |
データベースの統合 |
ページネーションとナビゲーション |
無限なページのスクロール |
正則表現及びXPath |
テーブルとマップからデータを取得 |
AJAXとJavaスクリプトで読み込むコンテンツ |
- デメリット
Octoparseを利用するには、ソフトウェアを自分のコンピューターにインストールする必要があります。しかし、インターネットが不安定な場合、スクレーパーが予期せず停止してしまい、クローラーを最初から再実行する必要がある場合がありますので、ご注意ください。
Octoparseを利用する前には、公式サイトのOctoparse初心者ガイドをよく参照し、初めて使用する場合はできるだけその初心者ガイドに従って練習することをお勧めします。
また、Octoparseのワークフロー動作原理を理解することは重要ですが、完全に理解するまでには時間がかかる場合があります。
4.import.ioのメリットとデメリット
- メリット
Import.ioはクラウドベースのプラットフォームで、ローカルでスクレイピングを実行する必要がなく、データをクラウドに保持することができます。したがって、インターネットに接続されている場合は、どのコンピューターからでもデータにアクセスできます。また、スクレイピングプロセスのメンテナンスとスケーラビリティの心配も不要です。
Octoparseのアドバンストモードとは異なり、Import.ioは数秒で抽出機能を構築するため、ページから何を望んでいるかを推測します。
Import.ioの他の機能は次のとおりです。
- データソースを別のデータソースに接続して、新しい価値のあるリアルタイムデータを作成します。
- GoogleSheetとTableauとの統合
- 画像やファイルを抽出することができます
- API統合
Importのスクレイピング機能の一覧を次に示します
IP自動ローテーション |
クラウドサービス |
AJAXとJavaスクリプトで読み込むコンテンツ |
ファイルと画像URLの抽出 |
スケジュール管理 |
正則表現及びXPath |
ページネーション |
テーブルとマップからデータを取得 |
API、TableauとGoolge Sheetの統合 |
- デメリット
Import.ioの欠点は、Webサイトの処理はあまり広く使用されていないことです。前述のように、ドロップダウンメニューやポップアップウィンドウ、キャプチャを含むWebサイトを扱うことができません。また、ほとんどの無限スクロールページのWebサイトに対しても、スクレイピングすることができません。正規表現とXPathでデータを変換する場合、import.ioには組み込みのツールがないため、自分で入力する必要があります。つまり、より正確にデータを抽出するためには、XPathと正規表現を学ぶ必要があるということです。
5.制限に関する
Octoparse
- クローラーの数
- 同時に実行されるクローラーの数
- クラウドサーバーによって、データ抽出速度が異なる。
各クローラーに無制限のページがあり、無料のものを含め、各バージョンに無制限のコンピューターライセンスがあります。
Import.io
- 1か月または1年あたりのクエリ数
- クエリの有効期限
- 画像やファイルのダウンロード、API、最新のレポート作成などの機能が制限されています。
残念なことに、Import.ioが無料バージョンを提供しなくなりました。
まとめ
Octoparseとimport.ioは、両方ともプログラミングの知識がなくてもスクレーピングツールを使ってWebサイトからデータを簡単に抽出することができます。また、これらのツールはWebから抽出されたデータを簡単にCSV/Excel形式でエクスポートできます。
これらのツールは静的なWebサイトと動的なWebサイトの両方をスムーズに扱うことができます。しかし、XPathや正規表現があるため、Import.ioにはプログラミングの知識が必要ないと主張されていますが、少なくともプログラミングの知識を調べることが必要とされています。