Webスクレイピングソフトウェアはデータ抽出ツールとも呼ばれます。このツールはWebサイト上のデータを簡単に抽出し収集することができます。多くの人にとって、データ抽出やデータスクレピングを実施する際にプログラミング知識が不可欠だ、あるいは、ネット上のデータを一括に収集することがプログラミングマンしかない技術で、きっと簡単ではないというイメージがありますが、実際そうではありません。プログラミングマンのようにコードを書くのではなく、ソフトウェアを使って、プログラミングしなくても、ネット上のデータを一括に収集することができます。このソフトウェアによって、仕事の効率化やビジネスの情報収集に役立ちます。この記事では、代表的な使いやすい二つのWebスクレピングツールOctoparseとimport.ioを紹介した上で、その二つWebスクレピングツールの機能、サービスなどの情報を徹底的に比較して行こうと思います。
目次:
1.機能の比較
OctoparseとImport.Io機能の一般的な比較を次に示します。
特徴 |
Octoparse |
Import.io |
環境 |
Windows、Mac |
ウェブベースのアプリケーション、Chrome、firefox、Safari |
要素の選択 |
Point-and-click、XPath |
Point-and-click、Xpath |
ページネーション |
ページ番号のリンクをクリックする、XPathを手動で入力する |
ページの一覧を入力する |
スクレーパー動作原理 |
変数、ループ、条件 |
選択を抽出のみ |
ドロップダウン、タブ、ホバー、ポップアップ |
はい |
いいえ |
無限にページをスクロール |
はい |
いいえ |
検索ボックスへの入力 |
はい |
いいえ |
カプチャ |
ローカル |
いいえ |
アカウントへのサインイン |
はい |
はい |
Javascript |
はい |
はい |
データの変換 |
正則表現、javascript式 |
正則表現 |
速度 |
高速並列実行 |
高速並列実行 |
ホスティング |
Octoparse クラウドサービスを購入した場合は データ抽出をクラウドで実行できる。ローカルでも実行できる。 |
Import.io がクラウドでデータ抽出ことができる。 |
IPローテーション |
有料プランまたは手動IPプロキシ(無料版)に含まれています |
はい |
スケジューリング実行 |
はい |
はい |
データエクスポート |
CSV, Excel, テキスト, データベース |
CSV, JSON, API, Google Sheets |
スマートモード |
はい |
いいえ |
クラウドサービス |
はい |
はい |
最新のデータ |
はい |
はい |
画像とファイルの抽出 |
いいえ、イメージまたはファイル URL のみを抽出できます |
はい |
コーディング |
いいえ |
いいえ |
サポート |
無料のプロフェッショナルサポート、チュートリアル、コミュニティサポート |
有料ユーザー向けのコミュニティ サポートまたはプロフェッショナル サポート、success training |
2.共通点
その二つのスクレピングツールともインターフェースとpoint-and-clickの原則に従って構築されているので、コーディングせずに簡単にデータを抽出することが可能です。または、その二つスクレピングツールはJavascriptページとAJAXページを処理でき、Webサイトをログインする前にスクレープすることもできます。Botのように、アイテムをクリックするだけで、他のページのデータを抽出し、リンクをたどってより深いWebページにアクセスことができます。また、正規表現とXPathを利用するので、手動でデータを調整・変更できます。
その他に、クラウドサービスがあるため、すべてのデータ抽出をスケジュールの設定によって、リアルタイムで実行することができます。それで、コンピューターの電源を入れなくても、定期的にデータを自動的に収集することができます。
3.Octoparseのメリットとデメリット
Octoparseの動作原理は完全に人間の行動を模倣しています。だから非常に複雑なサイトであっても、人間の指示に従ってデータを抽出することも可能です。
- メリット
- 複数のURLを同時に抽出することができます。
- キーワードを入力し、検索欄で検索できます。
- 「次へ」ボタンをクリックし、新しいページに移動します。
- 無限にスクロールし、新しいページからのデータを自動に取得できます。
- 一覧ページのリストをクリックし、詳細ページからデータを取得する
- Octoparseのワークフローの動作原理(変数、ループ、条件)を理解し、複雑なWebサイトでより正確的なデータを抽出することができます。
- ターゲットURLを入力するだけで内蔵ブラウザーでWebサイトで人間の行動をシミュレートすることができます。
- データをより正しくて効率的に取得するために、正規表現とXPathを使えます。
Octoparseのスクレピング機能の一覧を以下のように示します
IP自動ローテーション |
API |
ループ、変数、動作原理 |
テキスト、HTML、属性を抽出 |
スケジュール管理 |
クラウドサービス |
ファイルと画像URLの抽出 |
フォーム検索とテキスト入力 |
ドロップダウン、タブ、ホバー、ポップアップからデータを取得 |
データベースの統合 |
ページネーションとナビゲーション |
無限なページのスクロール |
正則表現及びXPath |
テーブルとマップからデータを取得 |
AJAXとJavaスクリプトで読み込むコンテンツ |
- デメリット
Octoparseのソフトウェアを自分のコンピューターにインストールする必要があります。インターネットが不安定の場合は、スクレーパーが予期せず停止し、クローラーを最初から再実行する場合もありますので、ご注意ください。Octoparseの使い方を慣れる前に、公式サイトでのOctoparse初心者ガイドをよく参照してください。できるだけその初心者ガイドに従い、よく練習した方がいいです。または、octoparseのワークフロー動作原理を理解することは重要ですが、それを完全理解するまで多くの時間を費やします。
もう一つのことですが、Octoparseは画像やファイルを直接抽出することはできませんが、それらのURLを抽出し、他のアプリケーションと一緒にダウンロードすると、画像を一括的にダウンロードすることもできます。
4.import.ioのメリットとデメリット
- メリット
まず、import.ioはクラウドベースのプラットフォームです。つまり、ローカルでスクレイピングを実行する必要がなく、データをクラウドに保持できます。したがって、インターネットに接続されていると、任意のコンピューターからデータにアクセスことができます。または、スクレイピングプロセスのメンテナンスとスケーラビリティについて心配する必要がありません。
Octoparseのアドバンストモードとは異なり、import.ioはページからなにが望むかを推測することで、数秒で抽出機能を構築します。
import.ioの他の機能は次のとおりです
- データソースを別のデータソースに接続して、新しい価値のあるリアルタイムデータを作成します。
- GoogleSheetとTableauとの統合
- 画像やファイルを抽出することができます
- API統合
Importのスクレイピング機能の一覧を次に示します
IP自動ローテーション |
クラウドサービス |
AJAXとJavaスクリプトで読み込むコンテンツ |
ファイルと画像URLの抽出 |
スケジュール管理 |
正則表現及びXPath |
ページネーション |
テーブルとマップからデータを取得 |
API、TableauとGoolge Sheetの統合 |
- デメリット
import.ioの欠点は、Webサイトの処理はそれほど広く使用されていないことです。上記のように、ドロップダウンメニュー、ポップアップウィンドウ、キャプチャを含むWebサイトを扱うことができません。また、ほとんどの無限スクロールページのwebサイトに対して、スクレイピングすることができません。正規表現とXPathでデータを変換する場合、組み込みのツールは備えていないため、自分で入力する必要があります。つまり、import.ioでより正確的にデータを抽出するならば、XPathと正規表現を勉強しなければならないことです。
5.制限に関する
- Octoparse
- クローラーの数
- 同時に実行されるクローラーの数
- クラウドサーバーによって、データ抽出速度が異なる。
各クローラーに無制限のページがあり、無料のものを含め、各バージョンに無制限のコンピューターライセンスがあります。(注:URLリストに20000以下のURLを同時に、入力し抽出することができます。)
- Import.io
- 1か月または1年あたりのクエリ数
- クエリの有効期限
- 画像やファイルのダウンロード、API、最新のレポート作成などの機能が制限されています。
残念なことに、import.ioが無料バージョンを提供しなくなりました。
6.まとめ:
多くの人はOctoparseで1つや2つのクローラーを作成します。 1つは個別のWebページのURLを抽出するクローラーです。もう1つはURLリストからデータを一括的に抽出するクローラーです。クラウド サービスを使用する場合は、https://helpcenter.octoparse.jp/hc/ja/articles/360015209419にて、この方法にご参照してください。
Octoparseに比べるとImport.ioはWebページのURLリストからデータを一括的に抽出することができません。したがって、import.ioの1つのエクストラクタ(通常はデータが欠落していることを意味します)でこれらの個別のWebページをスクレピングしたり、あるいはバージョンをアップグレードして、クエリを増やしたりをすることが必要です。
Octoparse も Import.ioも、プログラミング知識を学習する必要がなく、スクレピングツールを利用するだけで、webサイトから欲しいデータを抽出することが可能です。または、その二つのスクレピングツールはWebから抽出されたデータを簡単にCSV/Excelの形でエクスポートすることができます。
7.結論:
Octoparseとimport.ioがどちらも簡単にデータを抽出することができます。そして、それらはすべて静的なWebサイトと動的なWebサイトの両方をうまく扱うことができます。 この二つのツールはXPathと正規表現があるので、プログラミングの知識がなくても、利用できると主張しますが、少なくとものプログラミング知識を調べることも必要だと考えられています。
スクレイピングツール30選|初心者でもWebデータを抽出できる