【初心者向け】無料でTwitterからデータを抽出する方法3選!

Twitterは月間1億8700万人のアクティブユーザー数があり、日本で最も人気のあるソーシャルだと言えます。そのため、日本国内の企業でも積極的にTwitterを活用しています。Twitterのプロフィール、ハッシュタグ、タイムラインからツイートデータを抽出し、様々な分野に利用することができます。たとえば:

  • ブランドモニタリング
  • 予測分析
  • 競合他社の追跡
  • センチメント分析
  • MLモデルのトレーニング
  • 業界動向分析
  • 市場調査
  • マーケティングの最適化
  • 新製品イノベーション

Twitterからデータを抽出する方法はいくつかあります。

  • Webスクレイピングツールの利用
  • オープンソースのスクレイピングパッケージの利用
  • Twitter APIの利用

 

Webスクレイピングツールを利用すれば、コードを書く必要がないため、ツイートをスクレイピングする最も簡単な方法です。オープンソースのスクレイピングパッケージは、ネイティブなプログラミング言語を習得しなければなりません。または、それは community-managedで、アップデートやバグフィックスの即時性を保証することができません。Twitter APIの場合はTwitter自社がデータを提供しているため、いろいろデータを取得できますが、コストがかかります。たとえば、500万件のツイートをスクレイピングするためには、250万ドル+開発者の給与+ネットワークリソースを支払う必要があります。これでは、約1万円以上くらいのコストがかかってしまいます。

 

Webスクレイピングツールを利用すると、他の方法に比べ、時間とコストを大幅に節約できます。たとえば、Octoparseというスクレイピングツールでは、自動的にデータを抽出できます。クリックと設置をするだけで、10分で何千ぐらいのデータを抽出することができます。データ抽出スピードが速いだけではなく、コストも安いです。

 

Octoparseも無料なサービスもあります。一般的に個人であれば、無料なサービスは十分に満足できると思います。企業などの法人や膨大な量を求めっている場合は、やはり有料プランをおすすめます。Octoparseを利用する際に、予算と要件に応じて、適合なプランを選択しましょう。

これから、Octoparseを使って、無料でツイートをスクレイピングする方法を紹介します。

 

方法1:テンプレートでTwitterのデータを収集する

方法2:ノーコードでTwitterのデータを抽出する(1)

方法3:ノーコードでTwitterのデータを抽出する(2)

 

方法1:テンプレートでTwitterのデータを収集する

Octoparseでは、数多くWebサイトのデータ抽出テンプレートが用意しております。データを抽出したい対象サイトのテンプレートをチェックし、ぜひOctoparseのテンプレートを活用してみますね!

 

テンプレートの使い方:

ステップ1:Octoparseをダウンロードし、ログインします。

Windows版のダウンロードするリンク:https://www.octoparse.jp/Download/windows

MacOS版のダウンロードするリンク:https://www.octoparse.jp/download/mac

 

ステップ2:「人気テンプレート」のところにTwitterを選定します。

「人気テンプレート」のところに「もっと見る」をクリックします。すべてのテンプレートが「Hot」、「Products」、「Travel」、「Social Media」などのカテゴリーに分かれています。データを抽出したい対象サイトをここにチェックします。

 

ステップ3: Twitterデータスクレイピングテンプレートを設定します。5種類のオプションがあります。

  • Author Page(days before)

Twitterのアカウントページから、ツイートや「いいね!」数や投稿時間、「Location」などのデータをスクレイピングします。

  • Author Page(Post Only)

Twitterのアカウントページから、投稿内容、投稿時間、リツイート数、「いいね!」数などのデータをスクレイピングします。

  • Tweets (URLs)

Twitterから最新のツイート、Topツイートなどのデータをスクレイピングします。

  • Advanced_Search

データ項目:ツイート、リツイート、投稿者のID、投稿のコメントなどのデータをスクレイピングします。

  • Top Tweets(Post Only)

Top Twitterから投稿内容、コメント、TwitterIDなどのデータをスクレイピングします。

 

 

ステップ4:例えば、Tweets(URLs)というテンプレートを例として選択します。

これから、このテンプレートを使って、Twitterをスクレイピングします。

「今すぐ使う」をクリックします。

パラメーターでURLとスクロール実施回数を入力します。

「保存して実行」をクリックしてから、「クラウド抽出」を選択し、データを抽出開始します。

 

方法2:ノーコードでTwitterのデータを抽出する(1)

それでは、Octoparse Japanのアカウントからデータ抽出するクローラーを構築しましょう。

 

ステップ1:対象サイトのURLをOctoparseで入力し、「抽出開始」をクリックします。

 

ステップ2:余白のところにクリックし、「単一要素をループクリックする」をクリックします。これで、新しいデータを読み込むために、Twitterを自動的にクスロールすることを設定をしました。それと、画面の「操作ヒント」でAjaxタイムアウトを3~5秒くらい設定します。

ステップ3:最初の項目に抽出したいデータをクリックし、「操作ヒント」で「すべて選択」をクリックし、そして、最初の項目に他の抽出したいデータをクリックし、「選択した要素のテキストを抽出する」を選択します。

ステップ4:左上の「保存」「実行」をクリックし、「ローカル抽出」あるいは「クラウド抽出」を選択し、データを抽出します。

※もし、「ローカル抽出」を選択してから、データはうまく抽出出来なかったら、「クラウド抽出」でやりましょう。一般的に「ローカル抽出」より「クラウド抽出」の方がもっと安定性を持っています。

 

Twitterを代表とする多くのソーシャルメディアでは、エンゲージメントやカスタマーエクスペリエンスを高めるために、無限スクロール機能が実装されています。そのため、スクロールの繰り返しや待ち時間を設定することで、画面をスクロールしても新しいツイートが読み込まれ、動的にスクレイピングできるようにしています。

 

Twitterは、ツイートをコードから隠し、常に最大10~12件のツイートのみを表示するようにHTMLを動的に更新するWebサイトを構築しているからです。そのため、画面を5回スクロールしても、重複するツイートがいくつか出てきてしまうのです。しかしながら、Octoparseでは、重複したツイートを簡単に取り除くことができます。これからその方法を紹介します。

方法3:ノーコードでTwitterのデータを抽出する(2)

ステップ1:緑色を全ての項目をカバーするために、最初の項目の余白のところをクリックします。そのステップはツイートのトップレベルのDIVを選択すると意味しています。それで、Octoparseは自動的にすべての要素が選択されます。そして、「操作ヒント」で「サブ要素を選択する」「すべて選択」「データを抽出する」を相続的にクリックしてから、Octoparse で同じ構造である他の項目を同じように選択されました。

 

ステップ2:データプレビューで選択されたデータを表示されています。そして、✎」▪▪▪」をクリックし、不要なフィールドを削除したり、名前を変更したりすることができます。

 

 

 

ステップ3:「保存」をクリックし、Twitterのツイートスクレイピングのクローラーが完成しました。

 

そして、「実行」ボタンをクリックします。

Twitterクローラーは、「ローカル実行」と「クラウド実行」をすることができます。または、スケジュールを設定することによって、いつでもデータをスクレイピングすることもできます。

 

ステップ4:データを抽出する

Octoparseは自動的に重複したデータを読み込んで、重複データを削除します。そして、自分のニーズに応じて、ExcelJsonCSVHTMLなどでデータをエクスポートします。

 

以上は、無料でツイートをスクレイピングする方法です。

みなさん、いかがでしょうか?一度やってみって、Twitterのスクレイピングを楽しんでください。

 

まとめ:

今回の「ツイートを無料でスクレイピングする方法」の記事では、企業がソーシャルデータ、特にツイートデータを活用するためにいくつかの方法を紹介しました。ブランドのモニタリングや競合他社の監視、MLモデルのトレーニングや新製品の開発など、ビジネスにおいて、ソーシャルデータの活用に役立ちます。Octoparseはノーコードでデータを抽出するツールです。Octoparseでのテンプレートを使用して、20秒もあれば大規模かつ高速にツイートのスクレイピングが可能です。カスタマイズタスクを利用する場合は設定からスクレイピング開始まで3分以内で完了できます。

スクレイピングに関するその他のリソースは、こちらをご覧ください。

Twitterからツイートをスクレイピングする

Twitterからツイート情報をスクレイピングする

 

 

 

 

 

関連記事

 

すぐ出来る!データ収集をTwitterから学ぼう

【Python】ドナルド・トランプにおけるTwitter民の感情分析