【初心者向け】無料でTwitterからデータを抽出する方法3選!

Twitterは、全世界で月間3億3000万人のアクティブユーザー数を誇り、日本でも月間4500万人が利用する人気SNSです。

幅広い年代に利用されていることから、国内企業・日本政府でも積極的にTwitterを活用しています。今や企業のマーケティング活動において、Twitterのデータ活用は欠かせません。

しかし、Twitterデータをどのように抽出すれば良いかわからない方も多いはずです。そこで本記事では、Twitterからデータを抽出する方法を3つ紹介します。

どの方法も無料で利用できる上に、かんたんな操作だけでデータ抽出が可能なので、作業時間の効率化につながります。Twitterデータを上手に活用して、自社のマーケティング活動の精度を高めましょう。

Twitterデータの用途とは

 Twitterのプロフィール、ハッシュタグ、タイムライン、ツイートから抽出した各データは、企業のマーケティング活動や競合対策など様々な分野に役立ちます。

例えば以下のような用途があります。

  • ブランドモニタリング
  • 予測分析
  • 競合他社の追跡
  • センチメント分析
  • MLモデルのトレーニング
  • 業界動向分析
  • 市場調査
  • マーケティングの最適化
  • 新製品イノベーション

ターゲット属性は誰をフォローしているか、どんなツイートに興味関心があるか、現在ツイートされているトレンドワードは何か、などを分析することで、ユーザーの思考を理解することが可能です。

Twitterからデータを抽出する方法

Twitterからデータを抽出する方法は以下の3つが挙げられます。

  • Webスクレイピングツールを利用する
  • オープンソースのスクレイピングパッケージを利用する
  • Twitter APIを利用する

Webスクレイピングツールを利用する

Webスクレイピングツールとは、Webサイト内の情報を自動で抽出するソフトウェアサービスのことです。Webスクレイピングを行うためには、Pythonなどのプログラミングが必要です。

しかし、Webスクレイピングツールを利用すれば、ノーコードでかんたんなクリック操作だけで実行することができます。Twitterのツイートをスクレイピングする際に最も効率的な方法です。

オープンソースのスクレイピングパッケージを利用する

オープンソースのスクレイピングパッケージも無料で使うことができます。しかし、ネイティブなプログラミング言語を習得しなければなりません。

また、オープンソースは非営利によるコミュニティ管理であるため、アップデートやバグ修正(バグフィックス)の即時性を保証されないというデメリットもあります。

Twitter APIを利用する

Twitter APIは、Twitter社がデータを提供しているため様々なデータを取得できます。しかし、利用するには多額の費用がかかります。

例えば、500万件のツイートをスクレイピングするためには、250万ドル(約3億4000万円)+開発者の給与+ネットワークリソースを支払う必要があります。これでは、ツイート1件あたり約1万円以上のコストがかかってしまいます。 

初心者がTwitterデータを抽出するならWebスクレイピングツールが最適

ここまで解説した通り、初心者がTwitterのデータを抽出する際は、Webスクレイピングツールの活用がおすすめです。他の方法に比べ、手軽でかんたんな操作だけでデータ抽出が可能なので、時間とコストを大幅に節約できます。

数あるWebスクレイピングツールの中でも「Octoparse」では、コードを書かずにかんたんな設定・操作だけで、データ抽出の自動化が実現可能です。わずか10分程で、何千ものTwitterデータを抽出できます。さらに、データ抽出スピードが速いだけではなく、無料から使えるなど導入費用の安さも魅力です。

個人での利用であれば、無料プランでも十分に活用できます。一方企業が膨大な量のデータ抽出を求める場合は、有料プランがおすすめ。Octoparseを利用する際は、予算と要件に応じて、適切なプランを選択しましょう。

Octoparseでツイートをスクレイピングする方法

ここからは、実際にOctoparseを使って、無料でツイートをスクレイピングする方法を紹介します。

方法1:テンプレートでTwitterのデータを収集する

方法2:ノーコードでTwitterのデータを抽出する(1)

方法3:ノーコードでTwitterのデータを抽出する(2)

方法1:テンプレートでTwitterのデータを収集する

Octoparseでは、数多くのWebサイトのデータ抽出テンプレートが用意されています。データを抽出したい対象サイトのテンプレートをチェックするだけで利用が可能です。ここでは、テンプレートの使い方について解説します。

ステップ1

PCにOctoparseをダウンロードし、ログインします。

Windows版のダウンロードするリンク:https://www.octoparse.jp/Download/windows

MacOS版のダウンロードするリンク:https://www.octoparse.jp/download/mac

ステップ2

 ダッシュボード>人気テンプレートから「Twitter」を選定します。

 

ステップ3

ここでは、「Social Media」カテゴリ内にある、 Twitterのスクレイピングテンプレートを設定します。Twitterのテンプレートは6種類あり、それぞれ抽出できるデータが異なります。

 

 

テンプレート名

カテゴリ

FR Twitter Author List

Twitterの作成者に関する情報(コンテンツ、コメントなど)を抽出するために使用されます。

Author Page(days before)

Twitterのアカウントページから、ツイートや「いいね!」数や投稿時間、「Location」などのデータをスクレイピングします。

Author Page(Post Only)

Twitterのアカウントページから、投稿内容、投稿時間、リツイート数、「いいね!」数などのデータをスクレイピングします。

Tweets (URLs)

Twitterから最新のツイート、Topツイートなどのデータをスクレイピングします。

Advanced_Search

 

データ項目(ツイート、リツイート、投稿者のID、投稿のコメントなど)のデータをスクレイピングします。

Top Tweets(Post Only)

Top Twitterから投稿内容、コメント、TwitterIDなどのデータをスクレイピングします。

 

ステップ4

ここでは、例として「Tweets(URLs)」テンプレートを使って、Twitterをスクレイピングします。

はじめに「今すぐ使う」をクリックします。

 パラメーターにスクレイピングを行う「TwitterアカウントのURL」と「スクロール実施回数」を入力し、「保存して実行」をクリックします。続いて「クラウド抽出」を選択すると、データ抽出が開始します。

 

方法2:ノーコードでTwitterのデータを抽出する(1)

ここでは、Octoparse JapanのTwitterアカウントからデータ抽出するクローラーを構築していきます。

ステップ1

Octoparse JapanのURLをOctoparseの検索バー内に入力し、「抽出開始」をクリックします。

 ステップ2

余白のところをクリックし、「単一要素をループクリックする」をクリックします。これで新しいデータを読み込むために、Twitterを自動スクロールを設定しました。次に「操作ヒント」から、Ajaxタイムアウトを3〜5秒ほどに設定します。

 

ステップ3

最初の項目から抽出したいデータをクリックします。次に「操作ヒント」で「すべて選択」をクリックします。次に、最初の項目にて他の抽出したいデータをクリックし、「選択した要素のテキストを抽出する」を選択します。

ステップ4

左上の「保存」と「実行」をクリックし、「ローカル抽出」あるいは「クラウド抽出」を選択し、データを抽出します。

※もし「ローカル抽出」でデータ抽出が上手く出来ない場合は、「クラウド抽出」をお試しください。一般的に「ローカル抽出」に比べて「クラウド抽出」の方が安定性が高くなります。

方法3:ノーコードでTwitterのデータを抽出する(2)

Twitterをはじめ多くのソーシャルメディアでは、エンゲージメントやCX(顧客体験価値)を高めるために、無限スクロール機能が実装されています。そのため、スクロールの繰り返しや待ち時間を設定することで、画面をスクロールしても新しいツイートが自動的に読み込まれ、動的にスクレイピングできるようになります。

Twitterは、ツイートをコードから隠し、常に最大10〜12件のツイートのみを表示するようにHTMLを動的に更新するWebサイトを構築しているからです。そのため、画面を5回スクロールしても、重複するツイートがいくつか出てきてしまうことがあります。しかしながら、Octoparseでは、重複したツイートを簡単に取り除くことができます。これからその方法を紹介します。

ステップ1

画面緑色の全ての項目をカバーするために、最初の項目の余白部分をクリックします。これでOctoparseには自動的にすべての要素が選択されます。

次に「操作ヒント」>「サブ要素を選択する」>「すべて選択」>「データを抽出する」の順番にクリックします。

 

ステップ2

データプレビューで選択されたデータが表示されています。そして、「✎」や「▪▪▪」をクリックし、不要なフィールドを削除したり、名前を変更したりすることができます。

ステップ3

「保存」をクリックすれば、Twitterのツイートスクレイピングのクローラーが完成です。

 そして、「実行」ボタンをクリックします。ツイートスクレイピングクローラーは、「ローカル実行」と「クラウド実行」ができます。また、スケジュールを設定することで、いつでも好きな時間にデータをスクレイピング実行できます。

ステップ4

Octoparseは自動的に重複したデータを読み込んで、重複データを削除します。そして、自身のニーズに応じて、Excel、Json、CSV、HTMLなどにデータをエクスポートします。

 

まとめ

今回の「ツイートを無料でスクレイピングする方法」の記事では、数あるソーシャルデータ活用の中で、特に注目されている「Twitter」のツイートデータを活用する方法を紹介しました。

ブランドのモニタリング、競合他社の監視、MLモデルのトレーニング、新製品の開発など、ビジネスにおいてソーシャルデータの活用はあらゆる場面で役立ちます。Octoparseはノーコードでツイートデータを抽出できる便利なツールです。Octoparseのテンプレートを使用し、20秒もあれば大規模かつ高速にツイートのスクレイピングが可能です。

まずは実際に触ってみて、Twitterスクレイピングを体感してみてください。Twitterのスクレイピングに関するその他の記事は、以下もご覧ください。

Twitterからツイートをスクレイピングする

Twitterからツイート情報をスクレイピングする

 

 

 

 

関連記事

 

すぐ出来る!データ収集をTwitterから学ぼう

【Python】ドナルド・トランプにおけるTwitter民の感情分析