Webスクレイピングを使用することで、Web上にあるデータを自動的に取得し、データ収集時間の短縮・業務生産性向上に役立てることができます。
しかし、ただデータを収集するだけでは重複する複数のデータを取得してしまうことがあります。そこで不要なデータかどうかを判断するデータクレンジングが必要です。
本記事では、Web上に数多くあふれているデータ活用の現状、データクレンジングとは何か、またOctoparseを使ったデータクレンジングについてご紹介していきます。
データ活用の現状
近年ではDX改革がよく叫ばれるようになっています。その中でデータ活用の現状はどうなっているのでしょうか。
データをビジネスに活用するイメージができていない状態でデータ収集を行ったとしても、データを経営の意思決定に活用することはできません。
データ活用を行うにあたって多くの企業は以下の課題に遭遇します。
・データの型が揃っていない
・データのフォーマットが揃っていない
・重複データが削除されず残っている
データクレンジングとは
先ほど述べたようなデータ活用の現状に対して、データクレンジングがどのような役割を果たしているのでしょうか。
データクレンジングとは、データベースに保存されているデータの中から、重複や誤記などを探し出し、削除や修正などを行うことでデータ自体の品質を高めることです。
言葉の通り、データを洗浄(クレンジング)するイメージです。
データを分析・活用する際に、同じ意味を表しているのにも関わらず、表記が微妙に異なっていて同一とみなされないことがあります。そのような場合に、一定の基準やルールを定め、データを調べて適切な状態に編集、補正していきます。
よくある例としては、全角文字と半角文字の違いや、空白文字や区切り記号の有無、姓名の分割、住所や電話番号の表記法などが対象となります。それぞれについて表記ルールを決めて修正や削除を行なっていきます。
データクレンジングを行うことによって、重複して取得したデータから重複を除外することができます。
データクレンジングのメリット
データクレンジングには次のようなメリットがあります。
分析精度の改善
データクレンジングを行う目的として多いのは、顧客管理システムにおける各種データの形式を統一・整理し、顧客管理作業の効率を高めることです。
企業が扱う顧客データには重複データ、住所の不備、データ型の不統一などが存在します。データクレンジングを行い、重複データ削除、住所の不備修正、データ型の統一を行うことで、精度の高い顧客分析が実現可能となります。正確な顧客分析によって、本来アプローチしたい顧客に対してアプローチができるようになり、継続的な利益につなげられるようになります。また、自社のターゲットの適合する顧客の絞り込みを行う際にも、無駄な費用や時間的コストを削減可能になります。
社内・社外業務効率の向上
データクレンジングを行っていないデータを使って社内の業務状況を分析したとしても、正確な現状分析ができません。
クレンジングしたデータを活用することによって、正確な分析ができ、会社組織内のニーズが見えてきます。問題の原因も見えてくるので、それに対応して業務効率化できるポイントが見えてきます。また、データ処理やデータ修正などの作業時間を短縮できるため、マーケティングの施策や立案などの売上を上げることのできるメイン業務に注力できます。そうすることで、営業やマーケティング部門の社員の業務効率が上がることにもつながります。
競争優位性
失われた30年と言われ、日本ではどの企業も例外なく新規顧客獲得が課題となっています。同時に既存顧客のニーズを満たすことも重要です。既存顧客のニーズを満たすことが継続的な利益創出にもなります。また、競合他社に対する優位性を高めることにもなります。
データクレンジングによって、速いスピードで変化し続ける顧客ニーズを特定し、品質の優位性を実現できます。
開発費と保守費の削減
データクレンジングは、開発費や保守費などの削減にも貢献します。
誤ったデータ、重複したデータ、不統一なフォーマットのデータを蓄積することは、無駄な運用・保守コストを発生させてしまいます。運用・保守にかかるコストは一時的にかかるものではなく、毎月レベルで定期的に発生するものですので、年単位でみると大きな金額となってしまいます。
顧客からの信頼を守る
不備のあるデータがデータベース内に存在すると、顧客データの間違いによるメール誤送信などのセキュリティ事故を起こす可能性があります。セキュリティ事故は顧客の信頼を失うことにもなり、良好な関係性の構築に支障をきたしてしまいます。
データクレンジングに取り組むことで日ごろの入力ミスや誤表記によって生じたデータ不備の修正ができ、顧客からの信頼を保つことができます。
Octoparseを使ったデータクレンジング
前述したデータクレンジングを行う前に、Webスクレイピングによるデータ収集が必要です。
Webスクレイピングとは、Webページに記載されているHTMLデータの情報の中から必要とする部分だけを自動抽出することです。例えば、見出しや写真といった特定のデータを抽出することができます。自動的に行うことができるので、手動でデータを収集する際にかかる時間を大幅に削減できる、コピペミスを削減できるというメリットがあります。
ここでは、データ収集ツールの1つであるOctoparseを使って重複するデータを削除する手順、データの再フォーマット方法をご紹介します。
Octoparseは大量データを抽出することに加え、ソフト内で直接データのクリーニングを行うこともできるツールです。
重複データの削除
1.リストを出す。
今回は例として、NHKクロニクルからキーワード検索した番組リストを使います。
キーワード検索を行います。

番組リストが表示されます。

2. Octoparseを開き、検索結果のページのURLを入力欄にコピー&ペーストします。「抽出開始」ボタンをクリックします。

3.「ワークフローを作成」をクリックします。

4. 赤枠のフィルターアイコン(ジョウロ)をクリックします。

5. どの項目が重複している場合に重複と検出するかを画面左のチェックボックスで選択し、「保存」をクリックします。

6. 確認画面が表示されるので「保存」をクリックします。
データの再フォーマット
Webデータの抽出をする時、抽出した一部のデータは欲しい形と違って困る場合があります。その場合、データを再フォーマットすることで、データを望む形に変換することができます。
再フォーマットの手順は以下です。
1.再フォーマットしたいデータフィールドの右上のボタンをクリックします。

2.「データを再フォーマット」を選択します。

3.「ステップを追加」をクリックして、データ再フォーマットオプションを選択します。


まとめ
本記事では、データクレンジングとは何か、データクレンジングにはどのようなメリットがあるのかを紹介し、具体的なOctoparseを使ったデータの重複削除方法についてご紹介しました。
Webスクレイピングは、ビジネスに必要なデータ収集の自動化に役立つ手法ですが、あくまでもデータ収集は手段であり、それだけで成果が得られるわけではありません。重複したデータを削除するなどして、収集したデータを整える必要があります。
本記事を参考に、Webスクレイピングツールで収集したデータをどのように活用していくのかを明確にしましょう。Octoparseでは、Webスクレイピングに役立つ情報や企業事例も多数公開していますので、ぜひ参考にしてください。
