logo
languageJPdown
menu

【超簡単!】映像情報を一括抽出方法!NHKを例とし

約5分で読めます

映画やドキュメンタリーに関する学術研究の場合は一般的に映像のテーマ、制作された年月、俳優のキャストなどの情報を収集する必要があります。その場合はどうしますか?手動で映画やドキュメンタリーの情報を収集しますか?あるいはソフトウェアツールを利用して、データの収集をパソコンに任せますか?多くの人にとってやはりパソコンが自動的にデータを収集する欲しいと思うんですが。今日は、この記事でWeb上の映画やドキュメンタリーの情報を自動的に収集する方法を紹介させていただきます。

1.アーカイブの活用

近年、アーカイブの推進に伴って、映画やドキュメンタリーなどの情報の収集は図書館、博物館などの特別な場所に行かなくても、キーワードを入力するだけでインターネットで簡単に情報を探し出すことができました。ここに、一言でアーカイブとは何か?を説明させていただきます。

アーカイブとは英語「archive]に由来する言葉であり、「保存」「記録」の意味を持ちます。平成24年から、デジタル技術の発展に伴い、総務者は知のデジタルアーカイブと社会の知識インフラの拡充を積極的に組み込んでいます。具体的に言うと、この動きは「図書・出版物、美術品・博物品・歴史資料などの公共的な知的財産をデジタル化し公開することによって、誰でもどこでも見られるように行っています。特に学術研究の場合はデジタルアーカイブの活用することで、より簡単的に情報を入手できるようになりました。

デジタルアーカイブの保存、公開ないし活用について代表的な例はNHKアーカイブです。NHKは日本の公共放送としてよく「みんなのNHK」と呼ばれています。2007年12月に国会の改正放送法が成立し、放送した番組をインタネットで配信できるようになりました。その後、新作番組を放送後後一週間ほど見ることができるキャッチアップ(見逃し)サービスと過去に放送したアーカイブ番組を提供するサービスが実施された。NHKアーカイブでは、学術研究向けのサービスがあります。ここでNHKが制作・放送してきた370万のニュース項目、約60万本の番組の映像を保存しています。インターネットでNHK総合データベースにアクセスし、番組のタイトルや放送日時、番組基本情報、台本、構成表、主演者、著作権などの色々情報を検索することができます。NHKの映像や番組やドキュメンタリーを研究する学者にぜひおすすめます。

NHk学術利用トライアルNHKアーカイブス

これはNHK学術利用トライアルのホームページです。

このページの一番下のところに「データベースで探す」があります。下図のように

ここにクリックしてから、検索欄が出てきます。その検索欄にキーワードを入力するだけで、NHKが制作や放送したこのキーワードに関する全ての映像アーカイブ情報が出てきます。ここに「和食」を例としてやってみます。

2.データの抽出

たとえば、以下の図のように、「和食」に関するすべての映像の制作された時期、放送系統、番組タイトル、主演者などの情報を抽出して、それをExcelにエクスポートする場合はどうしますか?

この場合は、Octoparseというスクレイピングツールをすすめます。

Octoparseとは
Octoparseとはpythonの知識が不要で、どんなWebサイトで、誰でも簡単にデータを抽出し収集する無料のツールです。ただし、Octoparseの使い方を慣れるまで、使い方の学びや練習が必要です。使い方もそれほど難しいではありませんので、ご安心ください。

では、これからNHKアーカイブのWebサイトで「和食」のキーワードを例として、映像情報をの抽出、収集ないしExcelにエクスポートする方法を紹介していきます。

まず、コンピューターにOctoparseの最新バージョンをダウンロードしてください。ソフトウェアのダウンロードとインストールの方法をOctoparseの公式サイトでご参照ください。

映像情報を抽出しましょう!
ステップ1:OctoparseのソフトウェアでNHKアーカイブのULRを開きます。

Octoparseの内蔵ブラウザーでNHKアーカイブのWebサイトが開きました。

ステップ2:「Webページを自動検出する」をクリックしてください。

ステップ3:検出されたデータを確認して、「Webページを自動検出する」をクリックします。

ステップ4:ワークフローをを設定完了してから、左上のところに、青い「保存」ボダンをクリックし、そして「実行」をします。

全てのデータを抽出するまで、しばらくお待ちください。

約12分を経っても、2380件のデータが抽出されました。全てのデータを抽出したら「データをエクスポート」をクリックし、「Excel」を選択し確認し、octoparseで抽出されたデータを自動的にExcelにエクスポートします。

まとめ

OctoparseはNHKのデータ収集に非常に便利であることが分かっています。このスクレイピングツールを使用すると、膨大な量のNHKコンテンツから必要な情報を簡単に抽出することができます。たとえば、ニュース、天気、ラジオ、テレビなど、NHKが提供するあらゆるコンテンツを取得することができます。また、OctoparseはNHKの動的なWebサイトにも対応しているため、自動的にページをスクロールし、データを収集することができます。さらに、Octoparseはデータを簡単にCSV、Excel、またはJSON形式でエクスポートすることができます。これらの機能を使うことで、NHKのデータ収集がとても簡単で効率的になります。

人気記事

トピックを検索する

今すぐOctoparseを始めて、業務効率化を実現しましょう。

ダウンロード

関連記事

  • avatarTakahashi
    Twitterは、全世界で月間3億3000万人のアクティブユーザー数を誇り、日本でも月間4500万人が利用する人気SNSです。幅広い年代に利用されていることから、国内企業・日本政府でも積極的にTwitterを活用しています。今や企業のマーケティング活動において、Twitterのデータ活用は欠かせません。 しかし、Twitterデータをどのように抽出すれば良いかわからない方も多いはずです。そこで本記事では、Twitterからデータを抽出する方法を紹介します。 ここで紹介する方法は無料で活用できる上に、かんたんな操作だけでデータ抽出が可能なので、作業時間の短縮や業務生産性の効率化につながります。Twitterデータを上手に活用して、自社のマーケティング活動の精度を高めましょう。
    2023.11.30 · 5 min read
  • avatarMashroomcat
    Twitterには毎日、全世界から何百万人ものユーザーが、顔出しなし、無記名で投稿したり閲覧したりを繰り返しています。その数は、全世界で月間3億3000万人以上といわれており、日本だけでも月4500万人もの人が利用しています。これらのデータをもし簡単に収集して分析できるとしたら、試してみたいと思いませんか?今回はTwitterの投稿の中に良く見かけるハッシュタグを利用したデータ分析方法についてご紹介します。
    2023.07.25 · 6 min read
  • avatarMurata
    人工知能に興味があるエンジニアやAIエンジニアなどが、最近多く利用しているのがOpenAIのコミュニティサイトです。OpenAIのコミュニティサイトには、さまざまなトピックがあり、利用者からのコメントが多く投稿されています。このOpenAIのコミュニティサイトから、自分が目的とするデータを抽出するには、どうしたらいいでしょうか。この記事では、OpenAIのコミュニティサイトからデータを抽出する方法について解説します。
    2023.02.27 · 7 min read
  • avatarKouyama
    App StoreはApple社製のデバイスに向けたアプリケーションを配布するプラットフォームです。非常に多くのアプリが集められており、アプリについてのランキングやレビューは、アプリケーション開発者やWebコンテンツ作成者にとって利用価値の高いデータといえます。本記事では、ローコードスクレイピングツールOctoparseを利用してApp Storeアプリのレビュー情報を取得する方法について紹介します。
    2023.02.20 · 6 min read