🚀 あらゆるWebページを即座にAI向けトレーニングデータへ変換。
大規模言語モデル(LLM)やRAG(検索拡張生成)システムの時代に合わせて設計された「ユニバーサルコンテンツスクレイパー」は、事実上あらゆる記事、ブログ記事、またはドキュメントページから、クリーンで構造化された本文コンテンツを抽出するように構築されています。
ウェブサイトごとにカスタムルールを必要とする従来のスクレイパーとは異なり、このインテリジェントなテンプレートはページの「メインコンテンツ」を自動的に識別し、ナビゲーションバー、広告、フッターなどのノイズを取り除きます。ベクトルデータベース、GPT、Claudeへの入力に最適な構造化フォーマット(Markdown/JSON)でデータを出力します。
🌟 主な特徴
- ユニバーサルな互換性: ニュースサイト、ブログ、ドキュメント、ナレッジベース(例:Bloomberg、Medium、企業Wikiなど)で動作します。
- AIネイティブな出力: モデルのコンテキストウィンドウに適したクリーンなフォーマットでコンテンツを抽出します。
- スマートクリーニング: 自動的に不要な部分を削除し、核心となるテキストに焦点を当てます。
- バッチ処理: URLリストを入力するだけで、一度にすべてをスクレイピングできます。
データプレビュー
このテンプレートは、すべてのURLに対して以下の標準化されたフィールドを抽出します:
Field Name | Description |
url | The source URL of the page. |
title | The extracted title of the article or page. |
content | The main body text, cleaned and structured (supports Markdown/JSON format). |
author | The author of the content (if detectable). |
published_at | The publication date (e.g., 2026-01-29). |
format | The output format tag (e.g., json, markdown). |
error_message | Captures any access errors (e.g., 403 Forbidden) for easier debugging. |
📂 サンプルデータ (JSON表現)
{
"url": "https://www.bloomberg.com/opinion/articles/...",
"title": "Why Is Germany Sitting on $599 Billion of Gold?",
"content": "{\"text\": \"Eighty feet below the streets of Manhattan...\"}",
"author": "Chris Bryant",
"published_at": "2026-01-29",
"format": "json"
}🛠 使用方法:
- 「i今すぐ試す」をクリックして、スクレイパーを読み込みます。
- パラメータを入力します。Target URLs: スクレイピングしたいURLのリスト(ブログ記事のリンクやニュース記事のURLなど)をコピーして貼り付けます。
- 「実行」をクリックします。クラウドで実行を選択します。Octoparseは各URLにアクセスし、インテリジェントに記事本文を検出し、データを保存します。
- データをエクスポート完了したら、JSON、CSV、またはExcelに直接エクスポートします。プロのヒント: このデータをAPIやPythonスクリプトに直接取り込む場合は、JSONエクスポートを使用してください。
⚠️ 注意点とベストプラクティス
- アンチスクレイピング(403エラー)の処理
このテンプレートは様々なウェブサイトにアクセスするため、一部のセキュリティレベルの高いサイトでは標準的なリクエストがブロックされる場合があります。
解決策: error_message列に「403 Forbidden」と表示される場合は、タスク設定でOctoparseプレミアムプロキシを有効にするか、クラウド抽出モードを使用してIPを自動的にローテーションしてください。
- コンテンツ構造
スクレイパーは「記事のような」ページ(ブログ、ニュース、ドキュメント)に最適化されています。複雑な動的ダッシュボードやSNSフィードでは、専用のテンプレートが必要になる場合があり、うまく機能しない可能性があります。
- 動的読み込み
テンプレートにはスクロールに対する基本的な処理が含まれています。
❓ よくある質問 (FAQs)
Q: ログインが必要なページもスクレイピングできますか?
A: このテンプレートは公開ページ向けに設計されています。ログインが必要なページの場合、カスタムタスクでCookie共有を設定する必要がありますが、このテンプレートは一般公開されている情報に最適です。
Q: なぜCSV内の 'content' フィールドはJSON形式なのですか?
A: 単一のスプレッドシートセル内で構造(段落、見出し)を維持するために、コンテンツは多くの場合JSONオブジェクトまたはMarkdown文字列としてラップされます。これにより、プログラムでデータを処理する際に元のフォーマットを保持できます。
Q: 一度にいくつのURLをスクレイピングできますか?
A: 数千のURLを入力できます。10,000 URLを超えるタスクの場合は、バッチに分割するか、クラウド抽出を使用して処理を高速化することをお勧めします。


