このチュートリアルでは、Octoparseで取得した様々なデータを一行に合併する方法を説明します。
例えば、ブログから記事を抽出します。ある時、記事全体を選択して抽出できないことがあります。しかし、以下のように記事全体を段落に分かれ、異なるデータフィールドに入れるの代わり、一行に入れたいです。

異なる行を1行のデータに合併するには、抽出を設定する際にOctoparseの集合機能を使うのをお勧めします。
ここでは、https://philipyancey.com/a-view-from-abroad のブログコンテンツを例として、抽出したデータを合併するための集合機能を紹介します。
1) 抽出するデータを選択する
1.ページで1つの段落を選択し、「すべて選択」をクリックして、各段落を抽出できる「ループアイテム」を作ります。

2.「選択した要素のテキストを抽出する」を選択します。

2) データを合併するためにデータ集をカスタマイズする
1. 「データを抽出する」アクションをクリックし、データフィールドをクリックしてカスタマイズします。

2.
をクリックして、データフィールドをカスタマイズします。

3. 「データコングロマリットをカスタマイズする」を選択します。

4. 「同じデータフィールドを複数抽出するとき、抽出されたデーやを一行にまとめます。例えば、複数のページから抽
出されたコンテンツを組み合わせることができます。」を選択します。
ここで、「Text」フィールドに抽出した段落は、実行時に1行に合併されます。

タスクを実行して結果を出力して、「Text」フィールドで抽出した段落が1行に合併されているのを見られます。

ヒント!
1. データ集は、記事の抽出に特に有用です。空白行、コメント、画像などを持たなく、記事を全体の塊として抽出できます。
2. データが1つの塊として集合される場合は、データの再フォーマットツール を使って、「|」 と 「\」のようなプレフィックまたはサフィックスを追加して、各アイテムをより見やすくします。
|
関連記事:
テキスト/URL/画像/HTMLを抽出する
リストを使ってデータを抽出する
複数のページからデータを抽出する