取得したデータを合併する

Sunday, April 08, 2018 10:31 AM

このチュートリアルでは、Octoparseで取得した様々なデータを一行に合併する方法を説明します。

 

例えば、ブログから記事を抽出します。ある時、記事全体を選択して抽出できないことがあります。しかし、以下のように記事全体を段落に分かれ、異なるデータフィールドに入れるの代わり、一行に入れたいです。

 

 

異なる行を1行のデータに合併するには、抽出を設定する際にOctoparseの集合機能を使うのをお勧めします。

ここでは、https://philipyancey.com/a-view-from-abroad のブログコンテンツを例として、抽出したデータを合併するための集合機能を紹介します。

 

1) 抽出するデータを選択する

1.ページで1つの段落を選択し、「すべて選択」をクリックして、各段落を抽出できる「ループアイテム」を作ります。

 

 

2.「選択した要素のテキストを抽出する」を選択します。

 

                                                                                 

 

2) データを合併するためにデータ集をカスタマイズする 

1. 「データを抽出する」アクションをクリックし、データフィールドをクリックしてカスタマイズします。

 

 

 

2.    をクリックして、データフィールドをカスタマイズします。

 

 

3. 「データコングロマリットをカスタマイズする」を選択します。

 

 

4.  「同じデータフィールドを複数抽出するとき、抽出されたデーやを一行にまとめます。例えば、複数のページから抽

出されたコンテンツを組み合わせることができます。」を選択します。

ここで、「Text」フィールドに抽出した段落は、実行時に1行に合併されます。

 

 

タスクを実行して結果を出力して、「Text」フィールドで抽出した段落が1行に合併されているのを見られます。

 

 

 

ヒント!

1. データ集は、記事の抽出に特に有用です。空白行、コメント、画像などを持たなく、記事を全体の塊として抽出できます。

2. データが1つの塊として集合される場合は、データの再フォーマットツール を使って、「|」 と 「\」のようなプレフィックまたはサフィックスを追加して、各アイテムをより見やすくします。

 

 

 

関連記事:

テキスト/URL/画像/HTMLを抽出する

リストを使ってデータを抽出する

複数のページからデータを抽出する

 

btn_sidebar_use.png
btn_sidebar_form.png