すべてのコレクション
スタートガイド
レッスン3:データフィールドを調整する
レッスン3:データフィールドを調整する
一週間前以上前にアップデートされました

前回では、取得してほしいデータを設定しました。次の重要なことは、データのクリーンアップです。 このレッスンでは、きれいなデータを抽出するには、データフィールドを調整するための実用的な方法について説明します。

それでは、始めましょう!

1. フィールドの改名/移動/コピー/削除

データを抽出してデータプレビューに表示したら、データフィールドを調整することができます。例えば、フィールドの名前変更、列の並べ替え、データフィールドのコピー、不要なフィールドの削除などがあります。

フィールドの名前を変更するには、フィールド名をダブルクリックすると、新しい名前を入力できます。 フィールド名には数字、文字、および「_」のみを使えます。

1.gif

フィールドを移動するには、カーソルをフィールドの上方に置き、

mceclip0.png

が表示されたら、フィールドを正しい場所にドラッグアンドドロップできます。

2.gif

フィールドをコピーするには、「ほかのオプション」アイコンをクリックして、「コピー」を選択すると、選択したフィールドは自動的にコピーされます。

4.gif

フィールドを削除するには、「ほかのオプション」アイコンをクリックして、「削除」を選択します。

3.gif

ワークフローの「データを抽出」ステップの「ステップ設定」に移動して、データフィールドの改名/移動/コピー/削除することもできます。

2. データの再フォーマット

Octoparseには、データをクリーンアップする方法がたくさん用意されています。例えば、文字列を置き換えたり、余分なスペースを削除したり、接頭辞/接尾辞を追加したり、文字列を正規表現でマッチングしたり、日付/時刻を再フォーマットしたりすることができます。データが要件を満たすまで、複数の方法でフィールドをクリーンアップできます。正規表現で処理する場合は、Octoparse 正規表現ツールを使用できます。

データプレビューで、クリーンアップするデータフィールドの「ほかのオプション」アイコンをクリックし、「データを再フォーマット」を選択します。

1634288032_1_.jpg

「ステップを追加」をクリックし、データをどのように処理するかを選択します。データが要件を満たすまで複数のステップを追加することができます。

1634288571_1_.jpg
  • 置換:抽出されたデータ内の特定の文字列を、新しい文字列で置き換えます。

  • 正規表現による置換:特定の正規表現を使って、抽出されたデータ内の一致した文字列を必要な文字列に置き換えます。

  • 正規表現によるマッチング:特定の正規表現を使って、抽出されたデータから一致する文字列を取得します。

  • スペースの削除:抽出されたデータの最初または最後から不要なスペースを削除します。

  • 接頭辞の追加:抽出されたデータの最初に文字列を追加します。

  • 接尾辞の追加:抽出したデータの最後に文字列を追加します。

  • 日時のフォーマット:抽出された日付/時刻を特定のフォーマットに変更します。

  • タイムスタンプの変換:タイムスタンプは、日付と時刻を識別するために使用されるストリングス、またはエンコードされたメッセージです。 タイムスタンプの変換を使って、ストリングスを正しい日時フォーマットに変更できます。

  • HTML:特定のHTMLタグをプレーンテキストに変換します。たとえば、 "&gt"を ">"に、 "&nbsp"をスペースにトランスコードします。

Octoparseでデータの再フォーマットと正規表現ツールの詳細については、下記の記事をご参照ください。

3. データタイプの変更

自動識別機能を利用すると、Octoparseは選択した要素のテキストとURLを自動的に抽出します。抽出されたデータフィールドのタイプを変更することができます。

データプレビューで、「ほかのオプション」アイコンをクリックし、「データタイプを設定」を選択します。「データタイプを設定」の画面から、抽出するデータタイプを選択することができます。

1634525234_1_.jpg
1634526095_1_.jpg

4. ページレベルのデータと日時を抽出する

Octoparseは、ページレベルのデータ、現在の時間、または任意の固定値を便利に抽出するには、事前定義された多数のデータフィールドを提供します。

  • 現在の時刻:Webページからデータを抽出する日時

  • 該当ページの情報:URL、ページタイトル、キーワード、メタデスクリプション、ソースコード

  • カスタムフィールド:ユーザーが定義する固定値

データプレビューの右上隅にある+記号をクリックして、追加する定義済みのデータフィールドを選択することができます。

1634526385_1_.jpg

これまで、ワークフローの作成と調整に関するすべての手順を完了しました。次はテスト実行を開始します!


次へ

レッスン4:タスクをテスト実行する

こちらの回答で解決しましたか?