Octoparseには、データをクリーンアップする方法がたくさん用意されています。例えば、文字列を置き換えたり、余分なスペースを削除したり、接頭辞/接尾辞を追加したり、文字列を正規表現でマッチングしたり、日付/時刻を再フォーマットしたりすることができます。データが要件を満たすまで、複数の方法でフィールドをクリーンアップできます。
どんな場合にデータを再フォーマットするのか?
特定のフィールドに対して望ましいデータ形式がある場合は、Octoparseの「データを再フォーマット」機能を使用して、データを再フォーマットすることができます。Octoparseはスクレイピングプロセス中に直接スクレイピングと再フォーマットを行いますので、データをエクセルファイルにエクスポートした後にフィールドを再フォーマットする必要はありません。
どこで編集できるのか?
データプレビューで、再フォーマットするデータフィールドの「ほかのオプション」アイコンをクリックし、「データを再フォーマット」を選択します。
「ステップを追加」をクリックし、データをどのように処理するかを選択します。データが要件を満たすまで複数のステップを追加することができます。
再フォーマットの処理
1. 置換
抽出されたデータ内の特定の文字列を、新しい文字列で置き換えます。
2. 正規表現による置換
特定の正規表現を使って、抽出されたデータ内の一致した文字列を必要な文字列に置き換えます。
3. 正規表現によるマッチング
特定の正規表現を使って、抽出されたデータから一致する文字列を取得します。
4. スペースの削除
抽出されたデータの最初または最後から不要なスペースを削除します。
5. 接頭辞の追加
抽出されたデータの最初に文字列を追加します。
6. 接尾辞の追加
抽出したデータの最後に文字列を追加します。
7. 日時のフォーマット
抽出された日付/時刻を特定のフォーマットに変更します。
8.タイムスタンプの変換
タイムスタンプは、日付と時刻を記録するために使用される文字列、またはエンコードされたメッセージです。 タイムスタンプの変換を使って、文字列を正しい日時フォーマットに変更できます。また、日時を文字列に変更することもできます。
9. HTML
特定のHTMLタグをプレーンテキストに変換します。たとえば、 ">"を ">"に、 " "をスペースにトランスコードします。
ヒント! 正規表現で処理する場合は、正規表現ツールをよく利用しています。下記の記事をご参照ください。 |
Octoparse 正規表現ツール
Octoparseには正規表現を自動生成する正規表現ツールも付いています。正規表現を生成し設定する方法を説明します。
例えば、外部HTMLから画像のURLを抽出したい場合:
正規表現ツールを起動します。
一致条件を入力:「src="」から始まり、「"」で終わります。
生成で正規表現を生成します。
マッチングで一致文字列を選択します。
応用をクリックします。
保存で設定を保存します。
このリンクからは、正規表現ツールの使い方の詳細を見ることができます。