Webスクレイピングスのプロジェクトでは、一部のデータは欲しい形式ではないかもしれません。ですから、Octoparseは8つのデータ再フォーマットオプションを提供し、抽出したデータを処理できます。

Octoparseでこれらの機能に使うには、ステップが5つあります。
1. 再フォーマットするデータを選択します。

2.
をクリックして、データフィールドをカスタマイズします。

3.「抽出データを再フォーマットする」を選択します。

4.「ステップを追加する」をクリックします。

5. データ再フォーマットオプションを選択します。

再フォーマットオプションを紹介する前に、「string(文字列)」という用語を説明します。
プログラミングでは、「string(文字列)」は基本的に文字、数字、記号、句読点などの文字の集合を指します。例えば、「 」(スペース)は文字列です。「Octoparse」は文字列です。「Hello 2 *% World!」も文字列です。文字列には文字がない可能性もあります。つまり、文字のない文字列は空です。単語を空の文字列で置き換えると、単語を削除します。
Octoparseのデータ再フォーマットオプションの機能説明には「string」という単語がよく見られます。「string」を見ると、そのオプションで文字、単語、数字、スペース、句読点などのデータに対応できることがわかります。
1. 置き換える
2. 正規表現で置き換える
3. 正規表現でマッチする
4. スペースを削除する
5.接頭ぶを追加するる
6. 接尾部を追加する
7. 抽出日時の再フォーマット
8. HTMLトランスコーディング
1. 置き換える
機能:抽出したデータ内の特定の文字列を新しい文字列に置き換えます。

2. 正規表現で置き換える
機能:正規表現を使って、抽出したデータ内の特定の文字列を新しい文字列に置き換えます。
正規表現の詳細は、 W3schools
をご覧ください。

3. 正規表現でマッチする
機能:正規表現を使って、抽出したデータから指定する文字列を取得します。
正規表現の詳細は、 W3schools
をご覧ください。

Octoparseには正規表現を自動生成できるRegExツールもあります。RegExツールを使って正規表現を生成する方法を見てみましょう。
例えば、抽出した外部HTMLから星評価の数値を取得します。
· 「RegExツールを試す」をクリックします。
· マッチ基準を入力します: で始める「alt=" 」 で終わる「star rating"」
· 「生成する」をクリックして正規表現を生成します。
· 「マッチする」をクリックして、一致する文字列を選択します。
· 「適用する」をクリックします。
· 「OK」をクリックして設定を保存します。

4. スペースを削除する
機能:抽出したデータの最初または最後から不要なスペースを削除します。
データの中のペースを削除する場合は、置き換える または 正規表現で置き換える を使います。

5. 接頭部を追加する
機能:抽出したデータの先頭に文字列を追加します。

6. 接尾部を追加する
機能:抽出したデータの最後に文字列を追加します。

7. 抽出日時の再フォーマット
機能:抽出した日付/時刻を14類の内蔵フォーマットに、またはカスタマイズされたフォーマットに変更します。

8. HTMLトランスコーディング
機能:特定のHTMLタグをプレーンテキストに自動変換します。たとえば、 ">"を ">"に変換し、 " "をスペースに変換します。

関連記事:
ソースコードからデータを抽出する
取得したデータを合併する
テキスト/URL/画像/HTMLを抽出する