クラウド抽出にデータ不足が発生した場合、以下の原因があります。
1. クラウド抽出で実行されるタスクは分割でき、処理が速すぎるため、一部の要素がスキップされることがあります。
「固定リスト」、「URLリスト」、および「テキストリスト」ループモードのタスクは分割できます。タスクは、複数のクラウドサーバーで同時に実行されるサブタスクに分割されます。この場合、タスクのすべてのステップが非常に高速になるため、次のステップに移動する前に一部のページが完全に読み込まれないことがあります。
2. 対象webサイトは多地域です。
多地域のwebサイトは、異なる国の訪問者に提供されるコンテンツに対して、異なるページ構造を持つことができます。タスクがクラウドで実行されるように設定されている場合、タスクは当社のアメリカIPで実行されます。この場合、アメリカ以外のサイトを対象とするタスクでは、クラウドに開いているWebサイトでは見つからないため、一部のデータはスキップされる可能性があります。
3. タスクに1と2の両方の状況がある場合。
一般的な解決策を次に示します。
- Webページが完全にクラウドに読み込まれるようにするには、
1. 「Webページを開く」ステップのタイムアウトを増やす
高級オプション > タイムアウト

2. 「実行前に」を設定
ワークフローで作成されたすべてのステップでは、「Webページを開く」以外は「実行前に」を設定できます。
高級オプション > 実行前に
- webサイトが多地域であるかどうかを確認するには、
- ローカル抽出でタスクをテストします。クラウド抽出のようにデータが欠落していない場合、webサイトはたぶん多地域です。この場合はローカル抽出を行い、データを取得することをお勧めします。
- ページ全体の外側HTMLを抽出します。抽出されたHTMLをチェックすることで、ソースコード内に「Access denied」のようなデータ失われた原因を見つけることができます。