クラウド抽出にデータが不足した時の対応方法を教えてください。

2019年03月11日

 

 クラウド抽出にデータ不足が発生した場合、以下の原因があります。

1. クラウド抽出で実行されるタスクは分割でき、処理が速すぎるため、一部の要素がスキップされることがあります。

「固定リスト」、「URLリスト」、および「テキストリスト」ループモードのタスクは分割できます。タスクは、複数のクラウドサーバーで同時に実行されるサブタスクに分割されます。この場合、タスクのすべてのステップが非常に高速になるため、次のステップに移動する前に一部のページが完全に読み込まれないことがあります。

2. 対象webサイトは多地域です。

多地域のwebサイトは、異なる国の訪問者に提供されるコンテンツに対して、異なるページ構造を持つことができます。タスクがクラウドで実行されるように設定されている場合、タスクは当社のアメリカIPで実行されます。この場合、アメリカ以外のサイトを対象とするタスクでは、クラウドに開いているWebサイトでは見つからないため、一部のデータはスキップされる可能性があります。

3. タスクに1と2の両方の状況がある場合。

 

一般的な解決策を次に示します。

- Webページが完全にクラウドに読み込まれるようにするには、

1. 「Webページを開く」ステップのタイムアウトを増やす

高級オプション > タイムアウト

 

2. 「実行前に」を設定

ワークフローで作成されたすべてのステップでは、「Webページを開く」以外は「実行前に」を設定できます。

 高級オプション > 実行前に 

                                      

- webサイトが地域であるかどうかを確認するには、

ローカル抽出でタスクをテストします。クラウド抽出のようにデータが欠落していない場合、webサイトはたぶん多地域です。この場合はローカル抽出を行い、データを取得することをお勧めします。

- ページ全体の外側HTMLを抽出します。抽出されたHTMLをチェックすることで、ソースコード内に「Access denied」のようなデータ失われた原因を見つけることができます。

 

 

btn_sidebar_use.png
btn_sidebar_form.png
当社ウェブサイトは、利便性、品質維持・向上を目的に、Cookieを使用しております。詳しくはプロキシーをご確認ください。Cookieの利用に同意頂ける場合は、「同意する」ボタンを押してください。同意頂けない場合は、ブラウザを閉じて閲覧を中止してください。
同意する 閉じる