注意:このページでは、旧バージョンのチュートリアルを紹介しています。最新のチュートリアルを表示するには、helpcenterに移動してください。

リストを作成する際に広告アイテムを除外する方法は?

2019年03月08日

Webサイトをスクレイピングするアイテムのリストを作成するとき、リストには複数の広告アイテム(例のURL)が含まれることがあります。

 

 

 

広告以外のアイテムだけをスクレイピングしたらどうすればいいですか?

「ループアイテム」のXPathを変更して、広告以外のアイテムのみを検索する必要があります。

上記の例のアイテムのソースコードをfirebug(FireFox拡張機能)でチェックすると、広告アイテムと非広告アイテムの違いがわかります。

 

 

 

明らかに、class属性は異なっています。したがって、この違いを利用してXPathを編集する:

//div[@class="dui-cards searchresultitems"]/div[not(@class="dui-card aditem")]/div[2]/h2

 

OctoparseにXPathを入力すると、広告が除外されます。

 

 

ヒント!

XPathの初心者はまずHTMLとXPathの基本知識を了解する必要があります。参考になるチュートリアルがあります:HTML | XPath

 

btn_sidebar_use.png
btn_sidebar_form.png
当社ウェブサイトは、利便性、品質維持・向上を目的に、Cookieを使用しております。詳しくはプロキシーをご確認ください。Cookieの利用に同意頂ける場合は、「同意する」ボタンを押してください。同意頂けない場合は、ブラウザを閉じて閲覧を中止してください。
同意する 閉じる