|
Post by account_disabled on Mar 18, 2024 23:07:43 GMT -5
查找低附加值爬网预算不应浪费在低附加值上低附加值通常是由会话无限爬行空间和分面导航引起的。为此请返回日志文件并按包含词干的列中包含或问号符号的进行筛选。要在中执行此操作请记住使用波浪号问号如下所示自动筛选窗口中所述的单个或问号代表任何单个字符因此添加波浪号就像转义字符并确保过滤掉问号符号本身。查找重复的不是很容易吗重复的可能会浪费抓取预算并且是一个很大的问题但找到它们可能会很痛苦。 有时可能有轻微的变体例如的尾部斜杠与非尾 澳大利亚 WhatsApp 号码列表 部斜杠版本。最终查找重复的最佳方法也是最无趣的方法因此您必须按网站主干字母顺序排序并手动查看它。找到同一的尾随斜杠和非尾随斜杠版本的一种方法是在另一列中使用函数并使用它来删除所有正斜杠在我的例子中目标单元格是因为主干数据位于第三列。别重复值并突出显示它们。然而不幸的是目测是目前最好的方法。查看子目录的抓取频率找出哪些子目录被抓取最多是揭示抓取预算浪费的另一种快速方法。 尽管请记住仅仅因为客户博客从未获得过任何反向链接并且每年仅从企业主奶奶那里获得了三个浏览量但这并不意味着您应该考虑它抓取预算浪费内部链接结构应该在整个网站中始终保持良好状态并且可能存在从客户的角度来看该内容的一个强有力的理由。要按子目录级别查找爬网频率您需要主要关注它但以下公式可以帮助上面的公式看起来有点奇怪但它所做的只是检查是否有尾随斜杠并取决于答案计算尾部斜杠的数量并从该数字中减去或。
|
|