借助工具爬行

kexej28769@nongnue · Post by **kexej28769@nongnue** » Mon Feb 17, 2025 6:13 am

现在大多数爬虫工具都具备爬取JavaScript的功能。例如，在 Screaming Frog 中，您可以转到“配置”>“蜘蛛”>“渲染”>，然后从下拉列表中选择“JavaScript”并点击“保存”。 DeepCrawl 和 SiteBlob 也都具有此功能。

从这里，您可以输入您的域名/URL，并在您选择的工具完成抓取后查看呈现的页面/代码。

例子：
当试图回答这个问题时，我的偏好是将域名放入格鲁吉亚 WhatsApp 数据移动友好工具中，复制源代码，然后查找页面上的关键元素（例如标题标签、<h1>、正文副本等）。使用像 DefChecker 这样的工具将渲染的 HTML 与实际的 HTML 进行比较也很有帮助。

对于我们的示例，移动友好性工具的输出向我们展示了这一点。

经过一番搜索后，很明显页面上的重要元素在这里丢失了。

我们还进行了第二次测试，并确认 Google 尚未为此页面上找到的物理内容建立索引。

这个位置意味着 Googlebot 没有按照我们想要的方式查看我们的内容，这是一个问题。

让我们继续看看我们可以向客户推荐什么。

问题 3：如果我们认为 Googlebot 没有正确抓取我们的内容，我们应该提出什么建议？
现在我们知道该域正在使用 JavaScript 加载重要内容，并且我们知道 Googlebot 可能看不到该内容，最后一步是向客户建议理想的解决方案。关键词：建议，而不是实施。我们 100% 的工作就是向客户传达问题、解释其重要性（以及潜在影响）并强调理想的解决方案。尝试为具有独特堆栈/资源等的开发人员找到理想的解决方案并不是我们的工作 100%。