现在大多数爬虫工具都具备爬取JavaScript的功能。例如,在 Screaming Frog 中,您可以转到“配置”>“蜘蛛”>“渲染”>,然后从下拉列表中选择“JavaScript”并点击“保存”。 DeepCrawl 和 SiteBlob 也都具有此功能。
从这里,您可以输入您的域名/URL,并在您选择的工具完成抓取后查看呈现的页面/代码。
例子:
当试图回答这个问题时,我的偏好是将域名放入 格鲁吉亚 WhatsApp 数据 移动友好工具中,复制源代码,然后查找页面上的关键元素(例如标题标签、<h1>、正文副本等)。使用像 DefChecker 这样的工具将渲染的 HTML 与实际的 HTML 进行比较也很有帮助。
对于我们的示例,移动友好性工具的输出向我们展示了这一点。
经过一番搜索后,很明显页面上的重要元素在这里丢失了。
我们还进行了第二次测试,并确认 Google 尚未为此页面上找到的物理内容建立索引。
这个位置意味着 Googlebot 没有按照我们想要的方式查看我们的内容,这是一个问题。
让我们继续看看我们可以向客户推荐什么。
问题 3:如果我们认为 Googlebot 没有正确抓取我们的内容,我们应该提出什么建议?
现在我们知道该域正在使用 JavaScript 加载重要内容,并且我们知道 Googlebot 可能看不到该内容,最后一步是向客户建议理想的解决方案。关键词:建议,而不是实施。我们 100% 的工作就是向客户传达问题、解释其重要性(以及潜在影响)并强调理想的解决方案。尝试为具有独特堆栈/资源等的开发人员找到理想的解决方案并不是我们的工作 100%。