借助工具爬行

Collaborate on cutting-edge hong kong data technologies and solutions.
Post Reply
kexej28769@nongnue
Posts: 231
Joined: Tue Jan 07, 2025 4:44 am

借助工具爬行

Post by kexej28769@nongnue »

现在大多数爬虫工具都具备爬取JavaScript的功能。例如,在 Screaming Frog 中,您可以转到“配置”>“蜘蛛”>“渲染”>,然后从下拉列表中选择“JavaScript”并点击“保存”。 DeepCrawl 和 SiteBlob 也都具有此功能。

从这里,您可以输入您的域名/URL,并在您选择的工具完成抓取后查看呈现的页面/代码。

例子:
当试图回答这个问题时,我的偏好是将域名放入 格鲁吉亚 WhatsApp 数据 移动友好工具中,复制源代码,然后查找页面上的关键元素(例如标题标签、<h1>、正文副本等)。使用像 Def​​Checker 这样的工具将渲染的 HTML 与实际的 HTML 进行比较也很有帮助。

对于我们的示例,移动友好性工具的输出向我们展示了这一点。


经过一番搜索后,很明显页面上的重要元素在这里丢失了。

我们还进行了第二次测试,并确认 Google 尚未为此页面上找到的物理内容建立索引。

这个位置意味着 Googlebot 没有按照我们想要的方式查看我们的内容,这是一个问题。

让我们继续看看我们可以向客户推荐什么。

问题 3:如果我们认为 Googlebot 没有正确抓取我们的内容,我们应该提出什么建议?
现在我们知道该域正在使用 JavaScript 加载重要内容,并且我们知道 Googlebot 可能看不到该内容,最后一步是向客户建议理想的解决方案。关键词:建议,而不是实施。我们 100% 的工作就是向客户传达问题、解释其重要性(以及潜在影响)并强调理想的解决方案。尝试为具有独特堆栈/资源等的开发人员找到理想的解决方案并不是我们的工作 100%。
Post Reply