还有的是大量的讨论Hacker News上最近关于谷歌搜索的质量,无论是恶化。
有趣的是,我自己也注意到了这一点。例如,我和一个朋友上周在谈论 Databricks,我们搜索了“databricks series b 估值”,以了解他们的 B 系列估值是多少。不幸的是,谷歌不明白“series b”是什么意思(它似乎混淆了“b”和“billions”),所以第一个搜索结果是无关紧要的。我什至在首屏之前都没有得到任何关于他们 B 系列的信息!
Google 上的“databricks 系列 b 估值”
相比之下,必应的搜索结果页面要好得多。B 系列的信息就在扩展的第一个搜索结果中(它不包含估值信息,但这是意料之中的,因为 B 系列估值不公开),右侧边栏也很有帮助。
Bing 上的“databricks 系列 b 估值”
那么为什么谷歌搜索会恶化呢?几个似是而非的理由:
1、谷歌一直将短期广告收入置于搜索质量之上。有趣的是,谷歌有一篇著名的论文解释了为什么关注长期对用户和他们的业务更好!
2、信息正在超越传统网页。如今,内容经常出现在 Twitter、Facebook、YouTube、Medium、Reddit 等网站上。今天的互联网与谷歌搜索诞生的互联网大不相同!
3、从历史上看,谷歌搜索包含很少的机器学习。据我所知,由于领导层的变化和人工智能的改进,近年来这种情况发生了变化。机器学习是否有可能无意中使质量变差?
4、至关重要的是,衡量搜索质量是一个非常困难的问题。天真地,例如,您可能会认为更好的搜索算法会带来更多点击:当我搜索“databricks series b 估值”时,您可能会认为我想点击包含该信息的网站。但理想情况下,我可能永远不会点击网站!理想的 SERP 可能是在 SERP 本身顶部显示估值的 SERP。更重要的是,点击往往是一个不好的信号:我可能会点击谷歌关于 H 系列的第一个搜索结果,因为我错误地认为它也包含有关 B 系列的信息。
那么谷歌搜索真的在恶化吗?这些天有多好,与竞争对手相比如何?
我曾经在 YouTube、Twitter 和 Microsoft 从事搜索测量工作,它是Surge AI提供的主要客户用例之一。因此,让我们来分析一下 2022 年的 Google 搜索到底有多好!
首先,您如何严格衡量搜索引擎的质量?如上所述,使用传统指标衡量搜索质量非常困难。
·由于上述原因,点击不一定是您想要优化的东西。
·搜索的时间也不是:短暂的会话是好事(也许您立即找到了答案)还是坏事(搜索结果太糟糕了,您很快就放弃了)?
·也许您可以衡量重新制定:如果您的初始搜索查询失败,您可以重写您的查询并重试,因此重新制定的增加可能被视为一件坏事。但是很多人会放弃而不是重新制定,那么您如何判断查询是否是重新制定呢?
·也许长期指标是解决方案。快乐的 Google 搜索者将继续在 Google 上搜索。但是如果你想快速迭代,运行长时间的 A/B 测试是很痛苦的,即使你对谷歌不满意,你是否有可能转向竞争对手?
搜索引擎是做什么的?谷歌开创的另一种选择是人工评估的想法:为了衡量搜索质量,您为什么不简单地询问人工评估员您的搜索结果有多好?换句话说,您给人工评估者一组搜索查询和搜索结果,并要求他们评估每个搜索结果满足查询背后意图的程度。
这种方法有很多细微差别。例如:评估者如何知道查询背后的意图?,您是单独评估搜索结果还是对整个 SERP 进行评估?您从哪里获得这些评估者?但总的来说,这也是我最喜欢的方法。
因此,为了衡量 Google 搜索的质量,我的流程如下:
·我利用了一组来自 Surge AI 的人工评估员(我们是一个数据标记平台,在世界各地拥有一批高质量的人工评估员——想想 Mechanical Turk++)。
·为了对搜索查询进行评分,我要求 250 位评分者在他们的浏览器历史记录中查找最近的搜索,并将其用作要评分的搜索查询。这是个性化搜索评估的一个示例(与您对随机搜索查询进行抽样并且评估者猜测每个查询背后的意图的情况相反)。总的来说,我认为与非个性化设计相比,个性化评估的利用率非常低!
·每个评估者都以 1-5 的等级对 Google SERP 满足他们的查询的程度进行了评分。
结果如下:
查询查询: tim lee vlogger age
意图: 我想知道 YouTube 视频博主 Tim Lee 的年龄
评分:坏
说明: 只有部分结果是关于合适的人的,我根本无法从结果中找到他的年龄。
更好的搜索结果应该是他的 Wikipedia 页面,其中列出了 Tim Lee 的出生时间:
除了要求评分者对 Google SERP 进行评分外,我还要求他们将其与 Bing 进行比较。这是一个并排的评估:与其做出绝对的判断(谷歌的 SERP 有多好?必应的 SERP 有多好?),有时更容易比较它们(哪个 SERP 更好?)。
结果如下:
所以谷歌确实优于必应(差异在统计上显着),尽管看到谷歌返回更差结果的地方很有趣。例如:
搜索查询: 治愈过敏猫的自然方法
意图: 我的猫患有鼻塞,我想知道是否有自然疗法或任何我可以购买的产品来治愈它。
谷歌 SERP
评价:好的
说明: Google 结果页面没有关注我的主题。结果令人困惑,因为一半的内容与猫的过敏有关,其余的则是一般宠物过敏或人类对猫的过敏。
必应 SERP
评价:惊人
说明: Bing 的结果很准确。首先,他们在广告部分提供了可供购买的产品,然后他们提供了一篇有针对性的文章,建议如何利用家庭疗法治疗和预防猫的过敏。
总体而言:必应要好得多。 必应显然是更好的搜索结果,因为它通过广告、文章、图像和操作方法以用户可能想要的所有可能方式回答了搜索。Google 的页面提供了可供购买的产品和一些有趣的文章,但他们的搜索结果是基于对查询的误解。
搜索查询: 什么是iphone消息拦截
意图: 在给亲戚发短信后,我在手机上收到了一条消息,上面写着“消息屏蔽”。我没有和那个表弟吵架,而且我们一直都很有信誉,所以我觉得这很奇怪。我也觉得这很奇怪,因为我从来没有听说过自动消息告诉你你的消息被屏蔽了,通常公司会试图让这个未知和谨慎,所以我查了一下
谷歌 SERP
评价:好的
解释: 第一个和第三个搜索结果误解了我的查询,以为我在问如何屏蔽其他人。然而,第二个结果是有帮助的。
必应 SERP
评价:好
解释: 网站搜索结果都明白我在找什么,并且和我收到的信息有关。
总体而言:必应要好得多。 谷歌真的不明白我问的问题,给了我无益的答案。Bing 明白我在质疑为什么我会收到这条消息。
搜索查询: 印第安纳波利斯免费 COVID PCR 测试
意图: 我试图在我住在印第安纳波利斯的地方找到免费的 PCR 测试。理想情况下,该地区所有资源的列表或地图将是可取的。
谷歌 SERP
评价:好的
说明: 我希望比在搜索结果中更早地看到 ISDH 结果。或者至少在城市可用测试选项的搜索结果中更快地显示地图。相反,我得到了一个充满广告的页面。
必应 SERP
评价:好
解释: 第二个搜索结果是一张地图,上面列出了测试资源、它们的位置以及它们的开放时间。这对我很有帮助!
总体而言:必应要好得多。 我以为在获取地图之前必须先单击搜索结果中的链接,但我一使用 Bing 搜索就得到了一个。
这种人工评估方法也可以作为一种有用的方法来查找 Google 搜索中的缺陷模式。例如,我讨厌在谷歌上搜索食谱,因为在你找到食谱本身之前,搜索结果偏向于 Pinterest 风格的博客文章,其中包含无尽的叙述和广告。那么竞争对手可能出现的其他类别的缺陷是什么?
接下来我们将介绍这一点,以及 Google 与 DuckDuckGo 的比较!
—
Surge AI 是一个数据标记劳动力和平台,可为顶级 AI 公司和研究人员提供世界一流的数据。对 50 美元的免费标签感兴趣?填写我们的 30 秒表格,我们将帮助您从今天开始!