随着ChatGPT的爆火,几乎所有大厂都争先恐后地入局了AI助理赛道。
8月17日,抖音开始对外测试AI对话产品“豆包”,并上线了相关;2023年8月31日,文心一言率先向全社会全面开放。10月30日,阿里云旗下大模型通义千问 App 现已上架各大安卓应用市场。
在互联网大厂里,腾讯无疑是最淡定的那个。直到今天,腾讯才宣布基于混元大模型的App“腾讯元宝”正式上线。这个时间几乎比其他大厂晚了整整半年之久。
在元宝上线的第一时间,我们就上手用了用,发现这个产品有很多值得一说的地方:
个刚刚推出的产品,搜索、文档识别等很多功能受限于理解能力等因素,很难精准把握用户需求,离市面上迭代过好几轮的产品仍然有一定差距。
/ 01 /
元宝很“腾讯“
打开产品,元宝的初始页面很简洁,除了对话页面外,上方只有一个“发现”栏目,里面是各种各样的智能体或者AI工具,比如口语陪练、AI头像等等。
在对话框上方有四个选项,分别对应着当下AI助手最常见的4个应用场景:AI搜索、文档总结、网页总结以及AI作图。
相比之下,其他AI助理的产品设计要更加复杂。比如,通义千问的主页面会将其他AI应用拆分出工具、角色和频道;再比如,豆包和文心都会将创造智能体,放在主页面的底部,作为一级入口。
这样的设计理念,也符合外界对腾讯系产品的印象:简洁、聚焦用户体验,没太多花里胡哨的东西。
/ 02 /
在官方介绍里,AI搜索是元宝的一个特色,也是我很关心的一个点。
在AI搜索里,有两个能力很优势。
为了更好地测试元宝的AI搜索,我向元宝提了一个问题:如何看待GPT4o发布的意义?在参考11篇资料后,元宝给出了这样的回答:
其他AI助手,元宝给出回答谈不上出色,只能算是中规中矩。
同样的问题,Kimi给出的回答,把GPT4o的特点说明得更清楚,信息量也更大,甚至能够把GPT4o的低延迟与智能硬件发展结合起来。
如果降低一下问题的难度,把“为什么”改成“是什么”?元宝在回答上的表现要更好一点。比如,当我问元宝“Suno V3.5版本有哪些特点”,元宝就能给出不错的回答:
对比之下,这个回答明显优于通义千问,与Kimi几乎不相上下。
通义千问
Kimi
最后,我又问了元宝一个问题:过去几年中国人口变化?元宝给出了这样的回答:
元宝将这个问题,理解成三个信息:人口总量变化、人口结构性变化、人口变化的原因。看上去回答很详细全面,但忽略了一个细节,我问的是过去几年,而元宝给出的人口数据只有2023年的。
再来看通义千问,不仅结构性不如元宝,也没有人口的确切数据,更多在阐述过去两年人口变化的情况。
最后来看Kimi,不仅给出了过去三年人口的确切数据,也把每一年的变化说得清清楚楚,另外也有年龄结构、地区分布等结构性变化信息。
出用户想要的信息。
/ 03 /
文档总结:抓重点能力有待提升
接下来,我又对元宝的文档总结能力做个一个测试,把启明创投和未尽研究共同发布的《2023生成式AI洞察报告》,同时给了元宝、通义千问和Kimi。
结果嘛,怎么说呢,有点不尽如人意,直接来看结果吧。
这是元宝给出的回答:
回答的问题在于,概述总结的4个点完全是复制文档里的4个章节,每个部分内容比较泛泛,导致信息量很有限。作为用户来说,只能看到报告覆盖的大致内容,却看不到任何有价值的观点。作为文档总结来说,多少有些不合格。
再来看看通义千问的表现,它自行对报告总结了7个部分,每个部分又有2-3个关键点的展开,这些关键点并不是泛泛的概括,而是都有具体的观点。
而Kimi没有总体的概括,选择直接给出报告里最重要的12个关键点,每一个关键点都给出明确的观点。
总体来说,元宝的文档总结仍然停留在内容讨论的方向,很难从中抽离出其中重要的观点,相反无论是通义千问还是Kimi在这方面已经轻车熟路。
举个例子,三个总结都有讲到报告中中美欧有关人工智能监管的内容,但元宝只能给出中美欧在人工智能监管和立法方面的进展,而通义千问和Kimi都明确提到了,中欧美正在加快AI监管和立法的进程,甚至通义千问还给出各自的进展。
/ 04 /
图片识别能力:有错误,也有亮点
最后,我们来测试下元宝对图片的识别能力,分别上传同一张图片,让它识别出图片中包含的内容。
我先是问了元宝,能够从图片中看到什么。元宝能够基本识别出图片里的内容,但仍然有两个错误,一是侧躺说成了仰面,二是被子说成了衬衫。当我更进一步询问这个人是谁,元宝能够准确回答卷福的名字。
而Kimi无法识别这张图片,我把同样图片和问题给了通义千问。通义千问的回答更加准确,也有很多呈现了细节,比如侧脸、毯子、伤疤。但当我询问这个人是谁,通义千问却没办法给出准确的名字。
/ 05 /
总结
作为腾讯姗姗来迟的AI助理产品,元宝从风格上延续了腾讯产品相对简洁的风格,功能上与现有AI助理产品基本相似。
的地方。
同样在文档识别里,元宝也很难筛选出有价值的观点,与通义千问、Kimi等产品还有差距。在图片识别上,元宝尽管会出现部分事实错误,但面对图片信息的延伸问题时,仍然能够给出准确的回答,这一点实属难得。
。
文/林白