独家对话李开复:中国大模型全部加起来DAU才1000万,我很失望

zz42b4e

时间 2024年6月15日 预览 7

转载:https://new.qq.com/rain/a/20240615A00SPD00

2024-06-15 07:12·AI未来指北·发布于北京

腾讯科技AI未来指北-AI探索者系列,对谈AI产业的躬身入局者,关注AI大模型落地第一程的关键问题。本期嘉宾为零一万物创始人、CEO李开复,请他分享了对于AI大模型创业过程中的产品打磨、用户增长、团队管理等关键问题的思考。
文/郭晓静
中国大模型赛道上的所有选手,都期待着能押中AI时代的超级应用。
然而,至今为止,中国所有的AI应用加起来的DAU,也才刚刚1000万。而在2022年底爆火的ChatGPT,在两个月内就收获了1个亿的用户量。面对这样的数据,入局大模型创业的李开复直言“我很失望,也出乎我的意料”。
自ChatGPT引爆AI大模型热潮以来,中国大模型就一直面临着一半冰,一半火。火热的是行业内的学术交流、讨论、积极探索,冰的是,资本的谨慎、观望和对大模型PMF的争论。火热的是,“百模千模”竞相登场,冰的是,在尝鲜期后,用户似乎“留下来”继续使用的意愿不大。
对于在这条赛道上狂奔的创业者来说,这种“冰与火”的交替淬炼,让这难忘的一年多似乎堪比上一个创业热潮的十年。在2024智源大会现场,腾讯科技独家对话了大模型行业的创业者、零一万物创始人李开复。
从创业导师到创业者,李开复被媒体称为“AI行业最年长的创业者”,比任何人都敢于讲真话:
“大模型的评测得分,并不是每一家的数字都是可信的。”
“即使在大模型时代,获客的漏斗模型依然有效。”
“一些AI工具的投流量很大,但似乎在打一场当前看来无法赢得的战争。”
“在国内全部大模型DAU加起来可能也就是1,000万左右,我很失望,市场教育是目前最重要的事。”
这几句话,也透露出李开复对于大模型创业“现实”的严肃思考:模型能力是必须苦炼的基本功,刷BenchMark也没法偷懒;向“投流”要增长的前提是产品能力和产品留存率,否则就是“白白烧钱”;中国的大模型赛道远远没有到达爆发时刻,用户渗透率极低,用户教育成本极高——即使有这样多的AI助手产品被推出,还是有太多的用户仅把它们当“搜索引擎”用。这条赛道上的“创业长者”李开复,开始主动拍视频、主动做分享,还号召友商一起合力完成市场教育。
“过去很多事情比如移动支付、短视频都是中国一下就引爆了,然后美国来学着的,怎么这次倒过来了?我们现在最重要的事情是尽快推进市场教育,这样才能够让整个大模型生态健康地往前发展。”
以下为对话内容:
腾讯科技:如何客观评判一个大模型的强弱,大模型的能力对大模型公司的未来发展意味着什么?
李开复:如果只是讲大模型的Benchmark,我觉得并不是每一家的数字都是可信的。客观评判有几个办法,首先是自己实际用,接入API,最好可以有两三家来做对比。这个肯定是不会错的,但是比较耗费时间。而且如果是有二三十个模型,你不可能一个一个拿来试。
虽然我保证我们自己的模型发的Benchmark都是真实可复测的,但是我还是建议大家参考一个有公信力的第三方平台。比如Chatbot Arena,它是让上千万的用户“盲测”,我觉得这是现在最公平的方法。除了伯克利的LMSYS Chatbot Arena,另外还有斯坦福的AlpacaEval,它是一种基于 LLM 的全自动评估基准,机器评测而非人来测。
所以我会建议大家从这两个擂台里面挑选性价比最适合你的几个模型,然后自己去做测试。因为第三方平台会确保没有让大模型“刷题”,还有大量的真实用户,而且是用科学的方法,他不是让最好的模型跟最坏的去厮杀,他会像国际象棋围棋打分一样的,最顶级的9段打9段,8段打8段的,做出来颗粒度很细,可信度很高。
不少国内公司说他们打败了Google、OpenAI、Antropic的最好的模型,我其实建议在说这个话之前,把自己的模型拿到这两个“大模型擂台”,讲出这话才更有公信力。
腾讯科技:实测尤其是接入API,专业用户或企业用户能比较客观感知到模型能力的强弱,但是C端用户可能从AI个人助手等产品体验,感知没有那么明显,这时候怎么选择呢?
李开复:对,你讲得非常对。国内众多AI助手中,我们对某些助手的模型持认可态度,但对其用户体验却不满意;而对另一些助手,我们对其用户体验感到满意,却不认可其模型。这两者之间自然是存在相关性的。如果模型本身质量不佳,那么很难通过其他方式来弥补。然而,在拥有一个基本合格的模型的基础上,通过工程手段可以显著提升产品体验,包括交流过程、对话方式、问题回答方式、问题格式化,以及制作美观的图表,使回答更加亲切、可爱,从而赢得用户的喜爱。
另外还可以用RAG来提升体验,所谓的"RAG"(Retrieval-Augmented Generation),即利用更多的信息库和实时信息来弥补模型的不足。这不仅可以补充大型模型可能缺乏的最新语料或新闻,还可以解决事实性问题,某种程度上解决大模型可能产生的幻觉问题等。RAG技术非常实用,我们在使用,其他公司也在应用。
有些公司在RAG方面做得非常出色,当你询问关于新闻事实性的问题时,它们的回答非常准确,但实际上并非它们的大型模型在回答。
说了这么多,我认为每个用户都有自己喜欢的最佳助手。因此,我们推出了"万知"助手,我非常确信我们的模型是最优秀的,并且在用户体验方面也做得相当不错,但是我们会继续努力。
腾讯科技:为什么大模型公司面向C端都选择推出个人助手?
李开复:别人为什么做我不太清楚,但是我们为什么做个人AI助手?我们其实是认为中国现在面临的一个比较大的挑战,就是还没有全民使用大模型。用这样的一个ChatBot是可以让每个人都能容易体会到这个很好用很聪明,慢慢的市场就被教育了,有了这个基础你就可以做生产力工具、可以做游戏、做各种TOC、 TOB的应用。
今天我们可以看到的是,在国内全部大模型DAU加起来可能也就是1,000万左右,非常小,比我们平时用的每个应用都小很多。这说明用户的市场教育
Copyright2023小老板科技