阿里通义大模型详解
核心要点
1、阿里巴将通义千问模型定位为语言模型,但又不仅仅是语言模型。通义千问可以实现:帮用户起文章标题、生成提纲、生成摘要等,也可以对文章进行润色和改写;同时具有代码能力,可以进行代码转译等主流功能。
2、通义千问具备多模态能力。通义千问多模态的前身的能力来自M6-OFA。1)图片和文本方面,可以进行图片生成,包括反事实图片生成;以图片作为基础生成故事;以图片为基础生成游记;识别图片中奇怪的点;根据表格中的信息回答问题;按照人类给定的风格生成图片等。2)音频方面,可以理解音频,根据音频生成故事或诗。
3、具有强大的外部工具调用能力。第一,可以进行外部能力调用,通过对收集到的信息进行汇总最终生成一个答案。人类可以问AI一个复杂问题,它自动会把问题分解成他手上的工具可以去解的一些子问题,并且最终生成答案。第二,调用的工具是可以扩展的,AI大模型可以通过API接口调用市面上任何的AI库。
4、在通义千问大模型基础上可以生成企业专属大模型。通义M6模型在内部孵化的过程中服务化稳定运行一年半以上,每天调用的任务数1000+,40+BU使用,覆盖了主流功能。通义模型支持API接口调用,效果和直接访问通义模型非常接近。阿里会提供企业专属大模型,企业可以把自身的数据或文档上传到阿里云上,阿里云可以帮他在通义千问大模型的基础上生成一个企业专属的大模型。
附会议纪要
阿里云智能中国区副总裁高飞
尊敬的各位嘉宾,各位朋友,各位领导,各位老师,大家下午好。非常欢迎大家来参加本次的AI新范式和商业创新论坛。我谨代表阿里云对五湖四海到来的朋友表示热烈的欢迎。当前人工智能已经深入到我们生活中的方方面面,从消费到支付到娱乐方方面面,但这些只是AI整个的领域的一个起点。随着去年年底ChatGPT火爆,全球越来越多的企业创业者加入了大模型,应用创新的浪潮里,那从可预见的不久的未来,我相信 AI这个领域一定会发生天翻地覆的变化,AI会改变整个社会、整个的生产结构,会成为社会发展的一个重要的新的引擎。同时利用AI的技术,也会帮助企业重构自己的客户体验、产品以及服务,为客户提供更多有个性化的专属化的这些服务,同时也帮助我们的企业提升着整个的生产的效率。
在过去的14年里,坚持技术创新是阿里巴巴阿里云不变的宗旨,让云计算成为一种普遍的资源,让云计算会像成为水电煤一样的公共基础设施,是我们所有阿里云人无限的追求和信念。未来随着AI新范式的到来,数字化时代正迈向智能化的时代,阿里也是在国内非常早期的介入到预训练大模型的这样的一个企业之一。那是早在2020年阿里巴巴就推出了我们的预训练模型,超10万亿参数的大模型,M6那也成为了当时全球最大的预训练模型。此外我们还在训练130亿参数的整个的超大规模的类 GPT3的中文大模型PLUG,集语言理解文字生成于一身,特别是在文学创作、诗词生成以及智能问答,表现均不错。
今天整个的AI已经深入到阿里集团的业务的方方面面。从视觉智能,服务了整个的人脸的识别,包括识人认证;天猫精灵已经实现了语言的语音的人机交互;我们的物流小车,无人的驾驶的物流小车叫小蛮驴,已经在各大的校园里面给我们的学生,我们的企业园区的这些工作人员来不断送着快递,所有的这些点状的创新,今天都成为成熟的大模型的一个基准点,成为了我们创新的一个基石。
目前阿里云也是在国内为数不多的构建了从芯片、语音操作系统、大数据大模型,以及我们的模型及服务的全站式的服务的能力。我们提供了整个的智算平台凝聚,提供了我们的机器学习平台派,通过我们的通义大模型,企业专属模型以及我们的达摩社区,实现对外的 AI算力的服务。就像今天上午大家看到的我们发布的通义千问的模型,以及我们更加体系化的通义模型家族,未来阿里巴巴自身的所有的产品,也会基于我们的通义模型来做一次全面的升级改造。
我们最终还是希望在未来每一家企业都拥有一个自己的专属的大模型。
在智能化的时代,企业不断的适应的市场的用户的需求,提供着更有创新性个性化的这些服务的内容,这些的背后离不开阿里的算力的支持,阿里云的这些算力也会成为我们今天的创新的基础设施。阿里云会持续的提供强大的稳定的算力和存储的资源,让我们的AI的内容生成更快。同时阿里云也会提供自然语言模型预训练这样的一些集群的环境,然后让我们的这些算力、高效、稳定、安全运行在我们的云的平台上。
同时我们也会为风起云涌的AI的市场提供好我们的算例框架、算法和专家服务。未来 AI的新范式推动整个AI技术的不断的发展,如何做好整个的商业化的创新,这是一个值得不断的去深入去探讨的话题。我想也借助今天的会议,与各位嘉宾我们一起携手同行,然后在整个AI的前沿的战场里面,赛场里面,我们不断的去探索,然后共创我们美好的AI新时代。谢谢大家。
源码资本合伙人黄云刚
我来自源码资本,叫黄云刚。一句话自我介绍,浙江大学管理学院的创业管理专业毕业,硕士毕业之后没有做过别的工作,做了VC做了14年,然后对我排到前头来讲有点诚惶诚恐,其实待会有更资深的专家对产业界我想我排到前头来讲。主要是作为投资人VC这个角色看的比较杂,看的比较广一点,就什么都去看,所以给大家开个头,讲讲我们的一些认识和一些看法,我今天题目是投资视角下的大模型和应用。
今年春节之后,我带着我们三位同事去趟硅谷,应该是国内第一波疫情之后去硅谷拜访的VC,所以因为这个原因最近受到了一些关注。我们这一趟去了两个星期,然后这两个星期拜访了挺多的工程师,各个我们能想到的做大模型的团队的工程师聊聊了挺多,学习到很多东西,一路上非常兴奋,因为看到了大模型,看到了AI的这一个新的浪潮的魅力,包括潜力,但反过来又特别的焦虑,就是说我们在干什么,什么时候会有我们自己的大模型。
今天还是很开心,还是很感谢阿里场子,感谢阿里的邀请,也很高兴能跟大家一起交流,上次在这么大的场子应该是我记得可能10年前了,我参与过的就移动互联网时期。但今天大家觉得AI这个浪潮可能比十几年前的iPhone时刻带来的移动互联网的浪潮还要更大,我也是这么认为的。
让我们来想象一些场景。比如说未来我们会有一个服务机器人在家里,我们可以跟他聊天,他可以陪我们聊天,也可以帮我们做家务,帮我们去叠衣服,这个事情可能也不远,叠加多模态的大模型支持的人形机器人是有可能做到的,比如自动驾驶,这些年一直在往前推进。但是自动驾驶的感知做得很好,决策一直没有彻底被解决。但大家也很担心,就是说大模型是不是真正能解决这个问题,因为它的安全性,它的不可预测,不可解释性。但也有很多观点是觉得今天的大模型是有非常有机会把全自动驾驶最后的那一点点技术瓶颈给突破掉,那将来路上跑的都是自动驾驶车,它的安全性远远高于人类,可能被允许开车上路可能是违法的。
然后超级助手,比如说多模态的助手也可能会是一种形态。比如说我们获取信息的时候,原来是靠search,现在 New bing的形态。大家不知道有多少人用过New bing,能举个手也不是太多。其实更好的交互是能把这个需求再进一步释放的,比如未来有可能是类似语音语言助手的这种模式,你随时随地可以问他,而且可以多轮的交互。
比起原来我们的各种音箱,智能音箱要体验要好很多。比如假设我们去旅游,要去一个比较远的一个行程,比如说去欧洲,我们要多去几个城市,每个城市可能景点不一样,温度不一样,你所要带的衣服不一样,你所带的东西不一样,原来我们可能在各个场景上我们都自己把它拆分掉,比如说我们要去订酒店机票,我们要去再买一件羽绒服,或者我们再买一条沙滩裤,我们在买点东西,我们把它拆分成各个场景,然后找不同的入口,我们去把它解决掉。现在有可能情况就是我们直接告诉助手,我们要干什么,然后在哪里去旅游,可能想去哪两个城市,你帮我定好。这些问题统统被解决掉,是很有可能发生的,刚才说的购物也是,原来为你爱人买个生日礼物,经常可能被骂,我不知道有多少人被骂过,跟我在一起这么多年了,还不知道我喜欢什么吗?但是AI有可能比你更了解你自己,了解你的爱人,就你选的礼物再也不会被骂了,这是一个段子,但是真实的发生就是说原来我们在购物的时候搜索引擎式的购物。
其实我那天看了一个数据觉得很有意思,Google的search80%以上是三个词以下的搜索,prompt精准其实是非常难的,对用户来讲非常有挑战。未来就是说这种多轮对话式的购物助手,可以让用户购物体验变得更好,这件事情也会发生。订酒店就不说了,社交也是,比如说聊着突然聊到你一个不会的事情,AI就提示你说这个知识点或者这个干嘛的,你就不会尴尬,就可以继续聊。娱乐更是这样子。医疗比如说制药,临床诊断都是有可能的,以前我们讲AI辅助制药,临床诊断决策系统,把最好的医生的经验输出出来。但现在AI来了,大模型来了,可能就是我去美国跟一些做过 IBM沃森的一些人聊天,就说今天技术跟沃森比起来有什么变化?大家就说了很多,兴奋度远远比以前更高,教育也是一样,我就不展开了,这些场景很快会来,会比我们想象的快。
首先讲讲大模型的浪潮的拐点。这张图是源码的投资合伙人叫张洪江博士,也是智源研究院的理事长画的。他在我们内部做了一次分享,因为他是AI的专家,我们都是向他学习的。这张图我觉得非常好的概括和整理了过去这三次AI浪潮的情况。
为什么今天第三次浪潮是大家非常看好的?浪潮到底是真的来了还是又是一次 fake,大家觉得其实没有这么好的想象力和应用,但是这次是普遍大家都觉得是真的。看看前两次的AI的情况。最近一次其实一个小高潮是2012年开启的, Image net让图像识别这块巨大的提升,带来了就在国内有很多的创业公司。待会也会展开说,因为什么原因就是不断的有变化,我最近看了一本书,我不知道有多少人看过,就是杨立昆写的《科学之路》,能举个手吗?没有人看过,这个挺可惜的,这本书写得非常好。
杨立昆现在是Meta的首席AI的首席科学家、负责人,他也是神经网络的图灵奖的得主之一,2006年他就讲神经网络在过去为什么不被重视,慢慢的从一个边缘的技术变成一个主流的技术,到今天支撑整个大模型往前发展的最重要的基础。
我也很难讲的很细,因为非常的专业和细碎。简单讲说这次AI的方式是从原来的比如说 NLP、CV视觉大模型变成一个统一的大模型,是从原来的一个专有模型,变成现在的通用模型。大的浪潮使得这次机会变得不一样,现在的情况,因为OpenAI的 GPT系列使得大家知道原来威力是这么大,它最主要的提升其实是算法有提升,但是算力和数据的提升也是非常大的,所以这是我们叫第三次浪潮已经来了。再看看刚说到具体的技术的迭代和演进,我就不一个个去念和分析。简单讲就在过去这几年,尤其是2017年,大家讲那篇论文就是Attention is all your need,提出transformer,只用Decoder的这种方式去做训练,它所展现出来的能力是完全不一样的。我们相信大模型,相信参数,相信大的魅力,不断的去提升参数,涌现出很多能力大家想象不到的能力出来了,这就是这次的最大的变化。
其实在湾区去年已经火过一波了,有很多人都已经开始,尤其是做 SaaS做toB的,已经在开始尝试去调用大模型能力,已经非常震惊了,但ChatGPT出来之后让普通人都能感受到说大模型真的来了,真的是非常强大。具体我待会再说。核心是 transformer的变化是OpenAI用这种技术路线通过不断scaling去达到这种涌现的结果。
我们在湾区问的最多的一个问题就是说为什么是OpenAI?OpenAI的边界有多远?第二个是为什么不是Google,Google到底做错了什么?Google还有没有机会?这个会后可以大家聊聊。这是我们整理的,就是关于过去这三波浪潮的一些标杆公司或代表性公司。也不全,但是基本上把刚才讲的这两个图的周期去体现出来了。
尤其是第二波和第三波,就是深度学习时代和现在的大模型时代阶段。深度学习的阶段是比如说我们有AI for science的像Deep Mind做AlphaFold,像Relay做小分子,Insilico Medicine做药物发现用AI也非常火。前几年,AlphaFold前两年也非常火,像AI四小龙做图像的大家也非常了解,包括AI影像。另外就是自动驾驶也是AI的一个重要的分支,像waymo为代表的,包括我们去湾区的时候看到路上有很多waymo车,还有Grammarly,Grammarly大家有多少人知道这家公司?好像也不太多。Grammarly今天就挺尴尬的,因为大模型出来之后,微软的全家桶上接入OpenAI的大模型, Grammarly就很难受,因为它是一个纠错的小的插件。
今天的大模型阶段以OpenAI为代表的,因为大家最近肯定是看了很多、用了很多,包括OpenAI出来的,OpenAI Mafia等很多公司。最近文生图也非常火,midjourney跟stability,对这是国内外的大模型的一个整理。这是洪江博士提炼的大炼模型,垂直模型,自动驾驶视觉 NLP大模型,刚才讲的大模型,参数动不动就上百亿,上千亿的参数。
大家可以看到从尤其是今年春节之后,各个大厂各个创业公司都在讲我要做大模型,好像不做大模型就已经掉队了。这里面今天又是一个非常大的日子,通义千问的发布,大家看看对我们觉得大模型应该是未来的新的电力,大家讲云和大模型有什么关系?都是未来能支持智能应用的基础平台和基础的基础。
国内因为现在暂时还没有特别好用的大模型,我们期待通义的表现。大家都在入场去做大模型,也有人说应用什么时候会展开,我们觉得应用展开有了大模型之后,它的展开速度也是会有快有慢的,先从toB开始,再到toC,先从模型开始,再到应用层,再到行业里面,这是一个示意图,就是说有大有小有快有慢。
我自己整理了三类机会。第一类机会,就是说原有的产品和企业,因为AI的这一波的大模型的能力,使得他们有机会全面升级,把能力增强,空间更大。就有点像当年比如说电商把推荐引擎加进去,用户体验更好,转化率更高,变现率更好。第二类就是还是原来的行业、原来的需求,但是原来的技术供给使得原来的体验很差,新的公司新的产品把原来的公司给颠覆掉了。移动互联网时期有很多这样的例子我就不展开了。第三类是我们现在根本想象不到的,刚才脑洞了一下就是说超级助手的情况,我们想象不到的形态,比如说就跟2010年、2011年我们在讲打车的时候,就想象不到手机叫车是怎么样一个体验,短视频是怎么样的体验,但是后来都发生了。海外的一些应用我就不展开了,大家看了很多 new being inflection reply,这都讲得特别多。
重点讲讲这一页大模型的自己本身和应用会怎么展开,它有什么特点。就是我们问的最多的一个问题就是说,如果做出ChatGPT的水平需要多久?我们也问了很多专家,很多大模型的人,大家做到OpenAI现在的水平(GPT-4)至少要3-4年。其实大家都在呼唤谁能做到这个水平。
另外就是说现在除了训练成本很高,它的推理成本也很高,所以要大规模的用在 ToC的应用上面,尤其是大用户量的应用其实还是很有挑战的,因为成本很高降不下来,至少目前还是比较高的,未来我相信是有机会降下来的。
要去做应用的人没有大模型怎么办?没有很好用的大模型怎么办?是不是自己要去烧一个大模型?成本也很高。在中国有个问题是说做什么都很卷,大家都想做自己的大模型,而不是想做一个可用的成功的大模型,这是一个对比较大的问题。
讲一下三类断裂。我观察到的OpenAI为什么做得非常好,OpenAI还有个特点很有意思,OpenAI招的都非常懂算法,又非常懂工程,会写代码的研究员他们才要。反过来也一样,能看得懂算法的工程师他们才要,所以使得他们的研究效率、迭代的速度是非常快的,而且相应来说它的训练的成本踩的坑也会比较少一些,国内其实算法跟工程的人通常是比较割裂的,这是一个断裂。
第二个断裂是技术和产品的断裂是比较严重的。很多技术的人出来就说我要做CEO,其实它对产品怎么去延展,完全没概念,怎么搭建应用生态也完全没概念,那就是一股脑的想做产品,想做技术去创业。还有一类断裂是技术产品和行业需求断裂,所以今天的创业者或者今天包括大公司要去拥抱AI,实际上困难也是非常大的。
这三个断裂不光是创业公司碰到,大公司也会碰到,怎么样更好的融合,就像大模型融合,多种垂直模型一样把它统一起来。一个好的商业组织、商业公司也要把技术人员、算法工程、产品、商业组织管理全部要融合起来,今天的门槛比原来高很多。怎么去看待和拥抱?其实不用再讲必要性和力度了,微软全面拥抱,把自己所有的大模型研发人员全部砍掉,把所有的卡调出来支持OpenAI,非常的夸张。
今天咱们阿里也是把去全家桶全部接入了大模型,对我们自个人来说,比如创业者应该怎么拥抱,科学家应该怎么拥抱,学生、个体怎么拥抱?如果不拥抱,可能我们的产品被颠覆,我们公司受影响,我们的收入受挑战;个体不拥抱,我们短期效率受影响,Performance受影响,中长期我们的职业选择也受影响。可能没有选择了,因为不需要了,但现阶段我自己觉得在中国可能最重要的还是需要有一个可用的好用的开放大模型。
其实就在今天对我们投资者来说,怎么去拥抱就是我们相信 AI的新的浪潮,它作为一个生产力要素,会把刚才所讲的三类机会,尤其是第二类和第三类重新做一遍。所以我们会非常深入的去看,所以很高兴看到通义出来了,希望它好用,而且变得越来越好,用能够变成我们更多的公司行业公司和更多的创业者,能够去在平台上施展机会的一个基础的基础。
达摩院智能计算实验室大模型负责人周畅
大家下午好,非常高兴今天能给大家分享我们最近研发的通义千问的大模型的一些基本能力以及它的一些服务的能力。最近其实大家也都知道,大模型的发展给我们整个AI领域带来了非常强大的一个工具,使我们能以前所未有的速度去逼近一个叫通用AI的东西。
通用AI这个词之前,其实在GPT出来之前基本上不敢有人特别提到,因为提了会被骂。但是GPT出来之后,大众普遍接受这个观点,甚至领域内的人都普遍认为通用AI还是比较有可能在这一波去快速的逼近的。通用AI的好处是什么?其实也比较简单,它有两个好处,一个好处是说它能解决现在AI领域整个比如说你服务一个新的客户或者新的行业,它的边际成本过高的一个问题。
第二个他也可以去解决当前我们AI的任务覆盖率上不去的一个问题,比如说现在我们假设说这里有一根轴是文本这个领域的一个任务的轴,上面的每一个点都是我们之前的任务,比如说这右边列了一大堆的任务,比如说分词、翻译、问答,这些任务其实都是一个单点的任务,但实际上我们日常生活中遇到的任务比这些丰富的多,就是我们日常交流会涉及到很多认知和感知的问题,包括图像、语音、视频领域其实也是一样,大家做的都是非常散点的任务,在GPT出来之前,大家都疯狂的去卷这些小任务,多模态也是,比如说文本和图像语音视频交叉这些领域,比如说多模态如说问答或者是视觉定位动态检索,这些其实都是一个的散点任务。
当我们有一个非常强大的语言模型之后,具体来讲就是ChatGPT出现之后,大家纷纷就表示说好像我可以用一个语言模型把整个的空间给它占满,就是说我可以用一个非常不需要训练的模型的情况下,去做原来不可以做到的这些任务,这样的话我就完全的打开了AI任务的覆盖率,比如说原来很多长尾的这些需求,现在都可以用类似于语言模型加动态的这种东西可以做掉。
还有一个方向就是外部系统。外部系统其实跟AI没什么关系,比如说我们在历史上积累下来的这些,比如说搜索引擎计算器,甚至是data base、订酒店、订机票、天气AI这些东西,所以这种东西可能跟AI没什么太大关系。当然我们这些外部API要或者外部系统要去使用AI的时候,我们通常会花大量的人才,然后花大量的时间去定制一个版本,这个版本也会是相当于说空间的几个点。现在GPT出现之后,甚至这种非常强大的语言模型出现之后,它会有一个非常大的明显的趋势就是说,我将来可以用这个语言模型控制一切,跟世界上的一切去做连接,从而把整个的空间的任务全部覆盖掉。那么刚才有一个非常浅显的一个假设,就是说假设我们有非常强的一个语言模型,但实际上我们整个世界上除了OpenAI之外,好像也没有人能说这句话。
所以我们今天给大家介绍的我们最近研发通义千问的模型。我们把它定位成了一个语言模型,但又不仅仅是一个语言模型。因为我们的梦想就是说把刚才三个轴的空间填满,所以我们实际上是希望依托语言模型对指令理解的能力去把比如说跟多模态理解融合在一起,并且它能够去跟外部的系统去对接,整个通义千问的系列也是发展的历史也比较久了.其实从比如说2019年开始了,包括通义视觉任务其实都是通义系列的,那么通义千问显然它不是一个起点,也不是一个终点,但是它确实是一个非常重要的关键点,因为后续的一些技术的发展可能都要围绕通义千问来进行展开,我们可以看到通义千问有一个页面去做展示,然后这个页面的构成也是比较中规中矩,左边就是一个跟GPT类似的或者同类产品类似的一个可以Free进行敲字的一个交互的一个东西。
然后右边是说我在language model的基础上,我预制了一些提示词,然后提示词模板,然后你点进去你就可以去进行各种任务,比如说这里的菜谱或者是什么小学生作文。
然后说到语言模型的技术能力,其实大家只要玩过GPT或者是同类型的产品,大概都能知道这些里面有些什么,比如说这是对话聊天、文案创作,然后逻辑推理多元支持,其实因为讲起来比较干,我其实就不会以这种方式去讲,但是大家大概知道就是说一个基本的语言模型,现在或者市面上现在的语言模型都会具备这些基础的能力。
对于我来讲,其实我更希望从一个具体的角度,或者是从用户的视角来审视我们好不好用。因为我这个家里面有一个记者,他是文字工作者,所以他也经常跑来问我这个标题怎么起,然后我要去采访一个东西怎么去列提纲,刚好我就可以试一试这个case。
比如说今天我们要给大家介绍通义千问的大模型,假如说我就说我去采访一下技术负责人,我应该怎么办?
我家里人他可能对这个领域他不是很懂,所以他要查大量的资料或者是怎么样才能列出来这样一个提纲,大家看到这个提纲里面,比如说技术背景、发展历程其实还是比较general的问题,但到后面的比如说训练优化过程怎么样子,社区的贡献和影响如何,其实还是比较稍微深一点的问题了,他可能依靠自己的能力可能想不出来。
比如说下面这个例子就是说,当我选择要用什么字去填这个坑的时候,比如说这个是生敲月下门,还是生推月下门,这是个经典的问题。然后你也可以问通义千问,你说哪个字好,它也可以给你解释一通。
然后还有一些功能,比如说他也会说我比如说录音录完了之后,他说我这个文档太长了,能不能帮我做一些摘要,我也不想写那么多字,但是我也不想读这个稿子。然后他就可以去做一个比如说摘要或者多文档问答,比如说上面一个摘要就是我截取了一个新闻,然后说用一句话去给它进行摘要,然后它就正常的能返回。
下面那个就更有意思一点,就是说可以返回多个文档,然后我每个文档可能有一个 URL,然后前面我有一个标号,然后大家可以看最后一行,他其实会说最火的演员是张颂文。为什么?因为他说了一些理由,然后最后他在后面的括号给他标记了说1和4可以支持这一说法的材料,所以实际上是跟New Bing是比较相似的,但是实际上你看我们这个模型其实都是一个我没有做任何的翻译图,或者是别的操作其实都可以完成。
再来就是说我自己也会用的功能就是润色和改写,因为科研工作者偶尔写 Paper,然后你写paper要过resume那一关可能要比较native speaker的感觉。
所以你比如说我这里的case是说润色一下英文的cake takes so good,然后他就会写一串比较高级一点的东西。然后我还可以对他加要求,我说写得更加诗意一点,然后他说这个是个艺术品,什么甜度和口味是一个交响乐什么的,后面说了很多很fancy的话。同时你也可以去让他控制你的情绪,比如说大家偶尔会有情绪失控的地方去说别人的不好的点,比如说这个是说你有点笨,不太适合玩这个游戏,然后你可以让通义千问帮你说你能不能情商高一点。然后让他说一个比较委婉的,然后他说的是我认为这个游戏可能对你来说有点难,你可能需要更多的时间来学习和适应,然后它的评价说这样的方式不但没有贬低对方,还表达了对对方的尊敬和理解。
后面纯粹是为了掩饰我们其他的比如写code的一些还翻译的功能。假如说我要做一个创业公司,然后我要去招人,然后我说我要写文案,然后写了一堆,然后我说我是一个国际化公司,我要去翻译成一个英文,然后有可能我创业公司的人很多以一当十,所以我可能hr也要写代码,然后我就hr可能就来说我来写个html,然后就让通信情况可以写完了之后,就像右下角这个东西,虽然不是很漂亮,但是其实你是可以给他继续提需求的,你就说把美化一下或者什么。这个只是说通义千问它有一定的代码能力,客观来讲距离GPT还是有一段距离的。
接下来其实我想讲的另外两个点,就是刚才最开始说的坐标轴的另外两点了,一点是多模态的融合,另外一点是外部API的接入。第一个就是多模态的事儿,其实通义千问它多模态的前身的能力是来自 M6-OFA,可能大家对M6稍微熟悉一点,对OFA不太熟悉,但其实M6-OFA在国际上的影响力还是不错的。
我们当时实际上是做了一个系统,就是说我用一个模型能够输入任何的指令,然后让他能理解多模态,然后执行一个任务,但当时大家可能想到是GPT4,但是这个东西离GPT4还是比较遥远的。就当时 office这个玩意儿主要是因为他对文本的理解不是很深入,这就导致说你可以在训练过的这些任务上表现的比较好,但是在没有训练过的任务上比较就不会做。但是当我们接入了通义千问之后,事情就发生了改观。
比如说这个当然是我们文生图生成的一个照片了,反事实的照片,就说一个小松鼠在拿着吉他弹琴,然后我的 problem是说让图片中的这个东西作为一个主人公,然后写一段励志的故事。你只要是说写励志的故事,模型还是非常擅长的。
第二个是迪拜的什么帆船酒店,然后我说来根据这个图来帮我写一篇游记,它其实也能写的比较好吧,虽然这里面有一些事实的编造,但是实际上这个东西在未来是可以被克服的。
可能我们刚好像有一个很精彩的slides没了,但是没关系,其实它也可以去做一个动态的推理,比如说这个也是AI生成的一个图。然后我就说这个图有没有什么奇怪的?因为他正常人不会这么穿,然后他就说这张图是狗头和身体是用绘画风格绘制的,然后怎么样,然后我就问他是不是很有创意,他说是的。然后非常独特使用了奇幻的设计风格,然后有一个威严的角色,然后我也可以去让他去判断所处的年代和身份是啥。他要说这个是一个古罗马的战士和角斗士,看起来好像还是那么回事。然后我闲着无聊,我又在家里面手写了一个这个东西,我画了一张表格,然后我就看他想想看看他知不知道怎么理解这个表格,或者做怎么做简单的推理,其实它是能理解这个图像里面的内容,并且它是能理解表格的这两个内容叠加在一起,它才能做这个任务。
比如说我问他这个里面谁的成绩最好,他会说读左边小明的成绩最好,你如果用市面上的比如说OCR,这种任务它其实很难完成这个的,因为它也牵扯到对表格的理解。然后我还接着问他为什么,然后他就说因为小明排名第一,我鬼画弧的字他也认得,他说排名第一,所以他这个成绩最好,就说我输了两张图。
假设大家房子里面有装修,然后有很多人意见不一致,你也可以让多模态版本去帮你参考。比如上面这个风格和下面这个风格就不一样,然后我可以问他说哪一种装修风格更适合爸妈的,爸妈就喜欢这个,肯定是喜欢这个的,然后 AI的返回的结果还是比较在我的意料之中的。
首先它是和了一把稀泥,就是说所有不同的人可能有不同的喜好,但是最后他总会告诉你一些比较有用的信息,比如说如果你比较注重传统文化和品位的家庭,可能更适合后者。
刚才是文本和图像,然后其实我们也可以去理解音频。这是一段鸟叫声,加上在河旁边的鸟叫声,然后我也可以说让他去写一首诗,然后下面我让这个同学找他,河南的朋友录了一段语音:“在干嘛?吃饭了没有?”然后他就伪造了一个故事,其实就想测试他能不能听出湖南话和河南话,并且他去问他就说我如果请他吃饭会吃点什么好,然后他也可以去进行一个推理。
下面就是说我第三个问题就是我文本的能力怎么跟外部系统打通。其实大家都会知道国内的很多语言模型,它在做成产品的时候,它通常会接一个搜索系统,以防止大家去问一些 QA的问题,但是它并不是模型本身,比如说我们也可以看到我们接搜索之前和接搜索之后也是有很明显的区别的,接搜索之前他会胡说八道,但是说的好像也挺难验证它的真伪。
但实际上你搜索之后,它的结果就相对来讲比较准确了,比如说6个事业部到底是什么东西,这个东西其实就是说衣食住行的系统,API任何系统其实都可以这么接,比如说我问个问题,然后它可以比如说白字加粗的正在调用API,就是说他吸收到这个问题之后,他在想我怎么样去解决这个问题,然后他手上有一堆工具,他要是说我要去调这个工具,然后他把这工具调完了之后,这个结果返回回来,然后最终去收集或者汇总结果最后最终给你一个答案。它跟之前的系统有非常大的一个区别。因为首先它不是一个被动的调用攻击,因为大家比如说开车,你说我导个航去哪,它是一个非常被动的调用,而这里面其实特别是右边这张图,它是一个主动的交流,就是可以问AI一个比较复杂的问题,然后它自动会把这个问题分解成他手上的工具可以去解的一些子问题,并且他最终把这个问题给解出来。
第二就是说工具集合是高可扩展的,就说我这个API的提供。今天我展示的可能是十几个,但实际上我提供的方式并不是像过去一样。我写个复杂的系统,比如说意图识别什么巴拉巴拉一大堆,其实我提供的只有寥寥几句话,就说API是啥,它是什么用的,它的输入是什么,输出是什么?你应该怎么调?它就像一个说明文档一样,仅仅把这个东西放进去,它就可以回答类似的问题了。其实就是说调用特定的AI的任务的接口,比如说我可以让他去调用stale diffusion的文生图或者我们自研的文生图,或者向OCR的东西或者是TTS,我任何的市面上的AI的库其实都可以调,只要你本地有部署,然后你把这个说明文档给写下去,当然我们也可以做更复杂的任务,让它细分下来到某一个原子能力。
最后我给大家简单介绍一下通义千问的大模型的服务到底是怎么样提供的。
我们内部也有大概一年半以上的项目性孵化的经历,比如说我们M6服务化的这个东西在每天的调用的任务数在1000以上,然后40多个CPU在用,其实也覆盖了比较主流的功能,到今天其实通义千问你可以去比如在这个地方去找到它的怎么样去使用的方式,其实就是一个API的服务的东西。
它调用的起来也比较简单,就是当你有一个 API key的时候,你就可以写这么简短的一段话就可以了。然后他把它填进去,然后返回的结果就是跟你在通义千问上看到的结果是非常相像的,类似一样的、一致的,然后最后我们其实也提供企业专属大模型,企业可能没有那么多资源去训练属于自己的大模型,所以它会把自己的数据或者是文档相关的上传到我们阿里云上面,然后阿里云去给他从通义千问的大模型的基础上去变成一个企业专属的大模型,效果就长成这样。比如说可以上传自己的文档在左边,其他形式也可以,然后右边你就变成了一个你专属的模型,比如说可以做QA,比如说你问问题。这个例子是公司医保最多可以报销多少门诊费用,然后他就会参考你提供的这些资料去回答,而不是说就跟我们通用大模型的回答是一致的。
最后当然我们这个模型现在也在开发的阶段,距离国外还是有一定差距的,但是国内应该还行,谢谢大家。
昆仑万维CEO 方汉
各位来宾大家好,首先感谢阿里云给我们一个机会去跟大家分享一下,我们如何用在AI赛道,如何加速以及如何实现AIGC的商业模式的创新。
首先我简单介绍一下昆仑万维。昆仑万维是中国领先的互联网平台出海企业,于2008年成立,2015年登陆创业板,然后目前旗下的业务和子公司已经拓展到全球的美国、日本、韩国、印度以及欧洲、非洲、东南亚等其他的国家。然后我们也是全身心投入 AIGC开源社区的企业,成为国内AIGC布局最为全面的企业之一,然后我们基于公司在全球的4亿月活用户,以及在C端和B端的丰富经验,能够有效地助力 AIGC应用落地。然后目前我们全球的业务矩阵,包括Opera浏览器和信息分发以及源宇宙平台,然后以及StarArk是一个全球的海外的音乐社交平台,然后以及闲徕互娱和昆仑资本。
然后我可以跟大家分享一下,我们是怎么介入AIGC赛道的。首先从2020年我们作为一家全球性的内容企业,所以说我们对于AIGC的新动向是非常敏锐的。我们当时看到了GPT3大模型的发布之后,我们就认为这个是 AIGC内容生成领域的一个里程碑。
我们当时就联合与奇点智源开始做中文预训练大模型的研发。可能在2021年左右,我们就已经有了130B的一个中文大模型,然后在去年12月15号我们也开源了类GPT-3的大模型SkyCode、SkyPaint、SkyText等项目,然后我们也刚刚在昨天发布了天工大语言模型,然后也加入了国内大语言模型的赛道。应该来说我们是做就是说国内真正在这个领域耕耘可能有将近两年半的时间。当然我觉得也是一个机缘巧合,因为可能其他的一些专门做大模型研发的公司,不像我们这样一家内容企业,那么对于这种AIGC的渴求以及敏锐程度,所以我们也是做了很长时间的工作。
然后目前我们旗下有图像AI、音乐AI、文本AI以及编程AI。其中音乐AI目前在成绩上、在效果上还是非常好的,以及我们已经发布的天工文本大模型。
然后我们的愿景是致力于推进开源AIGC算法和模型社区的发展壮大,然后也基于我们全球月均4亿的活跃用户来提供服务。
所以说我们一直认为开源大模型是商业闭源大模型的有力补充和替代,然后只有开源模式可以满足用户的长尾需求,然后只有开源模式可以满足中小企业的增长需求。
这里可以给大家举一个例子来分享,大家可以看 Stability dot AI这个产品,它是一个文生图的开源模型,大家知道它其实比Open AI发布的DALLE2要晚了半年多的时间,但是目前在GitHub上基于stable diffusion的开源项目可能有2800多个接近3000个,而基于DALLE2的模型只有不到200个左右。而且最新的文本生成图像的技术发展,像ControlNet,像 Laura以及最新的一些技术都是在stable diffusion的基础上去完成的。
而且我们中国大多数文本生图像的产品也都是基于stable diffusion去研发的。我举一个例子,可能大家中国的所有电商企业,因为他们可能对这个技术的了解程度不够,他们就会选择专用的SasS像Midjourney来完成电商图的发布。但是国内所有的游戏研发企业没有人用Midjourney,所有的国内的游戏研发企业基本上都是用stable diffusion,然后去训自己的Laura模型,然后训自己的专有模型去进行游戏研发的这样一个流程替代。
所以说stable diffusion这种开源模式是非常利于中小企业进行改装,来满足自己的长尾需求的。所以说我们认为像这三种商业化路径,以stable diffusion代表的这种开源生态,以Midjourney代表的这种专业SasS生态,以及像Adobe Firefly的这种传统工具生态。
大家可以通过观察着三种生态在同一领域及文本生成图像方面的进展以及商业前景,就可以去推断我们的文本大模型,那么将来它的发展生态是怎么样子的,我觉得这一点是非常有借鉴意义的。
然后国内的AI赛道,我觉得基本上现在也很明显就分成几个阶层,首先,最先出现的肯定是去做这种底座大模型,也就是说做这种GPT-3,类GPT-3.5的这种文本大模型为主的底层,然后在这上面然后如何利用这些文本大模型去fine-tune自己的小模型,去针对自己的行业做专属训练,以及做商业模式的创新。我们认为这个也会是一个比较大的商业机会——对于大多数的中小企业来说。
然后我们这一点我们就要谈到预训练大模型的能力其实决定了AIGC能力的上限。在国外我觉得跟中国我觉得最大的区别在于什么?国外是基本上大模型它是从底座开始做,然后上层的应用基本上还是形成了一定的生态,而国内其实是模型和应用的同步研发,那么我觉得在中国商业模式的创新永远是不会亚于国外的。但也同前面源码的黄先生所说,所以说我们中国的这种大模型什么时候出来一个可用和好用的,那么这场军备竞赛我认为在分出结果之后,对于国内的产业生态会有一个比较大的促进作用。
第二个就是数据投喂,就是说其实我们都知道 OpenAI的 Gpt4的训练模型中间,英文语料大概占到92%左右,然后我们中文的语料只占了千分之二,这就代表了什么了?代表了由于西方最近200年的积累,其实大多数的人类的就是说科学文化知识还是在英文里面,那么我觉得但是由于大模型出现之后,那么它带来一个意想不到的作用是什么?因为大大模型本身它实际上是通过语料的序列来理解的,是人类的智慧,这样导致在底层大模型是可以把不同的知识,把很多知识在不同的语言之间进行传递。我们可以看到ChatGPT的中文表现以及其他语种的表现都会非常好,那么我认为这是第一次人类有可能真正的实现知识的平等,在各个语言之间的平等交换。
那么对于我们来说,我们也知道所有的大模型的下一步,一定是接搜索来解决准确性和时效性的问题,而之前我们的搜索可能只局限在中文语料。那么在大模型出现之后,我们认为随着知识的迁移,我们中国人也一样可以通过大模型来访问全世界的英文语料,这一点我认为是非常大的意义。然后最后模型越大部署越难,其实模型规模越大,它所消耗的算力也越来越大。
前面也提到我们现在所有人都在用New Bing,但是你们可能没有注意到的是New Bing的服务质量其实是在不断下降的。因为它的算力消耗太大了,所以说他们工程师为了优化,一定会把模型不断的蒸馏,去蒸馏出来更小的模型,目前来看New Bing的模型的规模,它所在线使用的模型规模可能已经小于ChatGPT了,而且ChatGPT最近也关闭了他的plus服务,其实都跟这个相关。那么我认为就是说模型越大部署越难这个事情一定是要靠底层算法的演进,以及芯片工程师的共同努力,才能够把推断成本能够降到更加低廉的价格,从而让各行各业能够更好的使用预训练大模型的能力。
然后 AIGC带来的社会问题,我觉得也是比较大的。所以说我们可以看到今天刚刚大家可能看到一条新闻,国家这方面的审核以及法规已经跟上了,我觉得这一点还是要给我们的监管部门点一个赞,我觉得他们的反应速度还是非常快的。因为我们的大模型训练其实也带来了很多问题。第一个问题就是说版权保护的问题就是说我们所训练的语料,我们拿来训练的图片,到底有没有版权问题,目前来说都是急需去解决的。而且我认为就是说在这波大模型出现之后,我觉得人类的文化史可能会分为两个阶段。第一个阶段是没有受AI生成内容污染的原始语料,然后从2023年开始,人类的所有生产出来的内容都会受到AIGC内容的污染,我觉得这个也是不可避免的。那么最后模型可能往往给一个模型训练的语料是另外一个模型生成的。
然后第二个我觉得很重要的是,为什么ChatGPT能够取得成功,而Facebook跟谷歌之前推出的大模型都失败了,就是因为前面两个大模型在政治正确性上做的不如ChatGPT。其实我们经常说的是ChatGPT是一个政治特别正确的模型,只不过它的正确可能是美国人的政治正确,我们中国人训出来的大模型一定是针对中国的政治正确。所以说我觉得在大模型里面如何解决算法歧视,社会偏见和刻板印象等等,这是需要监管部门以及我们企业共同来解决的。
然后第三个就是信息的真实性安全性不足。就是说比如说最近三星有工程师把他们内部最核心的技术资料放到ChatGPT,像意大利也关闭了ChatGPT的访问,所以说我认为说像这种大模型的使用,在数据安全性隐私保护等方面也需要更多的工作去做。
当然最后我觉得其实对于所有的云厂商以及所有的芯片厂商来说,这是最好的时代。所有人在中国现在可能最紧俏的商品应该就是A100训练卡,所有人都在抢A100的训练卡。那么下一步我认为所有人都要去抢A40或者是像4090这样的推断卡,以及人类对AI算力的不尽需求,我认为对于能源消耗来说也需要我们去关注。
阿里云跟昆仑其实合作的时间非常久,从2015年开始到现在,以及我们在海外,我们其实在海外跟阿里云的合作也非常多。今年我们在阿里云上采购的这种近万卡的算力集群,以及专门为我们服务的百人支持团队,以及我们这么多年的合作模式,所以说我们跟阿里云的合作还是非常愉快的。不得不承认阿里云还是国内目前在算力基础设施上最为成熟,也是相对技术实力最为雄厚的公司。我觉得在这一波AIGC的训练大潮中间,我觉得阿里云能够取得一个很长足的发展。
我们跟阿里云的合作主要是PAI计算平台,以及灵骏底座这些。尤其是灵骏底座网间互联,对于我们做天工大模型的训练是有非常大的帮助的。其实大家都知道在这方面,可能我们作为一家软件公司,那么同硬件厂商相比,同云厂商相比,还是有需要他们一起来协助把这件事情做得更好。所以说我们认为就是说跟阿里云的合作,对于我们将来的不论是大模型的训练以及大模型的推断,都非常有帮助。
我们下面跟阿里云的合作展望是,其实文本大模型、类GPT3.5只是一个起步,那么下面所有人都要争夺的肯定是类GPT4的多模态大模型的训练。但是多模态大模型的训练,由于图像以及视频的理解所消耗的资源更多,那么实际上它所需要的训练的卡以及训练资源也会更多,那么我们愿意跟阿里云合作,然后共创构建万卡的大模型训练集群。然后在核心业务,我们的线上推理这个工作中,我们也希望能够跟阿里云一起打造一个大规模的推理集群,为尽可能多的用户提供更多的服务。同时我们作为阿里云的核心合作伙伴,那么我们也愿意一起给我们的客户提供更多的商业化落地场景。最后谢谢各位以及谢谢阿里云的同事们在我们这次大模型的训练过程中给我们提供的帮助,也欢迎大家去参与我们的大模型的测试,谢谢大家。
格灵深瞳副总裁 周瑞
大家好。我今天可能分享的内容偏技术一些,主要是想讲一下我们公司是怎么在碎片化的应用场景当中去解决实际的具体问题的,以及最近几年整个深度学习的发展,给我们带来的帮助和我们是怎么去一步步迭代去迎合技术潮流的。
我一开始会介绍一下我们公司,我们其实是一个在2013年就成立的计算机视觉公司,长期以来我们都是围绕技术去推动计算机视觉去发展的一家公司,我们的使命常常挂在嘴边的,就是让计算机看懂世界,当然现在主要是让计算机看懂人。所以我们在去年也是成为了第一家在科创板上市的计算机视觉的公司,而且我们去年也是在很多应用当中,事实上落地的还不错,所以也是在科创板上第一家实现了盈利的计算机视觉公司。这一条将近10年的路走下来,其实我们积累了很多在使用AI技术、使用深度学习技术完成场景化落地的经验。
我们公司的整个的基础架构大概是这样子的。在最底层有一个叫我们叫做深瞳大脑的平台,其实当年给深瞳大脑起名字只是一拍脑袋就叫了这么个名字,没有想到到了今天很可能我们认为每一家就是像我们这样子的。以计算机技术和机器学习为主的公司,可能真的要拥有一个自己公司的相关场景的通用的大的一个模型,来帮助我们解决实际的很多现场的和项目上的问题,以及各种各样碎片化的内容。
当然我们在现在其实为深瞳大脑主要是注入大量的数据,注入大量的这个模型的训练方法,然后期待整个流程可以自动的产出很多模型。等一下我也可能会解释为什么我们会这样子做。那么随着这一层底层的抽象出来的技术上面,其实是我们一些核心的技术,它可能就是大家耳熟能详的,比如说一些跨境跟踪,人脸识别聚类,比如说一些动作识别,或者是智慧城市所需要的这种大数据技术。这一层之上是我们包出来的很多个解决方案,这些解决方案基本上也就是我们公司现在主要在从事的业务。大家可以看出来,其实我们做很多完全不同的方向,之所以我们的一个小公司的形态能够去交付这么多种不同形态的任务,其实跟我们一直在深瞳大脑里面做迭代有很大的关系。
这一页基本上就是我解释的上一页的,我们最核心的可能就是比如说大数据分析,它会为用户在图文两个层面提供不同的解析能力,它主要提供给一些比如说像智慧城市这样子非常大的项目。另一边人机交互也是我们现在正在试图找到一个创新方向的一些技术。人机交互主要包括比如说我对着摄像头做一些动作,或者是说一些话的时候,这一整套系统它是否能够正确的响应我。
我就介绍一下我们在人机交互的应用里边做了哪些事儿。在这之前我可能要简单的介绍一下我们在深瞳大脑上的现状。
第一个是我讲一下过去吧,我刚其实讲过了,我们试图通过它来完成大量的模型的复用和生产,其实我们只有几十个算法工程师,但我们现在整个公司可能提供四五千个模型对外服务,而且都要向前迭代更新,它非常的碎片化,可能有各种各样的业务做在上面,所以整个这套平台,其实每天都在做自动化的数据清洗跟自动化的模型迭代,现在基本上我们已经把大多数的范式统一在了一起,通过预训练的技术可能会提前准备好一些不同size的模型,这些模型他们会通过像知识蒸馏或者是一些减枝的量化的技术,再把它变小,放在真正要去跑的业务上,然后逐渐的去把我们对数据的理解沉淀在这些通用的大模型当中。
未来其实我们认为,很可能我们也会有一个自己的类似GPT一样的模型。当然它可能工作方法不是直接的NLP的方式来跟他对话,当然语言能力肯定是作为模态的一种要加入其中的,那一种可能的方式是我会给他一些图片,像我们现在看到的这种fewshot的learning技术一样,来告诉她说这几张图片是某种样本,我给你一张新的图片,你能不能告诉我它是什么样的?包括说我们现在其实在自己的开发平台上也做了类似的事,因为我们有非常大量的图像和视频的数据,所以我们其实做了一个图文互搜的接口,我可以输入一段话,比如说有没有一些人在骑自行车的视频是吧?他可能就会从我们所有的数据当中去搜,然后返回一个新的数据集给我们。当然这个数据集现在可能还没有那么的干净和纯粹,我们经过人的再次筛选,重新给到整个平台,它可能就是一个新的数据集了,可能在将来这件事情会更简单是吧?我就不需要说我找到一个新数据集,然后我再去训练它,然后我再经过很漫长的发版流程,而是这些东西已经学会了。我只要去问大模型,他可能就告诉我说下一步我们该做什么,当然这可能是3-5年以后。
我们做了一些应用,这些应用其实通常都是跟人的交互比较强的,我这有些demo我可以给大家看一下,大家也能通过这些demo理解说为什么它变得非常的碎片化。因为这是一个我们在首钢园准备了一个人机交互的场地,其实人是不需要佩戴任何的设备的,所有的这个人的动作分析全是由计算机完成的,只要通过摄像头,我们就能找到这个人的位置,知道这个人在做什么,以及他跟计算机是如何互动的,计算机可能会给他新的一些反馈,当然我们现在设计了一些更有意思的游戏在里边。
最早我们的原型实际上是在这样一个场地里做的,就是我们公司做了一个篮球场,大家在里面打篮球,我们来帮助每个人算分,然后去跟踪每个人做了什么事情,分析这个球的轨迹去计算说你投的是二分球还是三分球,你有没有比如说犯规,犯规是个非常tricky的事情,非常难以做对。最后我们再把所有的信息汇总起来,形成一个应用给到我们的用户。
刚刚这个是比较大的场景里边的。我们还有一些相对小的场景,我们会提供给一些学校或者是其他一些有训练需求的,比如说培训的场地,一些对人的动作的指导,比如说你做个俯卧撑有没有做或者是引体向上做的好不好。在学校我们同样把刚刚那项技术用在操场上,只不过是操场的一些部位会被我们用相机观察起来,我们会在里边去做,在这个区域里边大家都在做什么活动,做的怎么样了,类似这样子的应用。
这是一个小游戏在家里边电视跟前玩的,当然实际上也是我们一台原型机,因为其实要做到这些事情,现在的成本没有办法直接进到用户的客厅当中去,但大家可以看出来就是每一项小游戏,它可能对应的都是一些新的算法需求,可能非常的零碎,比如说我就想知道说这个人的哪个动作合理不合理等等。
我们是怎么去解决这些球、球拍、人、场地之间的关系的,在过去基本上可能在三年前就是死拼规则,我们会把所有的这些物体的检测和识别全都做了,然后再在里边去做各种各样的跟踪。它是一个非常复杂的所谓的动作识别的系统。这套系统它工作起来其实就有很多的问题了,就好像你三年前用GPT-2和GPT-3去问他一些问题,让他补一些话出来,你明显能看出来,他实际上说的没有逻辑。现在ChatGPT就完全不一样了,我们其实也使用了一些类似的技术来解决像这样子的碎片化问题,那怎么去复用我们手上所有的数据和我们积累的算力,通过一些方法来减少这种碎片化的对算法的需求带来的资源上的浪费。
我这儿举了一个例子,当我们在这个学校或者说训练当中要去做引体向上的动作的正确与否的判定,我理解你必须要手背朝着自己,他才是对的是吧?所以就有这样一个分类任务,这个分类任务在实际上解决起来没有那么难,因为它就是那种最普通的分类任务,你可能就找个人,然后采什么半个月的数据,然后程序都不用写,就把它做了。但是其实你花了大量的时间是吧?最早我们做了一些测试,比方说在一个Resnet50的系统当中,如果我们只使用几千张照片,可能我就采个三天,随便拍一些视频把人的手抠出来,基本上这几千张照片是没有办法让任务收敛的。你能看到说输出的结果就是全是猜,如果我们一定要给个数字就是50%。
后来我们尝试说把 Resnet50的网络用ImageNet的数据做一次Pretrain,其实这应该也是一个比较传统的迁移学习的套路,这种情况下大家可能不是看得很清楚,我列出了所有认不出来的手,基本上它都有个共同的特点,就是因为我们这个数据集是在办公室采集的,所以在办公室里使用我们的自己买的黄色的架子,得到的图片基本上都能分其他的全都是错的。
去年我们基于clip做了一套新的预训练的方法,大家可以理解成说我们事实上除了ImageNet以外,还混入了大量我们的跟人的动作和行为有关的数据,去统一训了一个非常大的模型,然后再把这个模型经过一层一层的蒸馏,把它变成一个小模型,在 Resnet50上现在它的表现是什么,使用几千张图片来finetune之后,除了最右边的这三张图,完全因为光线问题分不清楚它到底是正的还是反的,其实是可以分清楚的,你可以通过手的姿势把它分出来,但这是一个相对来讲比较语义化的纹理信息了,可能在几千个样本上的确不太容易做到。
但是我们能看到说,在使用了最新的技术以后,基本上一些光线正常的case,可能我们只需要花个两三天,自己去找一些地方把照片和视频一录,拿回来什么都不用做,就能得到一个完全可用的模型是吧?在这儿我就想介绍一下说我们是怎么做这件事情的。
我们其实使用了就像我刚刚讲的使用了更大规模的数据,但是你要把它训出来,必须要有一个训练任务。其实这个是从我们之前做人脸识别以及其他的一些识别任务当中迁移过来的一种方法,就是我们会定义一个更大的类别的数据集,ImageNet大概有指定好的这1000个或者是10万个小的class的label,可能对我们来讲混入了大量数据以后,你再去把它全都标出来,或者说得到一个具体的label信息已经没法做了。
所以我们整体上是先使用一个特别大的模型,把这些数据做一次聚类,聚类是同时在 NLP和图像两个维度去做的,它基本上是对比学习的一个思路。在完成这些聚类以后,它可能是非常非常大的一个分类任务,可能有几百万个簇,那就代表的是几百万个类别,但是这样子一个高监督的数据集,可以帮助我们有效的更好的监督模型分辨一些图像上的细节。同时它也可以把我们积累的和我们从互联网上扒取的大量的这些没有标签的数据很好的利用起来。
所以我们设计了这样一个分类任务以后,下面可能是一些具体的技术,我简单的讲两句,首先我们要解决在聚类问题当中遇到的各种各样的情况,其次我们要解决当类别数特别多的时候,该怎么样去演进,其实这也是我们公司最近两年发的两篇论文的结果,就是passFC和 Unicom这两项技术,整体的意思大概就是说我们可以在比较大的集群当中,没有那么分布式的就让一个非常大的模型和非常大的类别并行的训练起来,这样子就能到很优秀的一个预训练的模型。
实际的表现怎么样呢,这有一个我们做出来的统计图,我们可以看到在纵轴上是最后的准确率,横轴代表的就是样本的数量,基本上使用ImageNet直接来做一个resnet50,5000张图连一半的准确率都达不到。
但如果我们在一个很大的模型上,比如说ViT-L,在这个模型上使用Unicom技术,可能上来只要10张图就有60的准确率,达到90的准确率需要5000个样本,当然下面要优化,它可能就不需要接着往上堆了,而是把那些负样本和样本的比例就是做一些数据工程和特征工程,可能再加个100张图可能就会更高,那时候会有工程师来介入这件事。
但这些过程就让我们的整个模型生产变得非常的高效,而且定位问题和解决数据的稀疏和分布不均的问题也变得很容易。在未来显然的,我们希望在我们现有的这些模型的基础上,去注入更多的数据,加入更多的语音信息,让它变成一个 CV界的或者在我们的垂直领域当中更有效的一个通用的模型。
其实确实是这样子,放在去年我根本不把不敢把通用两个字放在嘴上来说,因为现在这件事情的确是有希望的,所以我们会接着沿着这条路去往前走,去试图找到一个在大模型和实际应用的小模型上,都各自有足够能力的方法,让我们把这件事做成,当然就是要做成这件事情,显然有很多工程化的问题需要去解决,这也是我们跟阿里云一起合作在做的事情。
这张表我觉得大家可以看后两项,就是在a100的卡上,其实我们如果只使用默认的训练框架,大概的在一台机器上的吞吐量和它的线性度只有37000和0.82,跟阿里云一起去解决了一些并行问题以后,其实我们吞吐量提升是巨大的,吞吐量可能提升了40%-50%,并行度也提升到0.92,并行度大家可以理解成说你有可能在多大的集群当中训出来这样一个模型,因为并不是加卡就能训的?所以并行度越高,我们在加卡的过程当中获得的性能的损失就越小,相反的,如果并行度不够,其实你越加卡越慢,很可能还不如不加。
经过了这些迭代之后,现在我们基本上我们中等大小的模型,就ViT-B,应该是在两周内可以在一台8卡的a100机器上训练到收敛,如果我们接着加机器的话,很可能一天我就把这个模型迭代一次。当然通常我们不会从ViT-B开始,我们会从一个更大的ViT模型开始,其实性能和效率对我们来讲已经是非常优秀的了,对我们来说做很多实验也会变得很方便,所以其实算力在将来肯定是要接着去扩张的,但它的扩张会随着业务随着技术的发展在往前走。
总结一下,我觉得说现在在大模型时代,我们看到了很多机会,这些机会可以让我们真正的解决过去的那些碎片化问题,我们也有很多的实践方法解决了一部分。我认为在未来的3~5年里边,通过硬件软件算法等等各方面的发展,我们很可能解决大部分到那个时候可能我就不会说我们还有4000+个模型,我们可能只有1~2个模型,我们所有的任务就完成了,谢谢大家。
万兴科技副总裁张铮
大家下午好,我是来自万兴科技的张铮,很高兴能也是很荣幸在这样一个场合感谢阿里云的这样的一个场子给予这样的机会,不仅在上午的主论坛及下午的分论坛里面,让我们领略到阿里云未来更宏大的这样的一个战略前景,也让我们能分享到这个行业里面的最先进的一些资讯。
今天我为大家带来的分享是AIGC跟数字创意这一块的一个结合。
首先先允许我简单的介绍一下万兴科技,万兴科技英文名叫wondershare,跟前面的昆仑万维一样,我们的绝大部分业务是在海外,也是在国内上市,所以有很多小伙伴们可能并不太清楚万兴科技是怎么样一家公司,所以我简单跟大家做一个介绍。
其实为什么会邀请来这个场合,其实也是最近很多证券的投资机构的朋友们在做AIGC的行业研报的时候,经常把万兴科技当做落地应用的这样的一个case,来跟大家做这样的一个介绍。
我们也是在这里面有一些产品与C端用户之间连接落地的一些思考,这里有一句话叫做说风口是不是真的能被撞到,也说是不是说万兴科技撞着撞着,就在AIGC航道上面,在今年开春以来的资本行情里面撞到了一波。其实我们说撞可能是撞到了,但是也许还有很多没被撞到的,没被大家知道的。可能就像我们20年前、18年前,我们一直在做一件事情是什么,跟微软、跟Adobe这样的国际一流的软件公司同台交际,把中国我们自己的智能制造、我们的知识变成我们的软件产品,卖到全世界。我们做了很多产品,做了很多产品,很多款,现在的用户也非常多,全球历史成交用户有十几个亿,目前在活跃在使用的也有小10个亿,但是我们尝试失败的也有很多,AIGC发展到今天,其实是我们很重要的一个很大的系列。
我们不仅在我们的视频编辑软件,在我们的绘图图形文档软件里面,把我们的AIGC这样的能力带给我们的用户,而且专门根据文生图跟虚拟人,我们也形成了AIGC这样专门的一个产品线。
我们要想做的一件事情是什么呢?刚才万维的领导跟大家分享说像Adobe这样的传统软件工具软件公司,我们的万兴科技也是这样的软件公司,那么这样的软件公司其实它有个使命就是什么呢?能够把最前沿的一些技术,包括AI,包括虚拟现实等等能够帮助到最普通的用户,最前沿的用户,从而帮助他们生产,帮助他们进行创意的表达,这也就是我们的战略的使命。
这样的战略使命下面,可能跟大家分享的一个话题是什么,叫数字创意。首先我们先说一下什么是数字创意。数字创意其实就是若干年前我们说的多媒体,说到多媒体这个词很古老,古老到什么程度呢?我记得我97年在北京海淀念大学的时候,当时第一次听说AI97年发生的一件事情,大家知道是什么吗?97年的时候,有一台计算机名字叫做深蓝,IBM的,他在97年干了一件什么事?战胜了俄罗斯的国际象棋大师,那是我在校园里面当时在看,叫做大众计算机吧,但没想到到了今天二十几年后的今天,也在北京能跟大家一起在分享 AI给我们今天带来的生活上的改变。
我们是做数字创意的工具的,就是多媒体的编辑软件,这样的软件能够把AIGC怎么来形成结合应用,下面跟大家分享一下。其实有些投资机构经常把我们公司比喻成叫什么中国的Adobe,小Adobe,其实这是一个行业的谬赞了。
因为今天的万兴坦白的说跟Adobe还是差非常远,我们可以看到Adobe的市值有3,000亿美金,在中国最熟为人知的是它的photoshop,我们叫还发明了一个词叫做PS,它其实在去年的Adobe Max大会上面就提出AI是要作为创作者的副驾驶,也就是说你是主驾驶,你用你的思维,你用你的脑袋,但是AI它是你的一个副驾驶,它能帮助你做到很多事情。
我们可以看一下他当时在发布会上面说,刚才大家说的很多文生图,我要一个水底的世界,ok马上就生成了一个软水底的世界,我要有个猫头鹰,ok我在合适的位置自动帮你PS上面一只活灵活现的猫头鹰,如此这样的一个技术。甚至到了什么,你给他一个图,你给他一个你的照片,他不能够把你的照片变成一个三维动画,他可以用AI做什么?你给他一个平面拍的照片,他帮你生成3d的素材,3d的素材我们可以干嘛?可以建模,建完模以后干嘛?上传到电商平台,上传到素材网站。在这是2022年他提出的。
但是2023年起大家都知道微软开始了,微软开始秀他的肌肉了,可以干很多事情。我们公司当时也搞了一张这样的一个列表,当时我们也在说可以写文章,又可以写代码,又可以做设计。我们公司1000多号人,那里面50%是写代码的,还有20%是做设计的。当时我们公司内部就产生了大讨论,你看我们公司的这些绘图编辑这些软件,ok都把AI集成进去了,我们公司这些写代码的、做设计的,是不是在未来陷入一种恐慌,我们都要失业了?当时有一句话说,AI替代和超越人类是不是只是时间的问题?这个是一个很大的讨论话题,今天我们不展开,但是这里我们借用gatner的预测,说再过那么7年,也许互联网上面90%的数字内容,包括视频,包括文本,包括图片,也许都是由AI生成。
当然人类在社会发展过程中,它一定会克服刚才万维的领导分享的版权的问题,知识法规的问题,道德的问题,政治的问题,这些应该都会想办法去克服。
但是我们来看国内,这是我借用前几天去参加广州的一个艾媒资讯的论坛的分享的一个报告。中国的charGPT的使用的功能,或者最希望能干的事情是什么?排在第一位的生成文本,排在第二位的生成视频,第三位的生成图片,剩下来就是瞎聊天。那也就是说用户其实使用AIGC最希望生成的general content,那个content是什么?是文本,是小说,是诗歌,是视频,是图片。那么这一块就会导致在中国的AIGC进步会促进发展的产业,联系起来是什么?是游戏、是直播,是电商,是虚拟人的培训等等,包括教育、新闻传媒、自媒体等等这些行业都会被它洗礼而改观。
这里面刚才说了一个虚拟人,其实虚拟人最早的来源的起源应该是从去年的mata元宇宙的浪潮,但是我们经过深入的调研,包括跟艾媒的领导一起去做交流的时候,我们谈到一个观点,叫什么?虚拟的人他只是一个表象,他靠什么来驱动?他是需要有文本、图像、音频等等这样的一个技术去做深度的结合,去进行互动,这样才是最好的虚拟人的这样的一个应用。它应用会用在什么?用在虚拟的直播,做主播等等。大家也就是说经常在刷抖音或者刷b站,经常有一句话,你刷到的也许不是真人,你们比如说喜欢看的一些主播,也许在后面只是他的数字分身而已。
最后一个部分也是也是今天跟大家着重可能也是大家比较关心的内容就是说前面你说了那么多,有些行业的知识我们都知道,但是那么万兴的产品为什么会被研报各个行业投资机构的研报被称为AIGC最落地的应用?
其实应用是我们这种产品型的公司最关心的,我们又是如何能够在阿里云这样的大的基建生态下面,我们能在垂直场景里面,让我们的用户感受到AIGC的力量,并且愿意为之付费的,在这里跟大家做一个分享。
首先我们公司的研发有将近1/4投入到AI的这样的一个技术领域,我们会围绕着国外的标准模型,会与我们产品与我们的用户的需求结合,来生成我们自己垂直的一个应用,我们把它叫做工程化的能力。这种工程化的能力包括了文字生成视频,文字生成图像,AI视觉的特效更有视频和AI的结合,还有最后的虚拟人的生成与互动。
我们先说一个最简单的就是文本,文本我们大家都用过,PDF有没有没用过的,举手我看一下。可能有,但是 Pdf是这样的,PDF被称为版式文档,它跟我们平常用的word、 Excel 、PowerPoint不一样,那个是叫做流式文档,版式文档讲究的是格式的保证,跟资料的原封,原来的封装,在这样的文档的它的属性一般用于什么?比如说报表,比如说公司的知识文库的资料,那么在这样一种场景下面,AIGC的能力就可以把它嵌入,来帮助到在这个场景下面用户可以做的事情。
比如说我们在读一份PDF文档的时候,我们没有耐心读完,我们可以说我们草读一遍,AI你来帮我概括这样的文档。第二我对这个文档里面有些东西,我有一些感受,一些感想,我们能不能讨论一下?我有些问题你能不能帮解答?我不用再跳出去,我不用再跳出去外面,而是直接结合到我的产品端内,勾筛选高量使用,让用户的感受会变得更好。
第二个我们再看一下文生图,注意这里的图不是指图像,是指图形,也就是说我们经常用的思维导图、流程图这样的工具。现在中国这里,允许小打一个广告,我们这个也是中国国产替代就是信创的制定标准的成员单位之一。我们的思维导图软件也是集成了这样的AI能力。我们一件去做一个思维导图的时候,我们不仅是可以跟他做一些连续对话,就是chatGPT的内容,我们更多我们还可以做什么?我们让他帮我们生成多分支的一个思维导图,你先帮我打个草稿,然后我做了一件事情,你帮我能够配图,帮我把它美化,帮我分析里面的语义,这些都是AIGC可以做的事情,用户用起来会就像今天我们张勇总说的丝般的顺滑。
接下来刚才说的是文生文,然后我们看一下文生图,文生图这个功能其实我们在今年上线了一段时间了,我们的用户的爆发点在哪?其实是在情人节,我们做了一个很有意思的应用叫做画生画,什么叫画生画?为什么在情人节,因为我们公司总部在深圳,我们的产品营销团队也有很多年轻人,年轻人有很多都是单身狗是吧?然后在情人节的时候他干嘛?他说我做一个简笔画,我勾勒出我梦想中我的情人,我的男朋友女朋友的样子。AI你能不能根据我做这样的简笔画,帮我生成一个很帅或者很漂亮的姑娘或者小伙子,就这么一个功能,非常吻合年轻人的场景。Ok在情人节的时候我们的用户就一下子就暴涨了,这个是文生图和图生图。
接下来我们看一下视频,我们公司90%的业务在海外,不是说不愿意做国内,而是说我们公司出海的比较早。那时候在18到20年前,中国的软件付费的习惯,包括到今天,也相对来说还是稍微比美国比日本可能会低那么一点点,但是这没关系。我们在出海的过程中,现在海外包括国内,全是视频的天下,谁还不刷一下抖音,刷一下b站,在海外就刷一下YouTube,刷一下tiktok,这时候对于出海企业来说,视频就很关键,我们公司自己又做视频剪辑,但是我们也会碰到这样的难题,什么难题?就是我们找不到很合格的性价比很高的外籍演员,所以我们针对这样的产品,这样的痛点,我们研发了一款AI虚拟人这样驱动的一个产品。接下来大家可以看一下video。
其实AHC里面最难的,就是通过文本或者通过某些多媒体来生成视频,这个是目前行业整个的一个难题,但是我们相信随着这个时间应该会做得越来越好。
目前我们能实现的是通过文本来生成脚本,就是拍视频之前的剧本,然后通过AI来生成语音,不仅是中文、越南语等多个120多个国家的语言,包括生成的这样的一个数字人,这个数字人他是要解决,我们现在很多企业想请海外的模特,比较难请到,而且费用各方面的配合也比较难的问题。
最后一点就是输入文字,比如说黄昏、大草原,然后推销我的矿泉水,然后它自动帮我生成一段视频,这个功能是目前整个业界最难落地的,也是努力要突破的方向。
其实万兴我们这个产品也是我们的年轻人做的,这万兴是一个孵化这样工作室的这样一个团队,但是在我们的团队完全是基于产品的应用垂直方向的,在背后我们也非常希望、也非常需要跟阿里云这样的基础的大的团队、大的架构来进行合作,帮助我们把我们的计算的效能,把我们研发的效率,包括我们数据的应用这样的一个场景做一个升级。
比如说我们可以利用阿里云来做我们的整个的AIGC的标准研发流程,那帮我们来进行在这个模型上进行加速的训练,及我们在工程算法上面能够得到更多专家的服务,我们自身是一个应用的场景,我们把我们自己的场景做好,做扎实,就是为服务好用户,然后让用户更好的享受到AI、AIGC带来的这样的一个便利。
最后想说的是什么?在现在这个时代这个领域很宽广,我们希望能够跟阿里一起在这样的时代与更多的合作伙伴共同的分享,共同迈入AIGC的更宽广的海域,谢谢大家。
圆桌论坛环节
我们有请本次圆桌对话主持人,阿里云研究院行业研究中心主任肖剑先生。同时有请本次圆桌对话嘉宾,他们是源码资本合伙人黄云刚先生,北京格灵深瞳信息技术股份有限公司副总裁周瑞先生,万兴科技副总裁张铮先生,阿里云智能行业解决方案部公共云业务总经理邓铁成先生,有请各位嘉宾上台。
各位嘉宾,各位朋友,大家下午好。那么很高兴今天有机会能够在这里主持圆桌论坛,大家听了一下午,我们也换一种形式,那么用圆桌论坛用研讨的方式来给大家展现另外一种知识的分享。今天其实几位嘉宾大家从后面的背景也可以看到比较多元,我们既然既有投资界的新锐,那么还有 AI的科技公司技术公司,然后还有应用创意软件应用公司,另外还有阿里云。那么作为最底层的基础设施的一个供应方,今天其实我们研讨的不同的角度还比较多元,而且几位老师有大部分今天下午在论坛上都已经做了分享和讲解了,所以我今天就不对每个人做过多的介绍了,还是感谢几位来共同参加圆桌讨论。
那么今天我们的圆桌讨论的主题是AI新范式下的商业创新如何走得更远?那么大家都知道从去年年底到今年年初,整个AIGC引领了整个大模型的浪潮非常的热,这样也拉开整个产业AI的这样一个风口,所以也带来了一系列的话题,所以今天也是基于这些话题,我们来做一系列的研讨讨论。
那么第一个话题我们就想问,为什么AI大模型在最近会这么重要,然后大模型是否会成为一个新的技术平台?我想从不同的公司角度可能会有不同的答案?
源码资本合伙人黄云刚:谢谢。为什么大模型这么重要?我讲讲一个点,年初去湾区的时候跟很多工程师聊天,聊到就是说Open AI到底是微软的一个马前卒,还是说反过来就说这个Open AI之于微软会是像当年微软之于IBM一样,就可能Open AI还会长得比微软更大?这个其实是一个挺有意思的话题,也牵扯到到底云跟大模型之间是什么关系,是云把大模型这个包进去,还是大模型长得足够大,把云变成一个就可以切换的基础的底层的计算平台,但是没有差异化。
到底哪个是更强的?我自己觉得其实大模型自己如果技术迭代足够强,因为他的能力非常强大,他能支撑所有的应用,而且它的进化是很快的。一旦它达到某一个临界点,哪怕不是我们AGI的那个临界点,而是商业的临界点,它的优势也会非常大。我自己的一个观点是说大模型往上它有可能做出最大的应用,往下它有可能会把云给包进去。但反过来云厂商就像咱们阿里做大模型其实是很有优势的。因为今天数据也好,算力也好,人才也好,其实创业公司跟大厂比起来是非常难的。所以如果在这一时间点,同时间这个大模型被大厂先盯上,创业公司的难度就比较大。
大模型为什么这么重要?原因还是因为这个模型的变大,它所展现出来的涌现的能力使得它在很多地方都体现出来了,它可以在更多领域展现出泛化的能力。那个是很可怕的,我觉得这其实就讲一点,他的能力会非常强,强到有可能其他的层,应用层也好,底层也好,会被它所影响,所以显得很重要。
格灵深瞳周瑞:我其实觉得重要的不是大模型,真正重要的是我们发现了一种新的计算机系统,这个系统它有归纳和推理的能力,以前的系统它只是机械的去做一些我们写好的这些工作。
现在你会发现跟它的交互方式发生了变化,它终于可以用我们更理解的方式更快捷或者要更高效的去完成一些任务。所以其实这个模型的大小也好,技术也罢,不关键。关键的是今天有一个计算机系统,它突然让我们使用工具的能力上升了一个台阶,这可能就会带来生产力的巨大的变化。显然我们也就会迎来一个很大的变革。
关于技术平台,我是觉得一定是会形成一个平台的,或者说会形成很多个平台。他可能会有各种各样的能力,也有可能统一的能力不是最关键的,而是这种规模的算力和这种规模的数据和调度的能力其实很可能并不是每一家公司都能具备的,就好像上一次科技界最大的事情是iPhone,后来我们发现还是有不少公司能做出来像iPhone一样的好手机的。但是更多的公司是在这些手机上去开发了方便我们生活的应用,这次很可能也是一样的。
万兴科技张铮:作为应用软件的落地的厂商,我们先调侃一下我们资本界的朋友。昨天在飞机上面我跟客户在讨论,他说为什么尤其是今年春节以后这么热,资本的热钱是不是都过来了?我朋友讲了一句话,疫情憋了三年了。开玩笑归开玩笑,但是话又说回来说到 AI,与其说现在为什么这么热、这么重要,是不是以前就不热不重要呢?
其实我们觉得更多还是个场景的问题。就像我97年念大学的时候,听到深蓝战胜了国际象棋大师一样的,那时候的场景可能更多的是在一些尖端领域、研究领域,就像我们周总刚才说的,现在人民群众用一种轻通俗易懂的方式来跟AI进行交互,当他把自己的生产效能发挥出来的时候,这个时代可能真会改变了。用户多了,不再是以前曲高和寡。
而且我们还注意到一个信息,就是说基于AI开发软件,基于AI再编译、再生产,这样的系统开始搭建起来了,就像微软当年的windows一样的,在发布windows后面的20年,各种的应用层出不穷,整个生态发展起来。所以这个时代我们相信不是因为资本疫情憋了三年,而是说AI2.0的时代有可能真的开启了。很重要。
实际上应用软件在加持AI,实际上可以对生产力带来一个巨大的提升,这个是实际上在软件行业我相信可能会是一个很大的机会。
阿里云邓铁成:第一个问题是为什么大大模型在这个时间出现变得这么重要,我觉得是有其必然性的,因为刚才前面的嘉宾也讲了,可能是疫情憋的,但是当然这是一种戏谑的说法。我们回顾看人工智能发展的路线,在国内这几年变现,坦白说走的不是特别的顺利。
比如说去年自动驾驶,再往前其实是人脸识别等等。我个人的观点,AI总会爆发的,只是今天在AIGC赛道上爆发了而已。阿里云其实持续在关注AI赛道的。AIGC的雏形,其实我们在前年的时候,一些游戏厂商里边就能看到一些雏形了。但为什么这个时间点出现?我认为它有几个特点,第一个是普通的民众可感知,我相信绝大多数人讲不清楚,连这个GhatGPT这几个字母具体代表什么都不一定知道,但是他可能稍微的翻墙出去试用一下,他就能体会到这个东西现在是可用了,他能感知到。所以我认为它具备了一个商业化的前提。技术再先进,论文写得再好,它如果没有被大众感知到,它也难以走完商业化的进程。
当然第三个原因可能是稍微偏技术一点。我其实原来在学术界也好,包括很多做NLP研究的人也好,其实大家知道是有预训练这件事情的,知道生成式AI这件事情,但是很多人没有在这上面发力。原因是为什么?大家都觉得这个东西训练一次成本特别高。比如说你想把所有的东西或者很多的场景都包括进去的话,你需要大量的算力。训练一次成本太高了,很多人不愿意走这条路。但是也有一些人研究发现,它到了一定参数量的时候,具体的数我也记不清楚了,大概是666Billion还是多少,它就开始出现了智能这件事情。打破了很多人的认知,原来没人愿意用,但现在发现到了一个临界值之后,它变得有智能了,它能达到了一个很好的效果。所以我觉得基于这三点都是为什么在这个时间点大模型会这么热的一个原因。
第二个问题是说会不会有一些新的平台型的公司出现?从我的角度来讲,阿里云对待AI这件事情,我们提出的 MAAS等等,我觉得和几年前我们做云是一样的,和2009年的时候做云是一样的。云开始的时候也大家有各种各样的不同的定义,有的说新瓶装旧酒,有的说降成本,有的说什么弹性什么的,其实即使到今天为止,云它也不是一个单一的定义,所以我认为在这个时代一定会出现平台型的这种技术能力。但是它是什么?我觉得可能未来需要大量的时间去验证。它可能是一个模型即服务,可能就是API,也可能是一个预训练大模型你在上面做精调等等,都是可能的。但是这个是什么我觉得不重要。重要的是大家看到了一些希望,因为我们从事云计算的行业,去年的时候包括前年的时候,真是看到了各地很多公司都是去降本、增效、裁员等等。但今天看到了AIGC这波浪潮,所有人都振奋起来了。我觉得正当其时,这是我们非常乐于看到的经济复苏的一个很好的迹象。
所以从技术层面算力的迭代和成本的下降其实是加速了进程。接下来我们进入第二个话题,就是近期其实我们看到 AI大部分都是以大模型的通用能力这种形式出现的,垂直领域的AI相对来说比较少。所以大家是怎么看待通用领域和垂直领域的AI发展的?垂直领域、垂直场景是否有训练自己模型的必要性?
源码资本合伙人黄云刚:对这个问题我的初步的感觉观点是对大多数垂直的平台来说,或者是行业应用来说,是没必要自己做模型的。原因是一个是能力,通用的模型是有机会可能能把它支撑起来,另外反过来自己去做的成本很高,所以很多是没有必要的。然后反过来有一些比如做做一些微调,把数据留下来,可能就可以。比如说API的方式也好,如果足够开放的话,也可以在大模型上去做。当然有一些特别大的应用,它其实要么有两种情况,一个就是说大模型自己可能会去做,他不太放心用大模型,可能我自己需要做一个,这种情况是有可能的。比如在美国像Meta会不会用OpenAI和微软阵营的?我估计是不会,Google更是。所以比较大的应用可能还是会自己考虑,但这个也会看它的风险,包括成本、投入这些。但这里面的前提是,大部分通用的模型能不能解决的好,微调是不是足够?这是前提。但如果在这个技术问题解决之后,就是成本问题、性价比投入问题。
所以您的观点是通用大模型是能解决各个行业的一些垂直行业的特性问题的,其实也是可以解决的。
我觉得是有机会的,但是这个也看。就是因为现在的大模型还不够大,还不够多模态。狭义来讲现在大家说大模型还是说的是大语言模型,它解决的还是一些认知问题。很多领域现在是用不了的,比如说视觉上他都没怎么加,海外的OpenAI的plugin也是刚开始,他有很多东西没有解决好。
所以您的观点是大模型如果足够厚,有足够强的能力,其实各个垂直行业是没有必要做垂直模型的?
我觉得这也取决于大模型的能力,多模态叠加上去的速度。
格灵深瞳周瑞:我觉得垂直领域要不要做自己的模型是一个问题。在这个领域里边是否有足够量的跨模态的数据,它能够支撑去特化的做这样一个模型?所以这是第一个问题。第二个问题是说大的通用模型问题,我觉得即使要做一个垂直领域的模型,你很可能也要基于一个相当规模的通用模型来做。这可能是一个不是非常科学的比喻,我们来看一下人是怎么去创建自己的思维或者是推理能力的,实际上是因为你先有了通识,然后你才有了专识,这是一个迭代的过程。所以我会觉得垂直领域是有机会的,但是垂直领域的机会很可能还是来自于通用领域的进步,为垂直领域本身的数据可能不足以让你训出来这么大的一个模型。
所以您的观点其实行业专业模型也是有可能出现的?
我觉得在一些数据积累比较完善的行业当中是有可能的。
万兴科技张铮:我非常认同周总的观点,我们打个比方,我们从小学到初中,到了高中才是文理分科,到了大学才是学专业。我们认为现在大模型的建立和发展,可能目前应该还是在文理分科前,但是随着时间的发展到未来可能很快,也许这么两年、一年就要选专业了,文理要分科了,要选专业了。现在像我们这种小企业也搞不起,也没必要搞。投喂数据要花很多人力,然后物理就不说了,只有阿里这样的公司能做。但是我们放眼到未来,就像周总刚才说的,有些特别需要大数据的行业,比如说刚才说的电力、交通、水利、能源这些甚至视频,他都在抓取海量数据进行投喂、分析、生产,这样的话我们相信一定会以某几个垂直行业为先驱,一定会先开起来这样的文理分科的垂直模型。
第一是可能时间还需要更长的一个维度;第二,可能在一些数据密集型的这些行垂直行业,会率先有一些行业专用模型出现。
阿里云邓铁成:这个问题还是挺挑战的,因为从云计算厂商来讲,我们是希望看到百花齐放的。但是客观的说,如果定位到大模型这件事儿,我的观点跟前面几位是一致的,只有极少数的企业才有足够的资本,足够的人才的密度去做这件事情。但是如果是从垂直赛道的角度去看,那观点又略微有所不同。
首先你做垂直赛道的未必一定要有一个垂直赛道的大模型,有的时候可能比如说13B的模型可能是够用的,你至少能取代你原来靠知识图谱做的那些事情。所以我觉得是不是有垂直领域的模型的存在,一定要有的,但是不要盲目的去看这件事情,还是看它的商业化场景。
前几年大家争论比较多的互联网+和+互联网,有的时候到底是谁在前谁在后,这个东西还是很重要的。现在就是AI+和+AI。如果说你通过训练模型能达到一个跟现在的业务效果有明显差异的能力,并且有商业模式,就去做。如果你盯的就是一个特别窄的赛道,然后赛道可能全年的GMV这些东西可能都是一个很小的数字,十几个亿的这种都不要去看,不会有特别明显的产出的,这是我的观点。
实际上在某些行业,其实我们已经看到了有一些行业专用模型,只是没有那么大。比如说像电信行业的智能客服,它都有一定的通用性,而且本身这个行业也比较垂直,所有通过模型能够生成的这些自动反馈,其实都是具有行业特性的,而且它也有足够的数据量来去做训练。所以其实是一个特例。当然包括金融行业也是有着类似于这种智能客服的,尤其是放贷,包括信贷方面的这些训练的需求。实际上我们在某些数据量比较聚集的行业,其实已经隐隐约约看到了一些雏形,但是确实可能还需要更多时间。另外刚刚像邓总讲的一样,包括张总讲的一样,行业专用模型和通用大模型其实是有关联的,它这里面实际上是有API接口能够做相互的正向循环。
我们接下来再进入到第三个话题,刚才在分享过程当中,有几位老师也提到了AI应用场景的一些代表性的实践,大家是怎么去思考智能原生和大语言模型结合的应用前景,最终可能会呈现一个什么样的形态?大家觉得整个AI商业这个领域,它的护城河是什么?是数据、算法还是算力?这里面涉及到一个核心竞争力的问题。
源码资本合伙人黄云刚:我其实最近对一个领域挺感兴趣,叫个人超级助理。这类型的应用可能是原来想象不到的,在大模型出来之前也不知道从哪入手的,我去湾区才知道他们原来那么多人做了那么多的事情,但是其实体验还是不够好,大家就觉得那东西没用,但是今天大模型做出来之后,应该是有机会能够把这类型的应用做出来的,就刚刚所想象的一些场景,有可能替代。这种可能用刚才的词叫智能原生,就是说没有这么强智能的能力的时候是没机会的,有了才有可能。就像当年4G出来、5G出来短视频才真正的爆发,要不然这可能没有这个机会,这个是新的机会。对我们VC这样做投资的,天生感兴趣这种完全想象不到的机会,因为如果是现在这种行业性的产品,大家都看到的,大厂也会升级,就像今天早上肖老师说的全面升级,全面拥抱。那些创业公司机会在哪,或者说比其他人的机会在哪,这个是一个问题。
比如说到壁垒角度,今天很有可能的情况是刚刚周总说的,如果在垂直行业里面数据足够多的话,它滚起来数据飞轮也挺强的,有可能就是模型本身没壁垒,比如说大厂提供了或者某个大模型公司提供了,但他如果训的特别好,把产品做出来,他的体验有可能是能够拉开差距,而且越来越好。
所以今天的很多商业属性跟原来又有所不同,它对数据的积累的优势可能会比原来更大。这只是举个例子,当然还有别的一些特点。所以针对不同的行业可能又会不一样,所以我们会去分析。所以刚才讲的三类机会:现有公司增强;小公司把现有的产品颠覆掉,在看得见的领域里面;还有一类就是说完全想象不出来的。对我自己来个人来说,我是最喜欢最后一类。所以第二类就还会有竞争,大厂也有竞争,创业公司也会杀进来。第三类是大家都想象不到那种形态,纯凭创意或者说纯凭脑洞和愿景驱动去创业,这个是最有挑战的,但是做0到1的创新难,但它的创新的红利又很大,因为大家看不上。到时候看上之后就跟不上,这种是比较有意思的。
壁垒不是算力算法?
我觉得是这些都会体现,但最终的算力、算法、数据都会在产品和用户上去体现。比如说数据网络效应和用户的网络效应,他会把这个推得更全面,比如说以前移动时代打车、外卖,刚开始没什么技术壁垒,但到最后它的网络壁垒、用户的规模效应是很强的壁垒。
格灵深瞳周瑞:我们先说 Native APP。其实在我的想象当中,我会觉得说它是一个把更专业的能力,或者说我们平时用不到的一些能力,用更方便的方式呈现出来的一个过程。
可能微软的Copilot已经很好的解释了这个概念了,就是Excel我相信大家天天都在用,但是首先觉得都很难用,然后你也不会用是吧。但是不管怎样你都要用,如果有一个胶水,它可以把你的意图和Excel这几十年来攒的这些专业能力结合起来。你只要可能是输入了一张表,也可能输入了一句话,他就直接把这些计算结果,这些VB的script,这些乱七八糟东西帮你整理好好,不用编程了,对这个过程是这种有自己的归纳总结能力的和判断能力的软件才能够给你的。就好像 Google有一天说ok我就只有一个输入的搜索框,别的什么都没有。这一个网页它解决了很多人的问题,可能以后也是one box,只不过是解决的问题更加的复杂。
关于护城河的话,坦率的说我现在没有办法回答这个问题,因为可能性太多了,现在看不到,如果要草率的回答,我觉得可能是数据。哪怕是做一个GPT出来,你要收集这种网页给我的数据,也是要付出非常大量的工作的,他不是说我有钱把他们爬回来就行,其实分门别类的做好清洗干净,做好标签再去做很多工作,如果我们去细看它的工作流程的话,它非常的复杂。
将来是不是其实我就不知道了,也许有人整理好了,开放出来也说不定是吧?现在的它是什么?我其实感觉是想象力,不是算力,不是数据,也不是算法。微软那篇报告开篇第一句话就是一些我们不知道的东西在做了不起的事。
今天我们所有人都不知道他在干什么,我们只知道他就是很厉害,到底怎么和他一起去创造一些有更优秀的交互方式的应用出来,可能就是需要所有的人去在摸索中去探索去尝试了,现在其实能限制我们的只有我们自己,不是这个模型本身,因为我们现在还没有搞明白他为什么这么厉害。想象力加上足够的数据积累,可能就是未来会更加明确的一个方向。
万兴科技张铮:第一个问题不专业就不回答了,我们聊一聊二第二个问题,就是护城河的问题。我是做应用落地的厂商,要我回答肯定跟周老师是一样的,我们认为是数据。为什么?首先我们从一个我自己来看,为什么微软和谷歌可以干这个事儿,为什么国内阿里可以干这个事儿?当时知乎上有个高赞的回答说为什么腾讯还没干?他们说海外有个笑话,说当时为投喂 OpenAI的时候,说腾讯也想投喂,他说微信里面那些话投喂进去AI都疯掉了,看都看不懂了。后来它们投喂的是美国版的知乎的数据,然后才让AI产生了逻辑,产生了理解,也就是说这个数据本身对于AI的生成都很重要,这是第一个。
第二个,对于我们这种用AI来帮助用户去生产内容的应用软件厂商来说更加重要。它会积累在我们的产品的后台,来帮助到我们产品的改进。跟大家讲个例子就是抖音的,他们那边运营人员基本上都是各种算法工程师,根据在平台上跑的数据,自动判断今天我要创造的热点,主推的是什么,这样来跑。
如果没有一个庞大的数据量和后台,它是运营不出这样来的。也就是说抖音的成功,今天在国际上的成功,其实在后面都是数据和相应的算法。
阿里云邓铁成:我就先回答第二个问题,护城河的问题。我觉得从国内的现状来看,短期是人才,因为我们最近看到了很多涌现出来的自建大模型的一些创业公司,第一件事就是强人,别的都不重要,因为懂NLP的,在懂大模型的,懂强化学习的这些交集之后,人就很少了。而且还得找这种意愿和公司的方向和他个人的发展方向相一致的。多种的约束条件导致了这件事情门槛是比较高的。如果中期来看,我认为其实是资本和数据,为什么这么讲?你有了一个应用去推广,推广也是需要成本的,今天最好的结果是说有一个产品技压群芳,别人都搞不定,然后有明显的一个代差。但是如果是一个混沌状态的话,有可能这个时候需要一些你的运营,但我不知道因为为什么这么讲,因为现在缺乏统一的标准,我们很多客户也在做一些测试,包括我个人也测过一些其他的偏主观的东西。我觉得就有可能是有偏差的,你觉得它好,另外一个人觉得第一个不错,有人觉得第二个不错,所以我觉得这两个谁多谁少不一定。
但是我认为数据和资金这两个可能是一个互相螺旋上升的东西。长期来看护城河我认为是智能化程度,自动化程度。你数据多不一定有用,因为你训练出来他可能天天学的都是一些没有营养的东西,或者是他学偏了都是有可能的。智能化程度我觉得是未来可以评估的一个标准,但是很遗憾还没有这个标准,但我认为将来会有这个标准的。
这是针对第一个问题,刚才前面也提到了这个算力什么的,我觉得算力这个东西短期内它可能也不叫护城河,它是影响你效率的一个东西。你比如因为现在大家知道一些众所周知的原因,国内的GPU其实是非常欠缺的,但是我认为它是个状态的过程,过一段时间比如说半年之后或者多长时间之后,相对来讲会缓解,它不是一个决定性的因素,但是算力之上的工程化能力,这个东西是有差别的。
一样我给你一个比如说100的集群,我们了解到的实际情况,有的可能利用率连15%都到不了,有的能跑到40%。这个不是说有机器就行了,前面也讲了很多技术上的一些东西,不是说你去英伟达把最好的卡把所有的IP这些东西买到它就已经好了,这里边还是有很多工程化的能力的。我觉得工程化能力一定是中国的AIGC的企业将来成功的一个核心能力,它不叫护城河,但它一定是个核心能力。
然后再回到第一个问题,我最近也有一些思考,我觉得智能原生现在大家有各种各样的一些想法,我们也经常接受各种各样的客户的想法,坦白说大家的预期有一点点高,我觉得怎么样去思维可能更好一点。
第一个,在这件事情有专家和小白或者是普通的入门级的,对比如说前面咱们讲Copilot其实给一个Excel、PPT特别强的人,他三两下就搞定了。但是一旦在使用者有相对来讲小白的存在,他就可以用AI的能力快速的提升自己的效率,达到类似的效果。是凡有这种场景的,我觉得都可以去思考。AI原生至少在这个方面我认为是没有问题的。然后大家还要理解其中的一个比较强的概念就是强化学习。如果基于强化学习,不断学能变得更好的事情。
未来几年以后AIGC会走向哪个方向,AI产业还会有哪些变化?
源码资本合伙人黄云刚:这个话题其实感觉很大,这话题走到什么行业里去,我的理解就会渗透到各个行业去,可以在前端交互,比如说toC的应用去做渗透,也可以在供应链体系里面帮助商业去做智能决策,甚至订货甚至订原材料,因为它有很强的分析和判断能力。这个是未来会延展出来的,所以我是非常乐观,尤其是去了硅谷回来之后,信仰彻底被建立了。
那边现在还这么热吗?
还挺热的,但是他们那边热是去年就开始热,所以大家是相对理性的热。我们这儿是属于对可能真的好像没事干,然后突然有个事可以干,就一下子就热了。这个只是那感觉不一样,但其实热度的绝对高度,这个海拔可能差不多。
格灵深瞳周瑞:我觉得未来其实就我自己能看到的是说人机交互的方式将会被彻底的改变,那可能我们所有的应用,所有的工具,在未来的一段时间里边,他都要完成一个重构,都需要更加的智能化,更加的善解人意。放到更大的意义上来讲,就是一些更加有效率的或者叫做生产力更高的工具,一定会是未来很重要的一点。现在我觉得可能每个人都要学会怎么去跟这样子一个智能系统去相处,然后才能获得更大的回报。
万兴科技张铮:讲行业和未来可能我就聊聊我们公司自己。在我们公司电子屏上面挂了一个海报,是什么?就是比尔盖茨在前几天在他本人的博客上面发的那句话,就是企业对AI的应用,将会成为未来发展与否,发展好与坏的一个分水岭,大概就是这个意思。
因为盖茨这哥们历史上也是放过很多大炮的。对于这种软件和未来这一块,其实我们还是蛮信盖茨哥的,所以在这一块我们公司自己内部也展开了讨论,就是说从市场营销到研发到运营管理方面等等如何应用AI。这种讨论我觉得其实对于我们企业本身的运作还是非常有帮助的,我们不能太快,然后慢又怕捞不上。所以也是展开落地的讨论,这是我们公司放眼到外界的话,我觉得可能还是要听更多的这种平台厂商的想法和意见,我就说一下我们公司。
阿里云邓铁成:这个问题有点纠结,可能会很好,也可能快速的褪去。因为更多的人其实是因为看见所以相信,而不是因为相信所以看见的。所以我可能悲观一点,未来可能会有一些在赛道上现在跑的比较快的或者是比较激进的,他会放慢自己的脚步。但是从更长期来看,我觉得对AI赛道的创业也好,对思维的模式的转变也好,会更理智。
--END--
本文转载于国君计算机 计算机文艺复兴,仅供交流讨论
[注:本文部分图片来自互联网!未经授权,不得转载!每天跟着我们读更多的书]
互推传媒文章转载自第三方或本站原创生产,如需转载,请联系版权方授权,如有内容如侵犯了你的权益,请联系我们进行删除!
如若转载,请注明出处:http://www.hfwlcm.com/info/22307.html