
新闻资讯
News and information
-
24
12/06
AI编程在硅谷杀疯了,但国内还长得出自己的Cursor么
出路在哪里。2024年夏天,经历了3次重大功能更新和40余次功能迭代之后,AI代码编辑器Cursor在北美制造了一场程序员狂潮,并且也随即成为大洋彼岸中国程序员们的编程工具首选。面对强大的GitHubCopilot,Cursor带来的交互方式的变化、使用体感上的创新、对整个程序文件全局补全代码的能力、虽由OpenAI孵化但基座模型弃GPT4而选Claude的决策、快速拿下3000名各领域客户的成绩、以及早在8月就达到的4亿美元估值,都让它成为科技圈热议的焦点。Cursor甚至都不是硅谷第一个走红的AI编程产品,更不是最后一个。今年3月,“AI程序员”Devin引发行业广泛关注,仅5个月后,另一家名为Cosine的AI初创宣称,他们全新推出的AI程序员Genie测试表现远超Devin,8月,集成了AI的强化型代码编辑器Cursor迅速成为顶流,作为VSCode的衍生版本,它在继承VSCode优势的基础上,全面融入AI功能,极大简化了软件开发工作流和编程过程,在它之后,Magic、Bolt、Replit、Supermaven纷纷成为AI编程明星公司的代表,他们各自擅长不同的方向,Supermaven重上下文本长度,Bolt、Replit在工作流上做了更多延展,不仅能设计代码的整体结构,还能够对代码作出全局修改,甚至超出了Cursor的能力边界。据报道,这些公司的总融资额早已超过了22亿美元。AI编程在硅谷逐渐成为最性感的AI赛道,10余家今年活跃的AI编程初创中,已有7家成长为独角兽。然而,与很多领域的“追逐”不同,在AI编程公司席卷硅谷的同时,国内却基本上没有听到过AI编程初创公司的大消息。一位前沿科技领域主流VC的投资人告诉硅星人,其实国内去年一下子也冒出了多家AI编程公司,他们当时梳理完曾经有十四五家。“那些创业团队都在编程赛道上想各样东西,比如代码搜索,比如面对论文进行编程,比如做代码注释,或者代码修复,还有一部分在做纯代码生成,完全对标Cursor。”他称。“但问题是,水平差了很多。”他形容,总体而言这些团队做得代码生成,程度不深。硅星人了解到,去年奇绩创坛投了六家AI编程领域的初创,此后几乎全军覆没,而去年10余家曾短暂浮出水面的代码类团队,今年大部分已经退场。对标Cursor,现实骨感“水平差了很多”的问题,其实是个AI行业常见的问题。在基础模型上,在Chat类的AI应用上,其实都存在中国公司追赶美国对手的现状,但事实上这些赛道还是有融资发生,投资人也能在市场逻辑上自洽。但AI编程有一个很大不同,就是——面向开发者的AI编程产品没有国界。这与那些面向企业的知识库问答助手等产品都并不一样,因为语言、生态等方面的差别,中国和美国差异很大。据硅星人了解,面向企业的知识库问答助手,面向中国和美国客户,面向中文与英文的版本差异堪称巨大。“美国先做出了好产品,国内开发者都会去用,没有太多门槛”。来也科技CTO胡一川指出。于是,水平做得太浅在AI编程的赛道上,就成了第一个问题。达不到Cursor、Bolt、Magic等新贵的身位,这个硬标准如果不能启及,在许多中国投资人眼里,再好的团队也不能吸引到投资。有AI应用团队联合创始人表示,海外市场目前很多类似Cursor的明星产品跑出,本质上是美国资本市场对这类——用海外最好的大模型(Cursor用的是Claude)直接做插件,做成Agent的编程产品非常buyin。客观而言,在模型层面,国内似乎不缺乏比肩GPT4的模型,然而问题似乎不在这里。因为哪怕是同样基于海外模型,目前很多应用的产品完成度和能力都依然欠缺。于是,当国内投资人看AI编程赛道的一个共同逻辑是对标Cursor时,就自然下不了手。上文提到的AI应用创业者表示,他经历过几十次非常类似的交谈,但发现投资人们最终认为,“这个标准国内产品是达不到的”。“现阶段在海外能解决这种IDE生态问题的中国团队尚且看不到。”AIGCodeCEO宿文表示。IDE指的是集成开发环境,指用于提供程序开发环境的应用程序,包括代码编辑器、编译器、调试器和图形用户界面等工具,如微软VS系列问题。他认为,目前中国公司们哪怕想在海外实现Cursor这样的“插件逻辑”,也是遥遥无期。当在技术本身落后时,中国投资人过往的一个常见逻辑是,我们有更大的市场和应用场景,商业化上可以快速跑起来,进而带来应用上的弯道超车机会。然而在AI编程上,商业化的环境也没有比海外好到哪去。“投它(AI编程)就是因为其赚钱。”常驻硅谷的AminoCapital合伙人徐霄羽表示,AI编程火爆于硅谷,背后原因是PLG(产品驱动增长)SaaS模式在整个海外是成立的。徐霄羽发现,她们机构最近3年投资的初创公司,发现并找到PMF的生成式AI公司,比没有生成式AI驱动的公司能节省一半时间达到1000万美金ARR(年度经常性收入),这虽然不能帮助这些公司日后成为谷歌,但足够发展成一个小独角兽体量,其中最典型的例子就是2016年成立,今年跃升成为编程界新贵的Replit。但事实上,哪怕在硅谷当红编程工具如GithubCopilot、Cursor和Bolt,在现实中的产品状态也没有达到强付费点。构建自有编程模型的另一家新贵Magic,甚至都没有发布正式可用产品,他们仍解决存量场景下的存量程序员需求。国内的付费道路更在最早期。国内2BSaaS生态因利润率低不赚钱,因复杂环境成因不起势已是老生常谈,就连李开复日前都说“现在还没有SaaS订阅的妄念”。而且,AI编程很重要的目标群体是互联网公司的程序员们,但大厂倾向于团队自己做生产工具。公开信息显示,阿里云、字节跳动、华为、百度内部都有成熟的AI编程业务,这些业务服务于内部,让外部的创业公司少了很多市场机会,同时这些业务在市场成熟的时候也很可能转身入局,对外提供服务,像当年钉钉与飞书的历程一样,届时创业公司的空间也会进一步被碾压。寻找出路:有人找独特的市场机会,有人认为还是要硬碰硬刘罡是国内最早关注AI+行业方向的风险投资人之一,依循阿尔法公社的“投人不投赛道”的逻辑,作为合伙人的他很早走访到几家很有潜力的AI编程团队,包括其中一家编程方向的项目,团队资质良好,有不错的产品,项目针对B端企业和开发者,但付费很成问题,他们曾找到少数大B客户做私有化部署,但总体“说白了收不上钱”,勉强维持但无法实现快速发展。这一团队于2023年下半年陷入困局,今年伊始,他们坚决转型进入全新领域,开始有了一些不错的营收和业务增量。北京大学长聘教授李戈耶是国内这一赛道最早的闯关人。两年前他创立了aiXcoder,早于ChatGPT问世之前,李戈用比较传统的编程方法孵化这一项目,在IDE(集成开发环境)里做插件,做代码补齐,有些类似经典的知识图谱。2023年起,aiXcoder调转船头拥抱大模型,做大B端和2G端生意,接连获得了几家银行和国企商单,年中预测今年会有6000万左右的营收,和近10亿人民币左右的市面估值。还有高瓴、清流资本和一家汽车产业链基金的加注。“这是中国特有的机会,国内有很多大型公司,自己有比较大的开发团队,它们需要AI编程的辅助,但又不可能用GitHubCopilot或者Cursor这样需要连接云端大模型的产品。“胡一川认为。当下国内绝大部分头部银行、保险公司、和金融行业里的大型企业,都拥有异常庞大的开发团队,小则几千,大则上万,他们的共性是希望运用先进的AI工具和技术,但不太可能使用互联网上的编程工具,出于安全考虑,必须使用一款能在环境里做本地化部署的AI编程整工具。这不仅是AI编程一个赛道的特性,还折射出整个大模型ToB落地的新趋势。胡一川认为,目前很多客户要的不仅仅是你的模型本身,或者AI编程软件,要的是软硬一体化的方案,“要这个东西做本地化部署,需要选择什么样的GPU,怎么在GPU上做训练和推理,怎么高效使用GPU,都需要厂商具备很专业的服务能力。”总之,“AIcoding这里面的角色从设计到开发到测试到发布都有,新的公司想继续走这条路,竞争是非常激烈的,除非他找到了一个非常独特的群体,或者非常垂直的领域,一些通用的产品解决不了的问题,它能够解决,才可能会有机会。”胡一川说。这的确是一种生存思路。最近原月之暗面视频生成产品Noisee负责人明超平离职,他创业的项目也是一家AI编程公司,据硅星人了解,这家公司是走轻量级类似Websim的产品路线,瞄准游戏等场景,(Websim是款仅通过文字描述就可以生成网站的网站,可以生成小游戏和一段音乐,由OpenAI、Anthropic等大模型驱动,如Claude3.5Sonnet和GPT-4o),暂时没有自己的专属模型,要走比Bolt还轻的产品付费路线。与此同时,还是有新的创业者“不信邪”,认为最终的出路还是要与海外最强的产品“硬碰硬”,在能力和模式上通过创新来获取自己的机会。AIGCode的宿文是其中一员。他表示,一些AI编程国内企业做的大量工作是代码测试和代码修复,这都只是进入到了编程赛道,但不算真正在做深度代码生成。“这个真正的工作像吃肉,需要放弃边角料”。他此前在华创资本做投资人。2021年3月离开华创之后,保留了投资合伙人的身份,但几乎是全职投入了创业模式,最终他在今年1月创立AI编程公司AIGCode,获得了两轮融资AIGCode的产品是一个端到端的Autopilot工具,有自己“pre-trainfromscratch”的通用模型,想对标poolside、magic,做大模型时代的产品发动机。宿文告诉硅星人,他把端到端做代码生成定为自己20多人团队的工作方向。“20多人搞不定的事儿,200个人也搞不定,这个赛道的技术人才是非常有限的,有几个人做过预训练又有多少人做过先进且创新的软件架构呢?”20人的规模与他对标的竞争对手,美国AI编程初创Magic的体量相当。从模型和软件架构上去做代码生成,做端到端完成任务的编程工具,并训出自己的模型,与应用垂直结合,最终接管APP工厂里的多个职能,这种端到端完成任务的编程方式,是宿文眼中在编程领域能脱颖而出的唯一方法。在链路管线上分工明确的硅谷,端到端没有必要,但在中国的开发与B端环境里,端到端可能是更符合市场需求的模式。“只有端到端的代码生成或者片段化的代码补齐叫做AI编程”。但这也要求你真的可以做得比硅谷新贵们流程全,做得水平比他们还好。这显然并不容易,和其他同行一样,市场和投资人给他的时间窗口也是有限的。一切都需要加速进行。宿文表示,自己的团队已经把很多先验性东西跑完,目前处于往产品上补全功能覆盖度的阶段,并于最近开启了产品内测。“付费点没到之前,最好的办法是先让用户起来,让产品出来,这个赛道就像南北坡爬山,Copilot已经从北坡先爬到了大本营,我们在南坡还不一样,但大家最终都能登顶。“宿文说。本文来源:36氪文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
12/06
OpenAI进军浏览器,AI正在消灭“网页”,浏览器怎么活?
物竞天择,适者生存。ChatGPT之后,AI改造软件就迅速成为了全球的共识,「人工智能将从根本上改变每个软件类别,」正如微软CEO萨蒂亚·纳德拉所言,而浏览器作为最重要的软件之一当然也在其中。甚至,OpenAI可能也要来了。TheInformation在最新报道中就披露,OpenAI打算开发一款自己的浏览器(Browser),来与Google旗下的Chrome硬碰硬。坦白讲,这条新闻并不让人意外,考虑到OpenAI已经推出了ChatGPTSearch,还有独立客户端(Windows/macOS),就算推出浏览器也是顺理成章的一件事。图/OpenAI问题是OpenAI要打造一款什么样的浏览器?是和大家一样基于Chromium,还是基于自家的ChatGPT客户端?是传统意义上的网页浏览器,还是基于AI问答的全新浏览器?目前来看,短时间内我们还很难期待OpenAI正式推出自家的浏览器,也得不到上述问题的答案。但不管如何,浏览器很重要,时至今日依然是无数人通过互联网看世界的重要窗口,尤其在PC更是最重要的窗口,没有之一。浏览器的AI化,自然也是题中应有之义。(编者注:本文提及的AI化,主要代指ChatGPT之后以大模型为基础的生成式AI化)AI浏览器,才走出第一步作为一种产品,浏览器完全称得上「古老」,基本伴随了整个互联网行业的成长过程,从网景和IE浏览器的王朝更替,到Chrome和Firefox的双子星崛起,再到今天以Chrome为首的一超多强。但与之相对,AI浏览器还只能说是「初生牛犊」。今年1月微软Edge在主流浏览器中率先打出了「AI浏览器」的口号;随后的3月,360创始人周鸿祎也在一场直播中发布了号称AI化升级的360AI搜索和360AI浏览器。图/360不只是Edge和360,今年以来AI化已经成了浏览器的共识。就连一向步骤缓慢的Chrome也没有按耐住AI化的步子,由主导开发Chrome的现GoogleCEO桑达尔·皮查伊在年初宣布引入生成式AI能力。AI化的浏览器带来了体验上质的升级吗?很可惜,还没有。目前来看,大部分所谓「AI化」的效果基本等同于按照一个AI功能插件的效果,以侧边栏、悬浮窗为形式,以网页总结、AI聊天、AI生成文本/图片等功能为主。不能说这些功能没用,但实际带来的体验升级有限,与浏览器的结合也不够深入,完全可以通过安装一个ChatGPT插件、豆包插件、Kimi插件来实现。图/夸克而另一方面,浏览器上变化最大的AI搜索,实质上更接近一个独立的产品和服务,脱离浏览器也完全服务用户,所以这里先按下不表。当然浏览器的AI化也不全如此,比如Chrome年初宣布引入的生成式AI能力中,就专门提到了「标签管理」的AI化,可以运用生成式AI的能力将所有标签页进行智能分组。包括新创浏览器公司TheBrowserCompany,在2月发布的「第二幕」(ActII)更新中甚至为Arc更早加入了类似功能,一键就能用AI组织标签页——根据网页内容自动分门别类并且重命名。此外,作为AI化可能最激进的浏览器,Arc还利用AI实现了搜索直达、书签和下载文件的智能重命名等。但这是少数,大部分浏览器的AI化还停留在表面上,更多还是营销考虑以及FOMO(害怕错过)心态带来的动作。另一方面,浏览器厂商还在进行各种探索和尝试,这些都是需要时间的。不过有一个问题却是浏览器需要共同面对的:如果Web再死一次,浏览器要往哪走?AI正在彻底杀死Web2010年,克里斯·安德森(ChrisAnderson)在《连线》杂志上发表了一篇影响深远的文章——《Web已死,Internet永生》,其中最核心的观点就是App对于网页的大规模冲击。2010年前后,在从桌面设备(PC)转向移动设备(手机)的过程中,互联网用户的内容消费习惯已经呈现出现了明显App化的趋势,开始慢慢习惯用一个个App而非通过一个浏览器浏览不同Web。不过后来的事实证明,Web确实受到了App很大的冲击,但依然有相当部分的消费者使用浏览器浏览网页,尤其是在PC上依然坚挺。另外,还有不少浏览器延伸出了小说阅读、资讯等服务,来吸引和留住用户。但如果说浏览器的本质是浏览网页,那当用户不需要浏览网页的时候,还会需要浏览器吗?图/夸克这是生成式AI时代面对的一种可能,关键变化在于AI搜索正在直接生成答案,而不是引导用户跳转链接去到一个又一个的网页。简言之,如果越来越多用户满足于AI搜索生成的回答,没有必要浏览一个个网页,传统浏览器关于标签页、书签、扩展程序以及关于网页浏览的大部分设计、功能慢慢也就没有了用武之地,「浏览器」这类产品自然会逐渐失去本身的意义。如何面对这种可能?不同玩家有不同的答案。AI正在让浏览器「脱胎换骨」10月,Arc浏览器开发商TheBrowserCompany宣布了一个大新闻——停止Arc浏览器后续的功能更新,未来只会进行基本的稳定性维护。与之相对的是,他们将启动一个全新的项目,CEOJoshMiller坦言:「说实话,我们甚至不确定它能不能称得上是一个网络浏览器。」图/TheBrowserCompany唯一肯定的是,新项目依然聚焦网络浏览,但却是从头开始基于大模型驱动,而非像Arc一样「半路出家」。至于新品到底是类似ArcSearch(移动端)的AI搜索,还是基于问答的全新形态,还要拭目以待。总之按照规划,这家集齐Chrome创始成员、Safari前首席设计师的新创公司将于明年春季发布这款全新的「浏览产品」(姑且称之)。不过相比推倒重来,更多厂商不太可能放弃已有的品牌认知,也不想太过挑战用户的习惯。但即便是在原有浏览器产品形态的基础上进行改良,不同浏览器厂商的判断、能力也有所不同,带来的结果和体验也会有很大的差异。一个核心是大模型。相比大部分厂商没有大模型自研能力,只能选择接入第三方大模型,少部分厂商如夸克、豆包、Kimi拥有自研大模型,有利于实现从底层大模型到应用层的垂直整合,并且根据AI技术的进展、用户数据和反馈快速地进行产品迭代。同时夸克、豆包以及Kimi这三家,在桌面端产品上都不约而同将「AI搜索」——现阶段可能是AI改造最重要的软件类别,视为核心。但除此之外,夸克或许是沉淀了更多产品经验和对用户需求的了解,没有局限于AI搜索以及网页总结等主流AI功能,还集成了一整套信息处理和生产的AI工具,包括AIPPT、AI简历、AI搜题等。图/夸克写在最后时间临近2024年的年尾,AI改变世界的进程仍然存在不少不确定性。包括OpenAI联合创始人、前首席科学家IlyaSutskever在内,一批顶级AI技术专家看来,基础大模型的智能涌现已经碰到了瓶颈。但尽管如此,AI对于浏览器的影响已经不言而喻,几乎所有还在更新维护的浏览器产品,都在围绕AI加入新的功能甚至交互设计,甚至重新改造搜索的体验、获取和处理信息的体验。正如达尔文在《演化论》中反复论证的观点——「物竞天择,适者生存」,AI正在底层改变我们获取信息、处理信息甚至生产信息的方式,而作为我们通过互联网获取信息最重要的窗口之一,浏览器必须适应时代的变化、重新改造,才可能不被用户抛弃。本文来源:36氪文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/28
让AI“上天”“入地” 大模型如何打开未来世界
将大模型和生成式AI送到普通人手里,让大模型触手可得。从ChatGPT问世至今,已经过去2年。大模型和生成式AI带给人们的,除了无限畅想,还有理想与现实的差距。即便AI手机、AIPC、AI汽车相继问世;即便随便打开一个大模型,让AI搜集一些资料、扩展一篇文章,已经“SoEasy”,但大多数人仍觉得“不解渴”。用一句话总结,人民群众日益增长的AI理想与AI现实之间存在巨大矛盾。那么,如果从专业角度,该如何评价过去两年大模型和生成式AI的发展?“AI先生”李彦宏11月12日做了总结:“大模型最大的变化是基本消除了幻觉,回答问题的准确性大大地提升,变得可用、可被信赖。”同时,他认为智能体是AI应用的最主流形态,即将迎来爆发点。消除幻觉的一个标志性产品是百度自研的iRAG,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,没有了幻觉,少了AI味儿。比如车企可以用iRAG生成宣传海报,还原真实的车型,再也不用画几十万去拍摄了。再比如马斯克在故宫旅游,不仅马斯克和故宫都能精准呈现,还能将人与场景非常自然地融合在一起。作为国内大模型和生成式AI参与国际竞争的种子选手,百度在AI领域的进展值得关注。11月12日的百度世界大会上,李彦宏就重点介绍了百度大模型和生成式AI的当下进展以及未来空间。陡峭增长,日调用量超15亿北京上班的小徐,最近尝到了AI的甜头。因公司设计人员不多,且集中精力备战双十一,给领导做PPT的任务就落在他头上。可他只擅长文字工作,制作PPT是短板,心里犯怵。经同事点拨,他知道了百度文库可以一键生成PPT,将发言稿全文上传后,就能生成个七七八八,再更换下配图、调整下文字图片大小即可。这可帮了他大忙,接到领导这样的任务,他再也不担心了。百度文库的一键生成PPT功能背后正是百度文心大模型在发挥作用,小徐的每次使用,都需要调用一次大模型。除了制作PPT,用户每一次在百度App搜索智能体,每一次在文心一言问答,每一次用文心一言生成图文都会调用文心大模型。除了C端用户,B端企业用户的数字人、智能客服等每一次服务用户,也都会调用一次文心大模型。这个调用量规模有多大呢?李彦宏透露,截至11月初,百度文心大模型的日均调用量超15亿。这足以表明大模型已经深入用户日常生活。更值得关注的是,日调用量增长的速度。李彦宏表示,百度内部曾讨论大模型的未来,“怎么才叫成了”。他当时说,如果文心一言大模型日均API调用量,一年之内涨10倍,从今年5月初的2亿到明年5月涨到20亿,就认为成了。因为这说明,大家是真的需要。而目前,仅半年过去,就超过15亿,逼近20亿,这条超出百度预期的陡峭增长曲线,正是中国大模型应用大爆发的缩影。此外,文心一言用户规模达到4.3亿。AI从量变迎来了质量时刻。AI需求侧的爆发式增长,离不开供给侧的持续迭代。比如,百度研发了“理解—检索—生成”协同优化的检索增强技术。检索增强是大模型去幻觉,增强答案可靠性的主要路径,即用海量搜索信息指导内容生产,提高准确度。再比如,服务程序员的智能代码助手文心快码升级至3.0版本,不仅功能开发、代码测试、问题修复等能力有所提升,还能实现多个智能体流水线协同,进一步提升程序员工作成效。面向产业端,百度构建了文心大模型矩阵,包括ERNIE4.0Turbo等旗舰大模型、ERNIESpeed等轻量模型,以及基于基础模型生产的系列思考模型和场景模型,满足不同应用的需要。当然,这更离不开百度AI先人一步出发。ALLinAI到李彦宏获评AI先生,百度几乎是国内唯一持续多年在AI领域做投入、开源、人才培养、生态共建的企业。10多年来,百度为人工智能和自动驾驶研发投入超过1700亿,聘请2024物理诺奖得主辛顿、吴恩达、DarioAmodei等全球科技领军人物,使得百度在大模型领域成为真正的扛旗者。打开多个增长通道AI正在重塑百度。除了大众知道的百度将旗下产品全部AI化以外,文心大模型还在至少三个维度为百度提供新的增长动力,由内到外改变这家公司。一是智能体。这被李彦宏看作是AI原生时代,融合内容、信息、服务的新载体,类似PC时代的官网,移动时代的自媒体账号。与智能体紧密相关的是百度的搜索业务,以前用户百度搜索之后的结果页是官网或者其他SEO之后的内容,如今得到的更大概率会是智能体。有何区别呢?以往,用户在百度App搜索比亚迪,通过首个结果进入比亚迪官网,自主浏览、查看。现在,搜索结果第一条是比亚迪智能体,变成了一个类似生成式AI的互动界面。用户可以问某款车型信息,多款车型对比,或者线下门店信息等,智能体可第一时间生成答案,告知用户。这种模式下,品牌与用户的链接更精准、高效。在百度看来,搜索是智能体最大分发入口,智能体的爆发会使搜索成为AI时代的第一入口。数据显示,截至2024年11月,百度文心智能体平台已经吸引了15万家企业、80万名开发者入驻。越来越多的智能体出现,将彻底改变原有的搜索体验,为百度赖以起家的搜索业务带来新的合作模式、盈利模式,打开新的增长通道。二是百度智能云。近几个季度,百度智能云营收增长强劲、持续盈利,正是与大模型绑定的结果。因为大模型,解决了企业客户在AI时代的需求,带动了模型构建、算力消耗、接口调用等需求,并帮助企业客户催生了AI原生应用。最初,云服务是解决企业客户信息化、数字化的成本问题、效率问题,更多属于CTO决策的范畴。后来,各个云服务厂商增加了行业解决方案,将云服务深入到企业经营管理各方面,涵盖了生产、销售、服务、管理等多个环节,帮助CEO解决问题。在AI原生时代,企业客户迫切需要借助大模型工具,实现自身业务的重构。文心大模型与百度智能云结合,让企业客户应用AI、大模型的门槛降低,不仅仅是成本,还包括人员组织等多维度。为实现这一步,百度在文心大模型旗舰版的3.5和4.0版本基础上,推出了5款轻量级/特定模型、AI原生应用开发工具AppBuilder等,帮助企业更低门槛、更高性价比的进入AI原生时代。目前。百度智能云千帆大模型平台已帮助客户精调了3.3万个模型、开发了77万个企业应用。百度智能云也成为中国最大的大模型产业落地云,60%以上的央企,以及大量的民营企业,都在联合百度智能云进行AI创新。三是自动驾驶。自动驾驶是百度面向未来,需要长期培养的增长点。在大模型的加持下,百度自动驾驶技术迭代更快,商业空间更大。今年,百度Apollo发布了支持L4级自动驾驶的大模型ApolloADFM(AutonomousDrivingFoundationModel),可以兼顾技术的安全性和泛化性,做到安全性高于人类驾驶员10倍以上,实现城市级全域复杂场景落地。门槛越低,商业版图越大纵观百度大模型近两年发展,明显朝着“上天”“入地”两个方向发展。“上天”是不断优化大模型技术,持续迭代,提高竞争壁垒。不论从专利数量还是应用规模,百度在大模型领域都走在全球第一梯队。前不久,沙利文发布的《2024年全球AI生态全景概览》中,百度与谷歌、OpenAI等位于AI-NativeGiant(AI巨头)同一序列。“入地”是百度在不断降低大模型应用成本和门槛,让更多人触手可及。除了各种开放平台、开发工具,百度还亲自下场,为高校、企业培养了数百万的AI人才,让AI普及的速度越来越快。本次百度世界大会再次体现了这两点。李彦宏在会上发布了两项新技术。一是iRAG技术。回顾过去两年,李彦宏认为,文字层面的RAG(检索增强生产)已经做得很好基本让大模型消除了幻觉,即用户跟大模型一问一答,大概率能得到用户想要的答案。但在图像等多模态方面,还存在较大幻觉,比如让大模型生成一张某历史人物在某景点的照片,还是存在“一眼假”的情况。要么是事实性错误,如人物张冠李戴,要么是画质“机器味儿”太重,缺乏真实感。?针对于此,百度开发了检索增强的文生图技术iRAG(imagebasedRAG),将百度搜索的亿级图片资源跟基础模型能力相结合,可生成超真实的图片。这项技术拥有广泛应用场景,比如过往汽车品牌要拍一组海报大片,动辄要大几十万,应用百度iRAG,可立刻生成,且成本几乎等于零。这是百度不断“上天”,向技术高峰攀爬的行动。当天,李彦宏还重点介绍了计划明年一季度上线的无代码工具“秒哒”,是百度不断降低大模型门槛,“入地”的体现。“秒哒”可以说,满足了大多数人对于大模型和生成式AI应用的想象,即不需要懂编程,只需要说出想法,AI就能实现和生产所需要的应用。具体如何实现?用户只需对准秒哒用中文描述需求,如需要搭建一场活动的在线报名系统,并上传活动时间、地点等信息。之后,秒哒会自动调取多个智能体、多个工具,实现程序的开发、BUG检查、视觉设计等工作,完成报名系统的开发。也就是说,只要有想法,你就可以心想事成,这也将迎来一个前所未有的只靠想法就能赚钱的时代——点子时代。当一个复杂的事务变得简单化,将是其走向千家万户,占领大众市场的开始。比如微软的可视化桌面系统取代Dos系统,让普通人可以使用原本复杂的计算机。而“秒哒”的落地,意味着将开启一个全新的点子时代,这才是AI真正的价值所在。“秒哒”正是这样一个工具,让每个人都变成程序员,将极大提高AI原生应用的生成效率,带来更多智能体,进一步繁荣AI生态。而百度作为这一生态的主要创建者,未来的获益无需多言。【结束语】作为全世界最成功的快消品之一,可口可乐的成功有其独特配方、成功的营销,还有重要的一条,即建立了全球最大的饮料分销系统。2019年其已在200多个国家建立超30000万个销售网点,覆盖了全球约60%的零售店。这样的结局是,世界各地的人们触手可得可口可乐。当前的百度正在做类似的事情,将大模型和生成式AI送到普通人手里,让大模型触手可得。AI的普及和商业化自此打开,百度更广阔的未来世界也被打开。本文来源:R艾瑞网文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/28
低代码赋能企业数字化转型:数百家软件公司的成功实践
在当今的软件开发时代,以新技术助力企业数字化转型已经成为一个热门话题。如何快速适应技术变革,构建符合时代需求的技术能力和业务模式,成为了软件公司必须面对的课题。在这个背景下,低代码技术是如何赋能软件公司,助力软件公司实现业务腾飞?本文将从低代码时代软件公司面临的机遇与挑战入手,分享低代码转型的最佳实践:确定转型战略、探索转型路径以及打造组织能力,助力软件公司实现破局。低代码产业高速发展过去五年来,低代码开发成为软件开发技术的一个热门领域。IDC、中国信通院、艾瑞咨询、低码时代、爱分析等众多国内外研究机构对这个领域非常关注,发布了近百份研究报告。根据这些报告对低代码发展趋势的预测,2023年到2025年中国低代码产业的增速在35%-65%之间,是中国软件产业增长速度的3到5倍,低代码技术正在进入应用普及阶段。企业对低代码技术的实际需求验证了专业机构的预测。我们分析了国内中大型组织在招标中提出对“低代码技术”的需求,根据国内五家重点招投标网站上发布的信息,从2022年到2023年共有411条(去重后)与低代码相关的招投标记录,金额普遍在50万以上,仅仅这些企业在低代码上的投资就已经达到了数亿元规模。同时,从时间维度看,低代码需求呈现显著的增长趋势,从2022年上半年到2023年下半年,招投标的数量增长了8倍。(越来越多中大型企业采购“低代码平台”进行应用构建)开发者对于低代码技术的关注度如何呢?我们选取了搜索指数这个维度进行研究。从2019年至2023年,低代码技术的搜索指数从初始的0搜索量,增长到热门技术JavaScript搜索量的25%,这表明低代码技术已经成为开发者关注的一个热门话题。(“低代码”一词的搜索指数与JavaScript相比较)行业专家、企业用户以及开发者纷纷将目光聚集于低代码技术,显示了低代码技术的巨大发展前景,也预示着低代码将在未来三到五年加速普及,我们正在迎来“低代码时代”。低代码给软件公司带来的新机遇当前,超过95%的应用软件是以编码为主进行开发的,一个中等规模的应用,前期需要投入数百万的成本。在应用构建完成之后,还需要通过市场的打磨和修正,才有可能赢得第一批用户,后续还会面临企业用户复杂多变的个性化需求。在此过程中,软件公司不但要投入巨大的资金和人力成本,还会面临很大的风险。低代码技术的出现能够有效缓解上述压力。与传统开发方式相比,低代码技术具有更高的效率和更低的学习曲线,使得企业能够更快地推出新的软件产品和解决方案,并通过敏捷迭代、快速试错的方式,快速响应市场变化。针对定制化和二开需求,低代码技术能够提供强大的集成和开放能力,结合拖拉拽等可视化开发的方式与业务人员共同协助,帮助实现贴合业务需求的软件应用。对软件公司而言,低代码技术能够带来显著的价值:1.低代码提供先进生产力,帮助软件公司提升利润传统开发模式下,人力成本居高不下,利润空间有限。采用低代码技术,可以大幅降低开发成本、工具采购成本和培训成本,为软件公司带来了新的利润空间。(先进的生产工具带来先进的生产力)以上海格心科技有限公司为例,其使用低代码为宁波爱健轴承搭建了一整套运营管理平台——“智造云”平台。该系统从产品设计、生产装备数字化、生产过程管理、仓储物流、能源利用等多个模块展开,实现了对智能工厂的全面覆盖。整个系统的开发工作量,仅为传统代码开发的1/4。系统上线之后,爱健轴承的生产效率提升了30%、生产成本降低了20%、产品不良率降低了28%、能源利用率提升了11%,产品研发周期也缩短了37%。凭借该系统,爱健轴承成功入选“浙江省第二批智能工厂认定名单”,并荣获全球领先的IT市场研究和咨询公司IDC所颁发的FutureEnterpriseAwards未来运营领军者。2.帮助软件公司深度服务于企业数字化需求,促进业务发展传统的信息化建设通常以外包、外采的方式为主,在框架、主数据和应用创新上都有明显不足。如今,面对激烈的市场竞争环境,企业对数字化应用的深度和广度都提出了更高的需求。企业更加注重统一平台的建设,希望实现更高效的数字化转型。同时,企业对自主开发和可控性的需求增加,渴望能够自主构建数字化基座,并能够自主决策未来数字化发展的方向。在新的形势下,软件公司不能继续满足于只为甲方企业进行项目交付,而应该更深度地服务于企业数字化需求。对于有意引入低代码的企业,软件公司可以从多个方面更好地服务客户:·推动低代码立项,帮助客户准确分析企业现状、明确项目目标和制定选型评估计划;·帮助企业建立符合自身实际情况的低代码技术规范,如技术管理规范、设计规范等;·帮助企业深化数字化转型,如数字化人才培养、项目落地咨询、协同开发等。这样的综合服务,不仅能帮助企业构建稳固的数字化基础,还能助力客户在低代码时代中取得更大的成功。软件公司通过提供全方位的咨询和解决方案,能够与客户紧密合作,通过持续的创新帮助客户实现数字化发展目标,共同推动数字化转型的成功,创造更大的价值。开启低代码转型的最佳实践过去五年来,葡萄城与三百余家软件公司深入合作,共同探索低代码转型的路径,我们亲身经历了一家家软件公司借助低代码技术实现了业务的腾飞,也很遗憾地看到一些软件公司走过的坎坷历程。回顾这些经验和角度,我们梳理总结出软件公司实现低代码转型的最佳实践,其中包括了指导思想、关键步骤、时间规划,以及大量的文档模板和培训资料。限于篇幅,本文只简要介绍其中的关键步骤,具体包括:确定转型战略、探索转型路径、打造组织能力。1.确定转型战略确定转型战略可以从低代码战略负责人、低代码在公司发展的定位和低代码代码选型指标三个维度来考虑。低代码战略负责人:转型战略需要由软件公司技术副总以上的高层来制定,而非仅由开发人员或部门经理负责。转型战略也需要在公司管理层达成共识,这样不仅可以保证软件公司从应用、技术、成本等多个角度全方位评估低代码的价值,同时还可以制定出更适合自身发展的战略,帮助企业更好地把握低代码转型机会。低代码在公司发展的定位:把低代码定位为公司技术能力发展的长期技术栈,而非临时项目或实验项目。低代码开发平台拥有巨大的潜力和优势,能够极大地提高开发效率和灵活性。通过将低代码技术纳入公司的长期技术战略,将能够帮助企业实现持续的创新和增长。低代码选型指标:建议基于公司长期规划遴选评估项目,在覆盖全场景的同时,还要关注低代码技术与现有开发团队、项目管理方式的兼容。基于我们的实际从业经验,并参考一些专业机构的研究报告,我们总结出面向软件公司的低代码选型评估十大指标如下:·功能组件丰富程度与需求匹配度·可扩展性(平台级扩展)·易用性(开发环境的用户体验、性能、配套培训资源等)·集成便利性·技术与架构的兼容支持范围·安全性与合规性·编程能力(项目级扩展)·协同开发能力·开发周期覆盖度·基于关系和流程的模型驱动能力与开发效率2.探索转型路径确定转型战略之后,下一个重要问题就是制定转型路径。有两个关键点需要关注:一是组建低代码“先遣队”,探索转型路径。建议先遣队由企业抽调少量开发人员和技术高管共同组成,基于厂商提供的技术资料和资源完成初步的技能准备。二是选择合适的试点项目,启动转型实践。在筛选试点项目时,要选择一个需求明确、复杂度适中且能在1-2个月内交付的项目。这样不仅有助于快速验证转型的可行性和效果,还可以为后续的转型工作积累经验和信心。3.打造组织能力在探索转型路径之后,还需要制定一系列规范将其转化为真正的组织能力,包括需求分析规范、设计规范、编码规范、集成规范等。通过这些规范和低代码平台的结合,实现更加高效的开发与协作,在实践中持续迭代优化,打造组织能力。特别提醒的是,低代码转型的效果是逐步呈现的,而不是一蹴而就,我们需要对此保持合理的期望和耐心。下图展示了低代码转型过程中,代码开发与低代码开发的典型效率对比。其中,横轴表示时间,纵轴表示开发效率的提升。橙色的线是以Java开发的平均效率作为参考,蓝色的线则代表使用低代码开发的效率变化过程。从图中可以看出,在转型的初始阶段,因为团队的不熟练,低代码开发的效率可能会低于代码开发方式。但随着转型的推进,进入探索期之后,低代码开发的效率将会赶上并超越传统开发模式。当转型进行第三阶段时,低代码的开发效率将大幅领先传统开发模式,这才是低代码技术的实际价值体现。结语从以上的信息可以看出,低代码已经成为业界的趋势,未来的2到5年将是应用普及的重要窗口期。建议软件公司将低代码技术作为重要的战略举措,尽快引入低代码技术,开启低代码转型,提升生产力并响应企业需求的新变化,从而在激烈的市场竞争中保持领先优势,实现可持续增长。本文来源:R艾瑞网文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/28
小程序变“傻”,谁变聪明了?
期待下一个五年,中国资本市场脱颖而出的“独角兽”,不再是清一色的互联网公司,而是还有SaaS服务公司。互联网掀起的平民化浪潮,如今已波及到技术人自己。一个人人都是程序员的时代正在到来。广西柳钢一名钢铁工人,用低代码平台,给全厂7000多名员工开发了一个核酸登记应用程序。四川古蔺一名中学老师,也是用低代码平台,给留守学生开发了一个宿舍管理应用。上海一个11岁女孩,在云栖大会上用8分钟编出了一个小程序……小程序“傻瓜”化,谁变聪明了?11月17日,中国社会科学院大学数字中国研究院与蚂蚁集团研究院联合发布《2022中小实体企业“数实融合”新趋势观察》报告回答了这个问题。01.低代码开发极大降低数字化成本报告总结了这两年发生在中小企业身上的九个变化,其中一个变化——低代码开发极大降低数字化成本——既是中小企业“数实融合”的新趋势,也是小程序“傻瓜”化的直接原因。“低代码”是一种只需要写很少代码就可以生成应用,并快速配置和部署的一种技术和工具。这一简易编程技术如今在我们的生活日常中已无处不在。我们玩的游戏,每天都会打开的各类小程序,背后都有低代码的身影。Gartner报告预测:到2023年,超过70%的企业将采用低代码作为他们发展战略的关键目标之一。到2025年,整体低代码开发平台市场规模将达到290亿美元,年复合增长率超过20%。低代码开始席卷全球互联网,始于2016年,微软首次发布低代码平台PowerApps,次年,微信、支付宝接连推出小程序接口,让低代码在中国找到了大施拳脚的应用场景。报告数据显示,五年前,一个中等规模的小程序,开发周期为2-3周,现在只要10-14天。如果是一个只用拖拉拽来搭建的简易小程序,最快五分钟就能完成。一个小程序的年服务费,最低已降至几百元。要知道,成本,是中小微数字化转型最大的障碍。有研究表明,数字化成本如果超过中小微总资产的10%,他们往往就放弃了。数字工具越来越轻、越来越“好用不贵”,成为许多中小微迈出数字化第一步的动力。值得一提的是,报告组在发布会上说,他们在调研时还发现了一个有意思的现象,仅在广州,就有近两千家小程序开发公司。小程序开发者中,不乏曾在流水线上打过工的“厂哥”。一家受访公司的HR告诉他们,同等能力和经验下,他们更倾向于招“厂哥”,因为他们比本科生能吃苦,流动性也更小。报告组还采访过一个叫周一海的“厂哥”,之前在东莞一家电子厂工作,利用业余时间线上学习低代码开发,跳槽到深圳一家小程序开发公司做前端工程师。和深圳许多互联网创业公司一样,周一海所在的公司要求员工起一个英文名,周一海给自己起了一个谐音名John。John如今一个月税后一万元出头,是在工厂时的近两倍,比本科应届毕业生的平均薪资也稍高一些。报告数据显示,仅支付宝小程序开放平台接入的数字化服务商目前就有1.1万家,拉动的开发和运营岗位接近80万人。这是一个值得期待、相互成就的生态故事,也是报告中指出的又一个趋势——数字化服务商将成下一个风口。02.数字化服务商将成下个风口?数字化服务商中的一支主力是SaaS服务商。SaaS意为“软件即服务”,也就是插即用的数字化小工具。它的特点是基本不需要使用者自己做开发,在订阅SaaS服务后,即插即用。和IaaS、PaaS一样,SaaS属于云服务的一种,三者“长相”相似,所长却大不相同——IaaS相当于水电气三通的“毛坯房”,PaaS相当于“精装房”,而SaaS则是拎包入住的“酒店式公寓”。可见,互联网平台云计算等技术基础设施的成熟完善,是SaaS服务发展的前提。而小程序的普及,则让SaaS服务市场找到了为中小企业提供数字化服务的重要载体。报告指出,当中小企业的数字化步入深水期,即不再满足于单一环节的数字化,而是追求全链路的数字化时,互联网平台企业开始变得“有所不能”。比如,平台企业往往只能提供通用的技术,以及标准化的获客和营销手段,而无法深入到各个垂直行业,为中小企业提供制定化、灵活的数字工具和数字服务。而这正是SaaS服务商的擅长。SaaS服务商对行业有多了解?报告组在发布会上分享了一个细节,他们在安徽合肥,调研了一家叫企迈科技的餐饮业头部服务商,创始人为了了解咖啡馆和奶茶店的的经营场景和痛点,自己开了一家线下店,从德国进口咖啡机,从星巴克挖来资深咖啡师,就这样钻到行业里,边卖咖啡边发现问题,收集了近100个需要优化的需求。蚂蚁集团数字化生态开放运营负责人张琤坦诚,支付宝小程序团队刚开始时,什么行业都想自己去专研、自己去服务,很快发现,“无论如何也专业不过服务商”。其实,“下场自己干”,是许多平台企业拥抱实体的常态。比如阿里巴巴为了改造服装制造业的生产供应链,自己建了一个智造工厂;京东则将自己重新定义为了“新实体企业”。但在服务业中小微数实融合这条赛道上,蚂蚁集团开始“向后退”,但“向后退”不意味着不作为,而是通过在后方为SaaS服务商开放产品技术、数字生态和平台“原子能力”,助力SaaS服务市场发展,由其向服务业中小微提供“好用不贵”的数字化工具。简单说,就是平台和服务商拿出各自的长板来打配合。梳理支付宝小程序在这一两年的布局和变化,不难看出他们在不断向后调整“站位”,让市场化的力量自己动起来——推出小程序快速搭建能力,让服务商的开发者乃至商家自己,通过拖拉拽的方式,最快五分钟就能做好一个简易小程序并上线。这已经不是低代码开发,而是搭乐高一样的零代码了。推出小程序云托管,以此为载体,为服务商开放隐私计算、安全风控、个性化推荐算法等底层技术能力。推出“跨平台框架”方案,以帮助服务商实现只需要写一套代码,就可以同时生成不同平台上的小程序,降低不同平台的适配和迁移成本。在餐饮业头部SaaS服务商企迈科技IOT事业部负责人阿祖的眼中,平台现在越来越像“服务商”,让他们在小程序后端的创新开发中获得越来越大的空间。他说他曾有一段时间来杭州出差,都是以“月”为单位的。他们和蚂蚁的工程师一起,脑暴出了一系列长在支付宝小程序上的,总有一款你用过的爆款小功能——当你在小程序上点了一杯奶茶,可以在支付宝首页上看到取餐进度;当你在线下单了一杯咖啡,拿到手上时,发现贴在杯身的单子上印着你的名字,以及一句写给你的土味情话;当你通过小程序下单并选择“自取”,就能获得5G蚂蚁森林能量球;……报告亦指出,如果中国的服务业数字化要走向纵深,实现高质量发展,必须大力支持发展SaaS行业,壮大中国第三方技术服务市场。而在助推中国SaaS服务市场腾飞,长出“独角兽”这件事情上,互联网平台企业应承担更多责任。03.一个世界级的生态故事SaaS服务市场长出“独角兽”为什么很重要?因为这决定着,中国的产业互联网能否像消费互联网那样,拥有世界级的竞争力,同时还决定着,中小微实体企业能否规模化地完成数字化转型。而眼下的事实是,中国的消费互联网有多领先全球,美国的产业互联网就有多一骑绝尘。报告数据显示,2020年,中国SaaS市场规模约为50亿美元,仅相当于美国SaaS巨头Salesforce一季度的营收规模。这个差距,直接决定了两国中小企业数字化水平的差异。过去十年,随着云服务模式不断成熟,发达市场的数字化收益群体从头腰部企业不断向中小微企业下沉。美国餐饮业头部SaaS服务商Toast的客户,平均只有1.65家门店。美国50人以下的小微企业,和上千人的大企业一样,每个员工平均会使用8个SaaS应用。Shopify、Square等市值达数百亿美元的SaaS公司,客户中80%是中小微……相比之下,尽管中国的SaaS服务商站在了风口之上,但眼下中小微企业在SaaS用户中的占比仍不足10%。我们期待下一个五年,中国资本市场脱颖而出的“独角兽”,不再清一色是互联网公司,而是还有SaaS公司;再下一个五年,中国能出现美国Salesforce这样千亿市值的SaaS公司。这样的未来可期。过去10年,中国互联网公司大量上云,带动了中国IaaS层领先于SaaS应用层快速发展,也就是说,大量“大楼”已建好,“毛坯房”也变成了“精装房”,就等着SaaS服务商入场搞“软装”了。此外,在助力中小微企业数字化转型的赛道上,随着蚂蚁等互联网平台企业开始调整策略和站位,SaaS服务商在技术研发上的资金投入和时间成本将被大大降低。这样的未来值得努力。要知道,SaaS服务市场的繁荣,还是一个世界级的生态故事。Salesforce发布的经济影响力白皮书显示,2019年,Salesforce每赚1美元,其全球生态赚了4.29美元;2024年,Salesforce每赚1美元,其全球生态将赚5.80美元。所以,中国小程序“傻瓜化”,是件好事情。它变“傻”,是因为中国数字化浪潮的参与者们变“聪明”了。本文来源:36氪文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/28
小心这三个坑:用人工智能开发与传统软件开发有着显著不同
生成式人工智能的不确定性会给软件开发带来麻烦神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。编者按:鉴于人工智能写代码已经非常溜了,你很容易会产生这样的想法,既然脏累活都是人工智能模型干的,那只关注市场需求和商业模式就行了。错,生成式人工智能天生具有不确定性,这个坑可得注意了。文章来自编译。在我们这里,做的每件事背后都有一个基本循环:写作->开发->重复。开发会让你接触到以前隐藏的世界。写作能帮你找到一种精确、简洁的方式来表达你知道什么以及为什么。这个循环未必是线性的——有时候我们会从开发开始,然后转向写作,有时候我们会先从写作开始——但我们认为,这种做法确实带来了一种特别有效的创造新事物的手段。本文深入阐述了用AI开发产品的方式,为什么新的AI产品的关键风险是可行性,以及如何通过快速实验来应对这些风险。当我开发第一个AI项目时,所采用的方法跟过去开发产品是一样的:明确一个问题,规划解决方案,构建最小可行产品(MVP),然后进行迭代。这是一种相当直白的软件驱动法:快速开发,测试,学习,然后改进。但是,这种方法并没有奏效——于是我自问:用AI开发跟传统软件开发究竟有何不同呢?我加入公司的时候是怀揣着一个很有野心的目标的:在三个月内打造九款产品——也就是每10天打造一个项目。我的第一个项目Mindtune是传统广告技术和社交媒体算法的替代品,用AI驱动的。我的假设是,大家对社交媒体推送那些公式化的、冷漠的内容已经厌倦了,而AI可以提供更相关、更个性化体验的机会。我做Mindtune的时候就考虑到了需求验证,因为传统软件项目这一块往往做不好。你得做出登录页面、跟潜在客户交流、分析竞争对手,然后才会投入资源打造产品。创始人长期以来一直都是按这个模板走的,就好象是一种条件反射。我们未必会停下来问问自己打造这个产品是否有可能?用人工智能开发需要我们打破惯例,用不同的方式去做。人工智能产品带来了一系列的独特风险,如果你不了解这些风险,就肯定会犯错误。在做Mindtune的过程中,我识别出了三种风险模式,这些模式帮助我准确了解自己承担的风险类型,更重要的是,让我了解是什么决定了它是否成功。我会深入探讨其中的每一种风险、它们之间的关系以及人工智能是如何颠覆了传统的初创企业“风险链”的。我希望创始人和开发者能够更好地了解自己想法存在什么风险,以及如何最好地化解这些风险,从而避免在创意迷宫中走错路。▍初创企业风险链任何初创企业都会涉及到三种风险:可行性(feasibility)、价值以及生存力(viability)。1.可行性风险:是不是确实可以开发出来?这属于典型的工程挑战。比方说,SpaceX在开发可重复使用的自着陆火箭时就面临可行性风险。2.价值风险:用户从中能否获得价值?这是产品市场匹配的核心。Airbnb就是价值风险的一个很好例子——大多数人最初认为这个想法很荒谬,认为没有人愿意住在陌生人的家里。3.生存风险:我们自己能否从中获取价值?众所周知,Facebook与Google早期就面临生存风险。他们知道自己的产品深受人们喜爱,但需要时间和实验才能找到可持续的商业模式。这三种风险的相互作用方式至关重要。可以把它们看作一个链条:可行性→价值→生存力。如果产品技术上不可行,那其他两种风险就不重要了。如果可行但没价值,你又会陷入困境。而就算用户喜欢你的产品,你还是得想办法从中赚钱。这三种风险可不是按顺序出现的;每种风险的大小都会因产品类型而异。传统软件的可行性风险一般都不高。Facebook的第一版开发并未涉及任何突破性的技术飞跃。马克·扎克伯格是在哈佛的宿舍里写出代码的。真正的挑战在于价值和生存力风险:大家会用吗?它能否成为一项盈利业务?相比之下,深度科技——基因疗法、聚变反应堆和自动化通用智能等项目,它们是将全新的技术推向市场。这类创新有明确的需求和商业模式(比方说,一种治疗现有疾病的药物),因此价值和生存力风险较低。其风险在于可行性:深度科技初创企业要冒着风险,打造一些他们不能100%确定是否可行的东西。我以开始觉得Mindtune可能会像软件产品,可行性风险较低,价值和生存力阶段的障碍会大一些。但从我的经验来看,人工智能会给可行性和价值带来独特挑战,需要新的办法应对。首先,风险模式不一样。人工智能初创企业主要分为两类:一种是深度人工智能初创企业,一种是应用人工智能初创企业。深度人工智能初创企业做的是基础模型或硬件,比方说Groq的芯片与Figure的人形机器人。其最大的风险是可行性。这些公司通常从事前沿研究,其所追求的突破有无可能实现未必总是很清楚。这属于高风险、高回报的领域。Sparkle和Lex等应用型人工智能初创企业则是利用OpenAI等公司的现有模型和API。其关键风险在于价值。应用型人工智能公司需要证明自己所使用的AI能创造价值,而且比非AI解决方案更好、更快或更高效。此外这类企业还存在可行性风险:AI模型未必不总能按照预期的方式运行,需要更多的思考和改进才能获得良好结果。Mindtune是一款应用型人工智能产品:它利用了已有的人工智能模型来提供更个性化的社交媒体信息流。我相信它的价值——用户对不同的社交媒体体验是欢迎的——而且这种商业模式已经得到现有产品的验证。但我现在越想越觉得我错过了一个重要步骤:那就是没有把这项技术的可行性考虑清楚。我一度认为,就因为我可以设计人工智能模型来提供结果,所以就等同于可始终如一地获得正确结果。我低估了用人工智能来开发的可行性风险,甚至连应用人工智能的可行性风险也没考虑到。▍人工智能独特的可行性挑战传统软件从根本上来说是确定性的:如果逻辑和参数设置正确,代码就会产生可预测的输出。生成式人工智能有着本质上的随机性:结果未必是一致的,输出质量可能会因输入数据和模型本身的细微差别而波动。所以你得不断测试,好确定结果是否可靠,且对用户来说足够有价值。因此,传统的工程直觉并不完全适用。慢慢地,你会意识到人工智能模型能做什么、不能做什么,但这些直觉没有像对传统软件的直觉那么准确。就算是经验丰富的人工智能工程师也会遇到意想不到的结果。技术可行性风险比传统软件更大,因为模型在测试过程中可能会给你带来惊喜,或者惊吓。但这种风险不像深度科技那样令人生畏,深度科技可能需要基础科学上的突破才能向前发展。相反,生成式人工智能的风险介于软件和深度科技之间——可行但不可预测。由于这种不可预测性,跟生成式人工智能打交道需要更多的实验性方法。传统的软件开发,精心打造的第一版可能需要一些细微调整——改改按钮位置,调整一下文案——而不是彻底改造。可是,对于生成式人工智能来说,第一版可能就需要不断“调整”了——调整提示、合并其他数据、调整参数——为的是提高可靠性,增加用户价值。而且每次调整都会让结果略微有所改变,所以不断迭代、不断测试对于获得期望的结果至关重要。我在做Mindtune的时候,一开始先是开发软件体验(线框、登录等),然后测试模型(GPT-4o、Claude3.5Sonnet、GeminiPro1.5和Llama3.2),看看能不能给个性化广告生成足够好的内容。这是错的:评估模型输出的质量时我发现返回的结果不一致。其实我应该先看看输出的结果,然后再去折腾软件组件,因为最终决定项目可行性的是底层模型的质量,而不是位于其上的软件。这个迭代过程还需要用直觉去判断什么时候该停止或做出调整。在发挥模型能力与识别模型上限之间有着微妙的平衡。有时候,尽管已经反复调整过了,但输出可能永远也无法达到可接受的质量,这时候你就得放弃了。或者,你可能会觉得再迭代几次就可以得到想要的结果。不过,这个阶段也有玄机。有时候,应用人工智能缺乏可行性表明这个项目不值得去做。但有时候,尽管可行性较低,可你仍确信是有价值的——因此不该放弃这个项目,而是应该换个做法。你可能一开始以为自己做的是一个应用人工智能项目,然后意识到自己其实在做的是深度人工智能,而且为了让项目可行,你得进入研究模式,去构建自己的模型。这样一来可行性风险会增加,但项目价值也可能变大,因此更值得去做了。▍了解风险,找到方向是,不管做什么你都得了解风险状况,但这一点对于人工智能来说尤其重要。如果你知道所需承担风险的性质,就可以确定该优先分配资源和精力到什么地方。这还会迫使你在每个阶段提出合适的问题:我们能做这个吗?别人会用吗?只有这两个问题搞定后,才可以提出能否围绕着它建立可持续发展的业务这个问题。不管是应用型还是深度型的人工智能初创企业,其运营的复杂程度与传统软件产品都不一样,需要更深入了解风险的相关性,并愿意去探索未知领域。很多开发者以为用生成式人工智能API就可以消除技术风险,但那只是多套了“一个壳”而已,别自欺欺人了。那怕使用的是现有模型,也需要进行大量实验。低估这种技术风险会导致浪费时间浪费资源。你很容易会产生这样的想法,既然脏累活都是人工智能模型干的,那只关注市场需求和商业模式就行了。但实际上,确保人工智能按需要运行是重大挑战之一。实现可靠和有价值的结果需要的不仅仅是接入API,还需要你不断调整、测试和深入了解模型的行为。本文来源:36氪文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/28
服务即软件(Service As A Software)为什么会替代现有的软件?
未来,软件开发模式需要从以功能为核心转向以业务目标为导向。最近全球知名风险投资机构红杉资本发布了AI行业年度报告《GenerativeAI'sActo1》,总结了在生成式AI革命的两年时间里,AI生态系统发生的变化及对未来的预测。报告中有几个观点我非常赞同:1.新的ScalingLaw:推理竞赛已经开始(1)o1代表通过“推理时计算在一般推理能力上的重大进展,给与模型推理时的计算越多,模型的推理能力就越强,这将推动应用层的可用性2.SaaS重新定义:服务即软件(1)在AI时代,代理推理将“SoftwareasaService”转向“ServiceasaSoftware”3.领域专业知识重要性(1)将专业知识与模型能力结合是构建数据闭环、从副驾驶(copilot)到自动驾驶(Autopilot)的关键。再看Gartner10/21发布的TopStrategicTechnologyTrendsfor2025。其中,AgenticAI名列十大关键字之首。AgenticAI系统会自主的计划并采取行动来满足用户定义的目标。当前的AI助手和大语言模型能够完成包括生成文本、总结内容或者使用基础的工具,但是它们并不能够主动的采取行动,它们是按照用户的提示词或者根据编排好的流程来行动。AgenticAI以目标驱动的规划能力,也承诺能够交付更有适应性的软件系统,能够完成在众多领域内没有被定义过的任务,而不是只能完成设计的功能。AIAgent的能力可以被视为一个连续的光谱,从在特定条件下为传统软件提供智能,以完成特定任务;再到完整的AgentiAI系统——它们能够在环境中自主学习,规划策略,做出决策,并独立执行任务。那么不同领域的两个权威机构做出预测的背后,反映了怎样的技术趋势?根据这样的技术趋势,我们又能推测出怎样的商业趋势?数智化变革的核心瓶颈在“人”LLM技术的突破,大家都有目共睹,从ChatGPT时刻发生到现在,我们可以看到的是正如智能摩尔定律所预测的——随着开源LLM能力的迅速提升,推理成本则指数级下降,因此自然语言理解和表达能力对于任何软件已经触手可及。而OpenAI今年9月刚发布的o1模型,则打开了推理能力,大模型的推理能力可以由推理时间的ScalingLaw来提升,这必将带来的是,随着时间的推移,推理成本能够指数级下降。于是,任何软件又可以再一次获得极其便宜的推理能力。这将给企业软件市场带来什么样的变化?我们试图从时尚服装业过去30年的发展变化中,发现一些规律。从商业角度来看,互联网革命,本质上解决了消费者和品牌之间的连接问题;互联网时代之前,品牌必须通过媒体或线下触达消费者,因此一方面是品牌信号的传递速度缓慢,另外一方面,品牌信号的传播过程也会伴随很多“噪音”。传统时尚服装行业一般是一年为一季,每年都需要经历对于时尚的判断、产品设计、小规模生产、时装秀、拿到反馈,然后生产、压货,其中的风险十分大。而从Zara/H&M,到Shein的品牌发展来看,由于消费者注意力越来越多地被吸引到线上,以及线下供应链越来越成熟、敏捷,整个循环从年,到月再到周维度,在快速迭代周期中,最重要的是能够对于新的物种构建起数据飞轮,因为在数字化的世界里,机器的运作是可以24小时*7天的,此时,人的生产能力就变成了瓶颈。但是在其它的大部分行业,从客户获取价值的流程中,由于种种原因,他们的业务规划执行周期仍然类似30年前的时尚服装行业,是以年或者季度为单位。图源来自:澜码科技以上述业务架构为例,一般企业都会有业务流程,流程中会涉及到横向的不同职能部门接力来完成一个决策,纵向则有管理来进行管控。而企业内的信息系统只起到了记录的作用,如过去的大数据系统也只具备单一的分析功能。在由不同的角色横纵交叉组成的决策网络中,核心的瓶颈仍然是人。专家知识的数字化和端到端的交互,是Agent落地企业并实现数据飞轮的必要条件那么,有了生成式AI带来自然语言理解和表达能力之后,会产生什么变化呢?图源来自:澜码科技我们发现,专家知识的数字化是AI助手落地的必要条件,端到端的人机交互对于提高AI助手在业务场景中的准确率也是必备条件,因为这样能够更好地解决一线业务人员对于目标上下文理解偏差的问题。但是,在现有的落地场景中,业务人员对于业务目标的拆解、计划以及在业务活动中拿到客户反馈等任务,仍然无法由机器来协助。而推理时计算的出现,则为这些环节的智能化带来可能。如果只是为企业提供更多的自动化/智能化的功能,我们仍然无法解决当前无论是自行购买算力还是买token的成本问题。毕竟现阶段技术尚未成熟,推理时的scalinglaw也意味着成本的飙升。由此产生的一个问题是,难道只能等模型的成本降低,才能获取智能化带来的价值?我们采访了很多企业,发现有一个显著且具有共性的特点:即使是百年老店或者世界500强企业,在业务能力上仍然是“一招鲜打遍天下”,也就是说它们的经营重点大多都是聚焦在放大自己的竞争优势上。因此,在企业关键业务能力方面,业务专家就成为了瓶颈。假设专家将全部精力投入工作也就是“007”,但业务专家能力越是作为企业的竞争优势,则需要业务专家并行处理的业务任务或业务决策就越多,在此过程中还需要保障业务专家的决策质量,所以,企业需要通过增加新的员工来分担业务专家的工作内容和压力。那么,有没有可能将消费互联网行业的经验迁移到新时代的软件开发中来呢?我们的答案是肯定的。我们认为,可以通过优先找到企业主要价值流程中的决策瓶颈环节,重新设计业务流——让业务专家设计的Agent去拆解目标,并通过交互收集业务信息并给出业务决策,让只有在线下完成的业务活动仍然可以由现在的业务人员去执行。也就是说,企业仍然可以在数字世界里面构建数据飞轮。由于是Agent在处理任务、决策,因此可以24小时*7天在线,并且能够永不疲倦且有耐心的辅助业务人员,通过这样的数字化流程可以帮助专家节省更多时间成本,对Agent处理的业务任务或决策进行分析,并给出改进意见。图源来自:澜码科技一方面,我们已经看到了o1模型在代码生成准确率上的提升,使得我们可以有能力准确地执行数字世界中的计划;另外一方面,o1在强化学习上,关于self-play和processrewardmodel的创新,也让我们能够通过专家将商业问题映射到相应的数学问题之后,可以用数百条专家标注来学习到专家的隐性知识。同时,我们还可以通过历史数据来构建情景记忆,从而完成规划任务的智能化。最后,也是最难的一步,如何让专家以低成本的方式让Agent通过数据进行反思,并改进它的规划能力,甚至让Agent自主的从经验中学习,这个部分可能有待o1模型或者新架构的模型的推出才能够得到答案。另外一方面,在已有软件的改进或者新软件的设计中,我们需要改变过去以功能为核心的软件开发,变为以业务目标为导向的软件开发,实现从围绕功能堆砌到围绕角色的转变。图源来自:澜码科技基于此,我们也就能够理解为什么软件商业模式会变成服务即软件。这里简单引用一下红杉文章的观点:红杉认为,由于Agent推理,人工智能转型是“服务即软件”。软件公司将劳动力转化为软件。Sierra就是一个很好的例子。B2C公司将Sierra集成到他们的网站上,负责与客户交流。Sierra的工作是解决客户问题,它按每次解决问题的数量来收费,这里并不存在「按席位收费」的概念。你有一个需要完成的任务,Sierra完成了这个任务,获得相应的报酬。从商业模式上看,还是“上下同欲者胜”。SaaS替代传统软件,是因为SaaS模式使得软件开发者可以知道不同功能的客户使用情况是怎样的,那么通过改变收费方式,虽然一次性收入看似降低了,但它让软件公司的功能迭代和客户的付费关联起来,从而让SAAS软件的迭代加速往正确的方向进化。同样的,大模型令软件可以交付业务价值时,新的商业模式虽然看上去收入变少了,但会由于利益的原因进一步加快软件公司去推动数据飞轮的完成。当有新的AI原始软件公司在组织上完成这一步蜕变的时候,那么就是万亿美元的服务市场向新物种开放的时候。而这场战争势必会像19世纪末非洲的土著部落遇到欧洲殖民者的马克沁重机枪一样摧枯拉朽。本文来源:36氪文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/28
AI智能体来了,App会死吗?
手机厂商VS超级APP,巨头逐鹿AI时代这个秋天的第一杯咖啡,是智能体帮点的。从9月开始,支付宝旗下AIApp支小宝、智谱的智能体AutoGLM,都能帮用户下一杯少糖、去冰的生椰拿铁。荣耀甚至开了个大招——让智能体YOYO一口气点上2000杯。当多模态为智能体安上了“眼睛”和“耳朵”,它开始展示出有希望接近人类管家的操作能力——这一代智能体开始学会帮人类“玩手机”,从日常购物、朋友圈评论到旅行规划,AI都能帮用户完成。由此,移动互联网正迎来一场关于智能体的新革命吗?在移动互联网时代,超级App通过整合服务形成流量闭环,但智能体的出现,有望重新定义人与服务之间的连接方式。人们开始担心这场变革是否将重新定义科技公司的新格局:智能体来了,App会死吗?答案是,杀不死的App,将借智能体再进化。时至今日,超级App远远不再是一个软件,而是一种生活方式的入口。比如,用支付宝,不仅是支付,更是理财、出行、医疗、旅游的生活场景入口;用美团,不仅是外卖,更是餐饮、超市、电影等本地生活聚集地;用抖音,不仅是短视频,更是海量视频内容承载的商业生态。过去在移动支付时代,这些超级App下场做“泥腿子”,铺二维码、建小程序,通过开放搭建了一张数字服务之网。在AI时代,他们同样可以脚下沾泥,去连接千千万万的线下商家和机构,帮助千万个商家机构从数字化向智能化升级。当智能体和真实的用户需求连接,才能真正落地生花。谁能搭建起下一个全面满足用户需求的智能体生态,才能成为AI时代的入口之王。从爆冷到走红,智能体认准“真需求”“可以响应自然语言,并且可以根据对用户的了解来完成许多不同的任务,称为智能体。智能体不仅会改变每个人与计算机交互的方式,也将是下一个平台。”比尔盖茨关于智能体的这段定义,也是我们想象中AI时代的未来。但在上半年,大厂扎堆押注智能体平台的1.0阶段,真金白银的投入,却没能在流量的池子里快速砸起太大的水花。海外,OpenAI的GPTStore早于今年1月上线,奥特曼曾希望它能成为下一个“AppStore”;国内,字节、百度、阿里等大厂也先后发布智能体平台,寄希望于打造“Super智能体”(超级智能体)。但在1.0时代,受限于多模态能力发展,彼时的智能体更像是一个能说会道的AI对话机器人,虽然可以为用户提供知识,但只能止步于获取建议。因此,在用户黏性上,大多人对智能体仍然保持“尝鲜”的态度。即便背靠大厂的泼天流量,在后续的表现上,智能体增长乏力,在平台上,至今没有诞生一款Super智能体。归根结底,是由AI能力创造出的大量伪需求,没有切中用户的真实痛点。而和1.0阶段相比,智能体2.0在具体的场景上认准方向,试图切中用户的“真需求”。此前,AI智能体的B端应用多集中在代码编写、辅助创作方面,而在C端,则衍生出了面向用户的交友陪伴、心理咨询等智能体。截至今年7月,据QuestMobile统计,文案写作、职场办公和情感陪伴成为主流AIGC产品中智能体落地的常见方向。据AI产品榜统计,仅今年一年,智能体数量新增17.9万,比AppStore的应用增速快了1.5倍。图源:QuestMobile而在今年下半年,智能体在多任务协同中展现出了诸多改变。“今天的大模型智能正在从简单应用向复杂应用不断演进,尤其在智能体到o1推理模型的拓展中,使系统逐渐进化到能够持续与外部交互。”智谱COO张帆说。设想中的一句话点外卖、订机票正成为了现实:9月,支付宝推出首个服务型原生App支小宝,作为AI生活管家,能够帮助用户承包“衣食住行”,只靠指令就能完成点餐、刷地铁码、打车等日常任务,也能智能感知用户使用的时间和空间,智能推荐新闻播客、快递查询、旅游攻略等服务。10月,智谱推出智能体AutoGLM,它能够自主选择多款App进行操作,帮用户完成手机交互。随后,手机厂商也紧跟步伐,荣耀的YOYO智能助手、vivo的PhoneUse,都能通过一句话的指令帮用户完成跨应用操作。过去,用户需要在复杂的界面中寻找海量功能,相当于增加了用户的使用成本。现在,只需要通过发语音或文字表达需求,智能体就能直达服务,把想要的服务直接推送到用户面前。至此,切入日常生活的刚需场景,智能体2.0找到了可突破的方向——“管家”智能体。从点外卖、加购物车到取消App自动续费,厂商试图让智能体融入我们的衣食住行,进一步简化人和服务交互的步骤,把用户从机械日常的交互中解放出来。比如“支小宝”,就一直强调“说句话就能办事”。尽管目前市面上的诸多“AI管家产品”,能提供的AI办事服务数量还比较有限,还无法执行更复杂、更个性化的任务,但这个人机交互的进化方向,至少让我们看到科技正在向一个新方向迈进——除了对话,也能让AI“看我的眼色行事”,让生活更简单一些。AI时代,主导者是手机厂商还是APP?在移动互联网时代,流量就是生命。智能体的出现,也将重塑流量分发的规则。1.0时代,从海外到国内,科技公司都在试图打造Super智能体平台,通过智能体聚合流量。但2.0时代的思路变了。现在,大家正在试图让智能体化身手机里的“智能管家”,成为连接用户和服务的新入口。这种变化最明显的体现是手机厂商的布局。在2024德国柏林消费电子展上,荣耀产品线总裁方飞说:“如果现在的智慧助手是手机上的手动驾驶,那么,AI智能体未来就是手机上的自动驾驶。”或许会有这样的预言:当手机上的智能体开始学会跨应用调取所需功能,比如用美团点外卖、打开淘宝买日用品,通过拆解任务场景,选择不同App操作完成任务。相应的,超级App只需要将部分接口提供给智能体调用,长此以往,App将成为智能体能力的一环,而本该流向超级App的流量,也将归于智能体。但在多元的商业时代,竞合关系才是常态。一方面,手机与超级App需要打磨AI产品,用产品竞争力赢得用户,争夺新入口的主动权;另一方面,正如移动互联网的繁荣是众人拾柴、日拱一卒的结果,AI时代的服务之网,也绝非任何一家科技巨头所能垄断,开放和合作仍是AI的未来之路。正如荣耀CEO赵明所说,两者之间是协同关系,在找到边界点后,大家通过各自协同完成分内任务。于手机而言,智能体想要打通完整的服务生态,需要大量的服务资源的整合供给。于App而言,可以深耕垂直场景,借助智能体完成进化,焕新AI时代的诸多服务;同时,可以通过与手机厂商合作,探索软硬件联动的更多玩法。比如,在厂商抢做AI搜索产品的当下,包括小红书、知乎在内的社区App正在试图通过长期沉淀的内容优势,打造垂类搜索服务。以知乎为例,它瞄准了学术搜索赛道,在知乎直答中上线专业搜索功能,成为首家提供AI搜索与正版论文库一站式解决方案的厂商。当下智能体的热潮中,生态能力也将成为App的杀手锏与护城河。凭借400万的商家机构小程序以及8000多种生活服务能力,支付宝旗下的AI生活管家“支小宝”就能支持唤起打车、点餐、订票、地铁码、查快递、交话费、查账单等各类生活服务——这种生态整合能力是纯粹的智能体平台难以赶超的。同时,目前的手机产商演示的AI点咖啡等操作,仍是采用屏幕识别与仿真操作的技术解决方案(你会看到AI在帮你查看屏幕和点击按钮),对手机性能要求高之外,还存在速度慢、服务单一等问题。想要AI做得更好,就需要服务侧的供给变革——大量的商家机构也能“AI化”,打造自己的智能体,再通过开放接口,推动生活服务的创新。只有更多商家机构都有智能体,AI才能不停留在点咖啡这样的简单操作,而是可以帮你点得更多、点得更快、点得更准,甚至还能帮你找到最合适的优惠券。无疑,就像移动互联网时代建起数百万小程序一样,搭建AI时代的智能体生态,而这正是微信、支付宝等国民App所擅长的。结合独有的平台生态,App也能成为新的智能体平台,并借助差异化的服务从AI混战中突围。例如,腾讯继推出智能助手App“元宝”后,又打造了智能体平台“元器”;支付宝也推出了智能体开发平台“百宝箱”,让商家机构借助智能体为用户提供更多更新的服务。以“黄小松”为例,它是黄山景区在支小宝平台上开设的智能体,能够为游览黄山的游客提供实时景点导览、景区饭店推荐、充电宝查询等服务。此外,App厂商也可以跳出手机,与更多的智能硬件互联互通,比如AR眼镜、智能音箱、智能车机等。未来,AI无处不在,服务一呼即应,人机交互的方式将更加多元和革新。此前,字节跳动旗下的豆包就推出了AI智能体耳机OllaFriend,为用户安排了一位集随身百事通、英语陪练、旅行导游和情绪加油站等能力于一身的“AI朋友”;下周即将发布的Rokid新款AR眼镜上,也将联合支小宝,推出AI打车、AI点餐及声纹快速支付等功能,覆盖更多的生活场景。AI时代,洗牌的周期会进一步缩短。朱啸虎曾直言,“当大家一窝蜂地涌入风口,6个月之后,如果没跻身头部,这个风口基本上跟你没任何关系了。”短暂的风口来临,没有人想先离开牌桌,AI将催生下一代的新手机,App也希望借AI再次进化,抢先布局的先行者,无疑将赢得下一个时代。但更为重要的是:独行者快,众行者远,AI时代没有一家独大,有竞争,更有合作。开放与连接,原本就是互联网的本义,进入AI时代,软件与硬件的彼此开放,无数智能体的相互连接,才能催生真正的变革。本文来源:36氪文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/08
软件吞噬世界,我们错失了什么?
想象一下两家咖啡馆:一家在PaloAlto,另一家在北京。在第一家咖啡馆里,工程师们一边喝手冲咖啡,一边讨论API集成。在第二家咖啡馆里,运营经理一边喝着奶茶,一边集思广益,策划病毒式营销活动。2010年代见证了世界两大经济体在科技史上最深刻的分歧。硅谷加倍投入企业软件,而中国则将赌注押在消费者应用上。这两种策略都以无人能预料的方式奏效了,也失败了。共同之处是:两者以不同的方式完成了社会经济的数字化。疫情三年,星移斗转,GPT横空出世。过去的十年,我们到底错失了什么,又应该如何进入下一个十年?一、软件吞噬一切2011年8月,MarcAndreessen在WallStreetJournal上发表了WhySoftwareIsEatingtheWorld一文。这篇文章站在2010年代的开端,一方面回顾了互联网、智能手机和云计算对商业社会的改变,另一方面抛出了软件在进一步重塑汽车、零售、物流、金融、医疗保健和教育等传统行业的观点。2012年5月18日,Facebook在NASDAQ以1040亿美元的市值上市,就募资金额看,是美国历史上第三大IPO.在资本市场和媒体的一致看好之下,仍然很快跌破了发行价,到了月底,跌去了四分之一的市值。尽管如此,它还是为早期投资人和员工提供了丰厚的回报。这次史无前例的IPO产生了深远的影响,很多早期员工年纪轻轻就财务自由,同时又深谙软件的巨大价值,很多人转身创办新的软件公司,Asana、Quip、Cloudera等先后浮出水面,面向企业提供服务。而面向消费者服务的Quora、Path等公司则发展较为缓慢。另一方面,Facebook在IPO之后的十年中通过自身强悍的执行牢牢占住了社交王座,把Twitter和Snap甩开数个身位,成为唯一能在数字广告市场上与Google竞争的科技巨头。在收购Instagram和WhatsApp之后,Facebook逐渐形成了近乎垄断性的行业地位,让一路看着Facebook长大的风险投资人避免在社交赛道上与Facebook直接竞争。可以说,在Google和Facebook/Meta之后,美国科技业几乎放弃了在消费互联网上再造流量入口的尝试,转而选择了一条截然不同的路线,造就了硅谷下一个十年的繁荣。二、美国:SaaS接力移动正如MarcAndreessen预言的,软件完美接力上一个十年中的消费移动应用,成为新十年的主流投资趋势。新创办的SaaS创业公司在2010年~2015年间,增速成一条45%的直线,每年都在1000家以上,直到2018年以后才逐渐下降。从投资金额来看,在2008年~2017年的十年间,风险投资逐渐达到高峰,特别是在A~C轮的成长期,每年投入的金额都在百亿美元的级别。这些投资主要都集中在了北美市场的SaaS公司上。从退出的角度看,面向消费者的名字往往因为家喻户晓而饱受关注,但SaaS公司无论是IPO还是并购,退出数量远远超过这个时期的消费互联网公司。回看这些变化的时候,更会感受到MarcAndreessen文章的预见性。他从Netscape(更像是消费互联网)到Loudcloud(企业云服务)的经历,以及对2000~2010年间的趋势变化的理解,让他更早地认知到“这是个巨大的机会。我知道该把钱投到哪里”。所谓“巨大的机会”,无非是基础设施的普及,成本下降,但当人浸泡在这样的现实中的时候,就会无所知觉。反而是从前个时代穿越而来,才能感受到变化的剧烈,以及未来如何分布不均。从协作办公,到销售营销,到人力财务,再到IT安全,软件装上了SaaS的商业模式渗透进企业业务流程的每一个环节。在Microsoft和Oracle的时代(参考:《Oracle:复杂性战争》),企业软件往往以功能的全面性著称,而在SaaS时代,软件则以专注于某个环节或者某个行业著称。自动化平台Zapier在10年间连接了6000多个企业软件的应用程序接口(API),成为一家仅融资一轮就盈利的独角兽公司。API,或者说“接口”,不是为SaaS设计的,但由于SaaS需要和企业客户对接,开放可编程接口是必备特性。同时,开源软件社区也逐渐壮大,技术栈中越来越多的开源代码也需要通过接口相互连接、调用,形成了一整套基于“接口”的软件生态。在这个生态下,一家公司努力做好一件事,其他搞不定的事情,就找到其他公司的接口来解决。这既是一种软件开发哲学,也是商业生态的网络效应,更是资本投入的高效杠杆。三、中国:超级应用崛起中国的故事发生在消费互联网上。字节跳动把Facebook的Newsfeed发扬光大,在没有社交图谱的情况下重新发明了信息流,之后又把短视频生意做到了全世界。美团和滴滴曾经是“共享经济”的代表,现在则是本地生活和交通出行的巨头。拼多多从水果团购起家,现在则以匪夷所思的低价和退货政策,成为淘宝、Amazon之外的电商新一极。所有这些公司都有一个共同的名字,叫“超级应用”。最先获得这个称号的其实是微信,而后,中国的消费移动应用都开始在产品增加更多相关或不相关的功能,依靠各种小红点、推送通知或游戏化奖励做产品内部的引流和渗透。微信依靠春晚红包获得了支付能力,美团从团购变成了“送啥都快”的生活小帮手,拼多多和支付宝都可以看视频,抖音和快手则可以购物和打游戏。闭环,是中国互联网上黑话中的黑话;入口,是中国投资人眼中的皇冠上的明珠。顺着“闭环”的“入口”看进去,只剩下直播间里卖的新国货。我曾经和一位中国的顶级风险投资人交谈,他历数了自己投资过的中国SaaS公司,这些名字远没有其美国同行响亮,惨淡经营,也难以看到上市退出的希望。在GPT横空出世之后,美国SaaS公司纷纷开始向客户提供AI功能,过去已经建立的客户基础和产品场景为AI提供了通路和上下文,大大提升了在AI上创新投入的回报确定性。在中国,AI应用却因为缺乏场景和商业模式而进展缓慢。上一个十年的错失,会改变未来数个十年的路径。四、错失了什么,为什么?我在《视频生成:AI的十亿消费者机会》一文中表达过一个观点:消费互联网(ConsumerInternet)铺路,企业互联网(以SaaS为代表)造车,后者并不是一个独立发展的趋势,而是前者达到临界规模后的衍生。这句话其实和MarcAndreessen讲到的“软件吞噬世界”的先决条件没有本质区别:正是因为互联网在消费者侧的大规模普及,才能推动云计算等基础设施的快速铺开,为企业软件的成长奠定基础。在上一个十年中,中国市场长出了短视频,也很快把TikTok复制到了美国市场,美国本土的YouTube和Instagram也快速跟进。加上疫情居家办公的影响,短视频在企业营销、教育培训等方向愈发重要,也催生了大量的衍生基础设施。那么,中国市场错失的是SaaS吗?从投资回报的角度看似乎是这样的。但仔细看,中国的企业软件很多没有以独立公司的形态存在,而是作为大厂“闭环”生态的一部分而存在的,更具体来讲,往往是和云计算业务捆绑在一起。这其实很像Google/Microsoft提供的企业软件,往往是用来敲开企业客户购买云计算服务的敲门砖一样。类似的,在腾讯/阿里/美团的电商生态中,也蕴藏着大量与零售、金融、物流等相关的软件。这些来自大厂深处的企业软件,延续了消费互联网那种烧钱换规模,然后羊毛出在猪身上的“入口”逻辑。它们用免费+捆绑销售的形式进入市场,凭借自身强大的市场开拓能力跑马圈地。这种逻辑,不仅仅消耗了大量的资本,也绑住了大量的软件工程师人才在一个高度集成的项目上,而非通过不同产品之间的“接口”进行重新组合。在2010年~2020年中,大厂的战略投资逐渐崛起,而以LP回报为目标的风险投资基金则且战且退。战略资本的最高目标是实现企业的战略意图,如果大厂是在超级应用上竞争,那么投资的目的也是如何更好地打造闭环,而不是打造更多的开放接口。早期创投的价值在于多样性,而多样性来源于开放性。这需要生态里面的玩家抱有“接口”心态,而不是“入口”心态。SaaS或许是因为中国企业服务市场的整体现状而未能得到机会,但其惨淡现状也反映出中国创投生态的问题。美国的生态截然不同,下面分成几个层面来看。技术层面:以GitHub为代表,基于开源软件生态,出现了一批开发者工具(DeveloperTools),围绕软件开发的各个环节,专门服务软件工程师这个成本昂贵的群体,进而服务企业中的核心数字资产和业务流程。这意味着,软件开发的生产效率在不断改善,软件工程师的人效在持续提升,软件工程的稳定性和可靠性也越来越有保障。产品层面:产品讲求差异化,不做同质化竞争,最终导致的结果是在垂直领域和业务环节都会出现细分。要么选择一个大的垂直领域,端到端的把业务扎下去,要么选择一个通用性很强的环节,做宽度和覆盖,把客户在这个环节上的需求都吃掉。这一点是和消费互联网非常不同的地方,后者规模经济极强,最终往往是“一家独大”的市场格局。市场层面:既有PLG这种以产品特性为主导,更接近消费互联网用户增长打法的路径,也有SLG以销售为主导的路径。很多创业公司在起步阶段就有1~2个DesignPartners,通过一定的股权绑定,作为“天使”客户提供产品建议,并锁定为最初的标杆客户。同时,2010年成长起来的这些SaaS公司也培养了一代在经验、能力、人脉资源都更成熟的销售、市场人才,成为从技术到客户之间的润滑剂。另外,创投圈也是初创公司的客户来源,降低冷启动的难度。财务层面:SaaS的核心是用标准化产品来替代非标准化的服务,从而大大提升企业财务的经济性。美国人力成本高昂,软件公司特为尤甚,本土的核心团队规模都不会太大,追求人效,不愿意靠堆功能、做外包来赢得客户。很多做到亿级ARR的公司,团队规模还在500人以内。也有很多初创公司在百万美元ARR的规模上就开始盈利,对风险投资的依赖也在减小。投资层面:风险资本也跟随产业趋势逐渐细分。特别是在早期投资的市场上,以YCombinator为代表的加速器/孵化器大量出现,AngelList上也出现了天使投资的RollingFunds,LP可以按照季度进行小额定投(每季度在1万美元左右),还有一些VentureStudio的孵化模式,以及资金规模不高、但强调dealflow的独特性的Microfunds.融资渠道的多样化大大增强了资本市场对创新的包容性。在生态的不同层面上出现的变化,核心在于其开放性,而不是包含在某个大厂的“闭环”中。一个值得玩味的说法是:中国讲“入口”,而美国讲“接口”。开放性和多样性才是中美两个市场在过去十年最大的差异,而非消费互联网与SaaS之争。开放性和多样性是持续创新的基础。自2022年GPT-3问世以来,美国的AI生态从芯片和基础模型开始,到2023年进入Infra、DevTools的阶段,到了2024年,企业软件和消费应用也逐步浮出水面。创新的接力赛一棒接一棒,没有停歇的意思。中国错失的,正是这种流水不腐的开放性与多样性。五、如何进入下一个十年2020年代有两个开端。一个是Covid-19的开始和结束。它对全世界的社会生活和政治经济都有深远的影响。对于科技行业而言,它一定程度上加速数字化的渗透率,特别是对更为传统的行业而言,仅仅是远程办公一个变化就足以驱动很多软件采购的快速决策。另一个是GPT-3的发布。我们仍然处在生成式AI周期的早期阶段,它对人类社会的影响仍然有待展开。一个明确能够做出的结论是,它至少可以在上一个十年“软件吞噬世界”所留下的高度数字化的基础上,提升整个社会智能化的水平。这两个开端,一个是把软件周期推向了最高潮,另一个则在高潮之上再添新力,带领世界进入了AI周期。六、模糊的B/C边界经过上一个十年,中美两个市场在很多地方开始互相追平。在基础设施建设上,美国通过软件周期把根深蒂固的传统行业进行了数字化,中国则通过移动互联网也完成了零售、支付、物流、公共服务等领域的数字化。在人才储备上,软件工程师供给稳定,开发工具和技术栈越发高效。在成本优势上,两国的人力成本都有不同程度的上涨,但AI周期中也都有明显的效率改进机会。消费互联网的创业和投资不确定性更强,而最终的回报也更惊人。TikTok的崛起并不能被简单理解为是短视频产品形态的革新,而也要考虑到它突破了Facebook长期占据的SocialGraph,利用个性化推荐算法建立了全新的兴趣图谱(参考:TikTokandtheSortingHat和Seeinglikeanalgorithm)。AI无论在产品形态、交互界面和智能算法几个角度上,都有机会做到全面创新。难点在于:如何做好用户增长达到规模经济所需要的临界点?这是消费互联网的基本功,而在过去的十年中,只有Uber这样的共享经济公司还存有一些know-how,除此之外,对于大量的SaaS公司,这几乎是一项失传的手艺。中国团队反而在这里已经经历过更惨烈的战斗,调动过更大规模的资源,也积累了大量的经验。在企业市场上,中国软件公司的确需要面对更不愿意付费的客户或更封闭的商业生态。但在“出海”已经成为共识的前提下,这不应该成为障碍。真正的难点还应该回到产品和市场契合上来,如何深入到使用场景中去,拿到更多的企业内部数据和上下文,让AI能够因地制宜,做出产品的厚度。以及如何构造面向全球的GTM能力,语言、文化、人脉都会成为新的问题。在湾区和一些AI领域创业者交流的感受是:AI在效率改进上的价值很可能并不会强烈地区分消费者和企业。比如生产力工具,很多产品起初的PMF是在专业消费者(ProfessionalConsumers)上的,但最终赚钱是在企业客户身上——后者更有支付能力。而在AIasaService的模式下,初创公司用AI来提升传统服务业的效率,成为AI驱动的律师和会计师,面向消费者提供服务。AI周期中的消费互联网与SaaS边界越来越模糊。中国的创业者和投资人最不应该担心的,就是过去十年似乎错失了SaaS的机会,特别是对于早期公司,这个区别根本不重要。对于旨在全球市场的AI创业者和投资人而言,更应该调整“入口”心态为“接口”心态,发挥各自的长处,分工协作,通过“接口”的网络效应放大自身的价值;而非在“入口”上同质化竞争,降低资本效率。七、从“入口”到“接口”:开放与多样我认为,对于中国而言,还需要做好一件事,就是补充早期投资生态的多样性。在上个十年里,一批新投资人出现了,他们以“$500kisthenew$5million”为口号,往往有着在科技行业的工作背景和人脉,在初创企业更早的阶段介入,最终获得丰厚的回报。现在,我们经常能在公司融资的新闻中看到一长串名字,其中很多人的投资金额并不高,但这些名字本身就是一种网络效应,为初创公司提供了大量非现金资源。同时,像SAFE这样的投资工具也简化了复杂的股权交易,抵消了因为多样而带来的额外成本。可以认为,这是一种风险投资的“下沉”策略,更重要的是,它促进了创业生态中的连接性和包容性。在湾区,你很少会觉得一个想法太奇怪,或太愚蠢,或太不符合主流叙事,这不仅仅是对创业者而言的,也是对投资人而言——他们很多人也认为自己是一个创业者,也会以独特的投资想法而赢得LP的认同。回到中国,在上一个十年中赚到的第一桶金如何能够以更易得的形式传递给AI周期的面向全球市场的创业者?面向全球市场的天使投资、孵化器、加速器、VentureStudio、Hackerhouse都在哪里?有没有AngelList、SAFE这样的投资工具来简化投资流程?创业本来应该是permission-less(无需许可的)。这是一种截然不同的价值创造方式:它需要站在未来,推导出现在可以做出的重大改变。它需要一些涓涓细流来滋养,而不是大力出奇迹式的大笔重注。大厂高管据说已经成为现在中国AI创业里面的半壁江山。他们或许有更强大的资源优势,更容易获得资本的青睐。但同时,他们也有很强的路径依赖,产品想法往往集中在少数赛道上,少了一些想象力。他们动辄千万美金的融资或许能支撑一个伟大的愿景,但也会打击生态的多样性和开放性。在上一个十年的软件周期中,美国经济刚刚从2008年的金融危机中走出来,资本变得更加谨慎。而互联网周期中赚得的“新钱”接替了“老钱”,以更灵活的姿态、更低的门槛支持了软件周期中的初创公司。对于AI周期的中国而言,也应该出现这样的创新接力。上一代的创业者成为新一代的投资人,提供资金、经验和背书,既能做好资产配置,也能支持创新,实现长期愿景。更多的小型基金、个人投资或多种形式的孵化/加速项目,化整为零的滴灌、滋养未来的可能性。资本当然会追求最大的收益,但逐利性也会限制创新的可能性边界。对于十年的周期而言,最坏的开局莫过于对多样性的破坏。不要错失本可以想象的未来。本文来源:虎嗅APP文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/08
中国老人爱上网,但为何没有一款做成功的垂直App?
银发文娱是仅次于电商、排名第二的银发人群互联网应用热土,垂直App、微信公众号、小程序、抖音快手银发网红在过去十年依次迭兴。2015年开始出现一批专注老年人的App,主打广场舞的糖豆、主打图文编辑的美篇、主打视频编辑的彩视都是诞生在这一年,并先后获得知名VC和头部互联网平台的数千万至上亿元投资。2016年开始出现大量主打老年人内容的公众号,最常见的主题是养老金调涨、养生健康、单身老人寂寞情感、社会对老人偏见不公、领袖和明星人物故事。这些内容在互联网主流视野全放在年轻人身上的2016年,恰好填充了当时快速涌入的银发网民的闲暇时间,老人分享转发积极热烈,10万+爆文层出不穷,一时间出现许多粉丝数达到数百万的公众号矩阵。2017年随着微信小程序上线,部分App和公众号向小程序转移,主打功能以相册影集、小游戏、小说、短视频为主,又在短时间内收获了大批银发流量。2019年抖音快手的年轻用户增长趋缓,而银发用户的比重开始快速上升,一批个性独特、思维开放的老年人自己摸索或在MCN帮助下变身银发网红,拍摄各种搞笑段子和换装视频。他们的粉丝量在短时间内迅速上涨,一批三五百万粉丝的银发网红开始在短视频平台上占据一席之地。下面将从功能需求、流量红利、商业变现三个方面分析银发文娱互联网的经验教训。一、打磨特定功能需求,锁定超强粘性银发用户银发互联网领域最知名的几个App,在发展初期就锁定了银发人群某个方面的强需求,比如糖豆聚焦广场舞的视频、学习、交流,美篇聚焦操作简便的手机端图文编辑工具,彩视聚焦短视频的拍摄剪辑制作分享。而瞄准的这个需求越刚性、越粘性,产品功能对这个需求满足得越好,初期获得的银发用户就越不容易轻易流失,从而成为下一步发展起关键作用的种子用户。当然,个案项目要想成功,不能仅仅满足于人有我有的功能,因为每个赛道方向都会有很多同类竞争者,广场舞、图文工具、有声影集以及以后兴起的各种赛道都是如此。但大部分银发互联网项目做得雷同,只是简单将现有功能模块复制一遍,然后图标放大、字体放大,在银发人群中不会留下深刻印象,最终的命运只会是即用即弃。而上述项目在产品功能上确实是有特点的。比如糖豆为便于广场舞KOL拍摄出银发人群眼中的炫酷视频,开发出绿幕抠像功能,可以将舞者安放在公园、广场、山川等各种预设的背景中,还可以将单个舞者复制成三、五甚至七八个,在画面上呈现出群舞的效果。这个功能至少在2019年就已上线,而主流视频App几年之后才上线类似功能。再比如美篇,为了便于银发人群图文创作,App设计了提供高清图片、高清视频、音乐的素材库,并将其作为会员收费项目。与之对比的是,微信公众号经过多年发展,影响如此之大,但后台只提供编辑功能,图片素材仍需要创作者自己解决。这些创新的功能点,背后蕴含着对银发人群的深入洞察,这种洞察决定了产品好不好用、是不是真能击中银发人群的痛点,决定了能不能在银发人群中建立独特的用户心智,决定了银发人群是即用即弃还是来了就不想走,决定了在一堆同质化产品中是否能够脱颖而出,走向下个决胜点。二、抓住流量红利,顺势起飞2016年后一批专做老年内容的公众号之所以能崛起,流量红利所起的作用显然占了更大的比重。在中国老人人手一台智能手机之前,银发人群接受信息的渠道主要是电视、报纸、杂志,信息来源的主体一般是官方媒体。但随着智能手机在老人中的渗透率越来越高,并在2016年达到一个临界点,中国老人从传统媒体平台大量流失,对互联网内容的饥渴越来越大,但此时主流互联网还将注意力放在年轻人身上,相应的老年内容供给非常缺乏。此时一批敏锐的内容创业者转战老年人群,聚焦在养老金调涨、养生健康、单身老人寂寞情感、社会对老人偏见不公、领袖和明星人物故事等极易引发老人共情的主题上,无需原创,只要将全网素材整合编辑,就能源源不断制作出让老人疯狂转发分享的10万+爆款文。而且单独一个公众号显然不能将老年流量收割干净,开设几十上百个公众号形成矩阵并互相导流,组织公众号专属的读者社群,再鼓励群里的老人分享转发到自己的群和朋友圈,形成进一步裂变。这些内容本身具有非常高的裂变属性,再叠加上空闲时间很多、希望以转发显示存在感、间接“暗示”子女关心自己的银发人群,最终会实现几何倍数的传播。再加上当时微信流量成本很低,大量投放花钱购买粉丝十分划算,因此许多公众号的粉丝也在短短几个月内增长数十万甚至数百万之多。小程序在2017年后的崛起更是抓住了银发流量红利的典范。比如专注有声影集和短视频的小年糕,最早于2014年上线App,但一直不温不火。2017年1月微信小程序面世,当年5月底小年糕就推出小程序,并与公众号绑定,打通公众号与小程序之间的无缝导流,从而快速扩充了小年糕的用户群体。当时一个月之内,小年糕用户量就从1000万涨到2000万。2019年时,小年糕的中老年用户已经高达1.1亿,在全体用户中占比超过80%。类似的小程序还有很多。根据阿拉丁研究院公布的小程序TOP100榜单显示,2017年8月开始,小年糕、卡娃电子相册就进入榜单,之后美篇等图文制作小程序陆续入榜。2018下半年到2019年,许多模仿跟风的流量玩家进场,在阿拉丁公布的小程序排行榜里经常会看到一些不知名的公司轮番上场。这些小程序的操作非常简单,相册类小程序可以直接一键更换模板,模板随着节假日及时间变化,每到节假日期间,这种相册类小程序就会瞬间火爆,带来大量流量。2019年开始,受快速崛起的抖音快手短视频平台带动,流量玩家又转战短视频领域,各种短视频小程序从2019年开始集中涌现。这些小程序中的内容多是来自各个视频平台,部分视频中还留有腾讯、西瓜、火山等平台的水印。并且这些新进入玩家大量铺设相同主题相同内容的小程序以及公众号矩阵,目的也是简单直接,只为尽量做大流量,为下一步变现做准备。在前述垂直App的发展过程中,流量红利也曾经起到重要作用,不过场景发生在手机上的应用市场,时间窗口也比较短。业内人士透露,2015-2017年时在应用市场上去做广场舞App的广告投放,获客成本只要1.5到2元,这种方式支撑了少数头部广场舞App的快速起量并接连获得大笔融资。不过在应用市场的投放成本逐渐走高之后,这种模式不再走得通,用户增量开始枯竭,之后受到抖音快手的虹吸效应,更是出现用户大量流失的情况。三、变现路在何方?变现是银发文娱在走过产品、流量两个关口后必经的第三个关口。下面就来看看银发文娱都走过哪些变现之路,它们的表现又是如何。广告上面提到过的流量型银发文娱项目,一般公司规模很小,团队只有个位数,但因为掌握着大量老年流量,通过广告变现,高峰时一个月能实现数百万元的净利润。但这个模式能够成功的关键一是在于流量成本必须很低,二是在于有源源不断地愿意支付高额广告费用的广告主。不过有能力有意愿支付高额广告费的广告主是稀缺资源,时常有不正规的保健品、化妆品甚至诈骗团伙隐匿其中,对银发文娱项目来说存在很高的法律风险。因此一旦流量成本提高或者平台监管趋严,这个模式就很难维持下去。糖豆、美篇等代表性App,对外宣称用户过亿,如糖豆2020年中老年用户超2亿、55岁以上用户占比超过50%,美篇2019年累计注册用户超1.2亿、65%以上中老年用户。但他们均未披露过广告收入的数据,只能猜测这些数据并不像想象中那么亮眼。知识付费/会员权益美篇在2019年推出过价格29.9元起/本的中老年回忆录,根据官方宣称,2019年双11期间达6000单/天,交易额破百万。彩视营收亦无公开数字,有媒体报道会员权益可占到50%,付费人数在数十万量级,包含两档68元/3个月和198元/年,权益包括会员身份标识、视频制作特权(特殊模板与素材、高清)、社交功能特权(类似陌陌)等。主播打赏多个App都先后推出过视频直播和主播打赏。据了解,彩视的直播分成在高峰期可占营收50%,活跃用户月支出在五六十元左右。美篇曾向外透露,2018年全平台的打赏月流水曾达到千万级。但真正属于银发人群的知识主播和草根主播并不多,反而是颜值主播贡献的收入比重更大。这看起来更像是一个成熟的主播团队在做透年轻人平台后,又选择一个新的未被开垦的老年人平台继续赚钱。旅游旅居旅游旅居在银发文娱的各种变现方式中相对走得比较成功。疫情前的2019年,多个数百万粉丝的公众号矩阵能够将旅游旅居收入做到千万量级。另外,一家位于上海地区的老年退休生活平台,以电视节目、公众号、直播间、老年报、线下活动为运营载体,据称拥有一百多万老年会员,2019年旅游收入曾达到数亿元。变现之路如何打通以上梳理足以说明,银发文娱的大多数变现方式仍未走通,像旅游旅居这种验证走通的模式在过去几年又受到疫情的阻击,仍需要一定时间恢复。而银发文娱之所以如此难以变现,背后逻辑可以用一个简化的等式帮助说明,即变现收入等于用户规模乘以用户平均收入。一般来说,超大用户规模匹配低用户平均收入或者中低用户规模匹配高用户平均收入,两种方式都能实现理想的收入,前者代表是雁过拔毛的互联网广告,后者代表是重度氪金的游戏。恰好银发文娱在过去十年的发展里,常常是中低用户规模匹配中低用户平均收入,与上述两种情况都不相关,变现收入自然提不上来。在用户规模上,银发文娱项目在经历前期用户高增的流量红利后,不久就会受到同类竞争者和新兴平台的挤压影响,用户规模很容易出现增长放缓进而大量流失。上文提到糖豆2020年中老年用户超过2亿,但具有实际商业变现价值的月活用户肯定显著低于用户总量,而且在经历同为短视频竞争对手的抖音、快手、微信视频号的轮番争夺后,这个数字无疑会进一步降低。根据QuestMobile数据,2022年8月糖豆的银发人群月活跃用户仅为311.8万。这一数字显著低于同期头部短视频平台的广场舞KOL.根据QuestMobile,2022年8月银发人群用户在典型广场舞KOL月活跃用户规模,“小帅健身广场舞”为946.7万,“华州敏儿广场舞”为726.4万,另外还有多位KOL月活跃用户在300万-400万之间。主打视频制作的彩视也受到新对手的强大竞争。根据QuestMobile,2022年8月银发人群在视频工具App行业月活跃用户规模排名中,彩视仅排名第五,月活跃用户仅58万,而排名第一的是2019年上线、抖音官方推出的剪映,月活跃用户高达848万。微信和抖音、快手上虽然有一大批专注银发人群的公众号矩阵和银发网红,但粉丝量大多集中在三五百万量级,与动辄千万粉丝的剧情段子、颜值主播等大号争抢广告收入毫无竞争优势,如果选择直播带货,与美妆、服装大号竞争的专业度又显得很不够,后者百万粉丝却可以年销上亿,靠的不只是粉丝数量,更是对产品设计和供应链的掌握。在用户平均收入上,前文已梳理,大多数情况下银发付费用户对线上业务能够贡献的收入在几十元至一两百元之间,而且付费用户在整个银发用户里占比并不高。之所以线上收入提不起来,是因为大多数App和公众号、小程序、抖音号、快手号,主要精力都放在内容的制作和传播上,与银发用户缺乏线下场景深度互动,银发用户看完即走,双方之间缺乏情感维系和信任感,从而无法形成强粘性和持续变现能力。因此银发文娱项目要想走通变现模式,无非是两条路,一条是做大用户规模之路,初期依靠流量红利、内容红利积攒大批银发用户后,不要留恋这个单一用户群体,而是果断迅速向全年龄段尤其是中青年人群进发,就如B站、小红书初期圈定90后年轻用户后,果断向80后甚至70后进军,然后依靠超大用户规模赚取广告收入;另一条是做深用户信任之路,初期依靠线上方式积攒大批银发用户后,果断加强线下运营,线上线下双轮驱动,做深做透银发用户对平台的信任感,然后用高客单价的产品进行变现。本文来源;虎嗅APP文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/02
校园,超级App下一个必争之地
超级App,竞逐校园。超级App正涌入校园细分场景。校园,正成为超级App们眼中的“价值洼地”。近日,饿了么APP上线“学生版”。目前,全国5000多所高等院校的学生已可体验新版本功能。当学生用户将配送地址切换至具体高校,并完成学生账户认证后,饿了么APP将显示定制化的学生版主页以及学生专属福利:既包括学生群体特别偏爱使用的甜品饮品、爆红包等功能,还包含校园食堂、学生拼团、品牌学生价等定制化功能。此外,作为饿了么APP学生版的特色核心服务,饿了么还为学生提供了配送入校、送到宿舍、校园食堂、校内“同学说”等升级服务。饿了么学生版相关负责人钟朝平透露:“在所有外卖人群中,学生用户的需求很特别,一个是他们更关注价格和优惠,另一方面出于校园环境的特殊性,他们也需要更多特制化的服务,例如点校园食堂订单、外卖送到宿舍、同宿舍一起拼团下单等。”当然,饿了么在校园场景想做、能做的事远不止外卖服务——即时零售是其更核心的着眼点。“即时零售”是指用户在线下单商品,一小时或半小时内即可送达的业态。根据艾瑞咨询最新发布的《中国即时配送行业研究报告》测算,2023年即时配送行业规模约为3410亿元,预计2028年行业规模将超8100亿元。在线外卖用户规模达5.3亿人,占全国网民数量比重近50%,基于高比例的外卖渗透,消费者即时电商消费习惯逐步养成。据饿了么平台数据显示,最近一年来自高校的订单已达超10亿单规模,学生群体对外卖的需求已经不止用餐:从三餐到零售,学生群体对供给的品类、品质需求都在不断提高,美妆、娱乐等悦己生活服务消费占比正在快速提升。饿了么于8月发布“数字校园生态联盟计划”,宣布将全面升级“智慧校园”数字化服务,并继续加大对高校场景的平台投入。近日,杭州师范大学资产经营有限公司下属师达公司与饿了么合作,联合上线高校数智校园生活服务平台校园“随e达”。据介绍,校园“随e达”平台整合了校园内的各项供给,目前已上线的美食外卖、校园超市、校园文创、师达云超、随e行、校内商业等服务内容,涵盖校园生活饮食、购物、出行等方面。同时,“随e达”可以为管理者提供校园数据的管理和分析。目前,杭州师范大学校内师生已可通过“钉钉师大生活”进入平台,选择商品下单后,可以通过支付宝或校园卡进行支付,饿了么骑手会将商品或餐品配送至校内宿舍楼外卖柜或者办公楼。通过与饿了么共同推出校园“随e达”平台,除了通过数字化提升了校内的电商购物体验,也将即时配送的物流网络规范化地引入校园。据介绍,校园“随e达”上线前三天,外卖订单量已突破10000单。目前饿了么针对校园环境定制了专属高校配送方案,比如骑手将身着统一标识的工作服,并配戴工牌,便于校方管理人员及师生快速识别身份;骑手将经过培训与考核,以掌握安全知识、服务礼仪、校规校纪;在校内骑行时,骑手会遵循25公里每小时的限速,并且不得在上下学高峰期时在人流中快速穿行……同时盯上校园市场的,还有二手交易平台闲鱼。同样在9月,闲鱼正式上线“学生鱼”新功能,这是闲鱼为学生群体打造的专属交易交流频道。当搜索到“学生鱼”时,点击顶部入口即可进入闲鱼的校园频道。“学生鱼”不仅将各大高校的校园集市搬到了线上,还设置了热帖、兴趣交流、拼团、校园新鲜事等特色功能。接下来,闲鱼还将与高校大学生合作,开启“闲鱼校园精英计划”,邀请学生参与本校“学生鱼”频道的运营。更早前,针对大学生群体,一些互联网平台也有所动作。例如,在2021年,bilibili校园便上线。bilibili校园是一个专门为同校同学推出的校园社区,它鼓励用户讨论所在学校的新鲜事,分享学习感悟和经验、展示才艺技能等。自2013年起,长租公寓平台自如启动针对毕业生的“海燕计划”,至今已有370万毕业生受益,自如累计提供的租房支持金额达12亿元。据介绍,今年的“海燕计划”预计将为毕业生提供超亿元租房支持,包括押金减免及安家基金。当前,一些线下连锁品牌也在进驻高校。9月19日,老乡鸡的首家校园店武汉大学校园店开业,这意味着老乡鸡正式布局高校市场,也是其对年轻消费者市场的一次深度挖掘。更早前,海底捞等品牌也将实体店开进大学校园。由于客流量稳定,在校园的商业业态迭代过程中,教辅、培训等教育高相关度品类最早聚焦校园市场;此后,各业态逐步布局。如今,校园人群也日趋注重价值消费、体验消费、社交消费、个性化消费,以饿了么、闲鱼为代表的泛受众类超级App正在将校园视为典型细分场景。这背后,是日益庞大的大学生市场。从用户体量来看,根据官方数据,2023年,各种形式的高等教育在学总规模4763.19万人,比上年增加108.11万人,增长2.32%。从消费水平来看,根据天猫商家成长团队发布的《青春消费阵线——校园市场的无限潜力与蓬勃前景》报告,中国高校在校生消费规模预计在2024年至2028年间从约13000亿元上升至约16000亿元。同时,人均年消费水平也在不断提高,从2015年的1.6万元增长到2023年的2.9万元,预计到2028年将达3.5万元。另据艾媒咨询发布的《2024中国大学生消费行为调查研究报告》数据显示,七成以上的受访大学生月均支出水平集中在1000-2000元之间,其中,超四成的受访大学生月均收入在1501-2000元。其粗估2024年中国在校大学生的年度消费规模约为8500亿元。本文来源:36氪文章转载于其他网络,如有侵权请联系我们及时删除!
-
24
11/02
语言模型驱动的软件工具思考:可解释与可溯源
语言模型在软件开发的应用与挑战。语言模型正在变革软件开发流程的各个环节,包括代码的生成、编辑、测试、调试等。在开发和训练代码语言模型时,人们需要统一的收集清理数据、训练模型、更新调整等。因此,我们预期,针对模型训练的分析技术将成为新的一层架构来回答“模型是如何产生某个预测的”、“模型预测是如何逐渐训练得到的”、以及“我们应该怎么做去修改和增强某个预测”等问题。在今年8月份举办的AICon全球人工智能开发与应用大会上,上海交通大学计算机系副教授林云做了专题演讲分享“语言模型驱动的软件工具思考:可解释与可溯源”,深入探讨了如何分析模型、追溯训练样本,并构建数字孪生环境来测试代码编辑模型,最后展望了未来大模型对软件开发范式的影响。以下是演讲实录(经InfoQ进行不改变原意的编辑整理)。非常荣幸能够在这里与大家分享我们团队的最新研究成果。我们一直在探索如何利用语言模型来生成代码,并深入理解这些模型背后的原理。目前,语言模型在软件工程领域的应用日益广泛,已经逐步介入到设计、编程、测试和调试等多个环节。我们的研究团队致力于将语言模型融入这些环节中。在语言模型出现之前,我们已经有了传统的代码编辑的技术,但语言模型的介入使得编辑过程变得更加智能化,我们称之为“生成式编辑”。它能够辅助我们完成整个代码栈的工作。接下来,我会介绍我们与字节跳动合作的一个项目,该项目旨在自动定位代码编辑的位置,并在特定行生成所需的编辑内容。在语言模型生成代码之前,我们也在解决测试用例生成的问题。按照传统方式,我们会将测试用例的生成视为一个约束求解问题,关注如何实现分支覆盖和路径覆盖。但语言模型的出现让我们开始思考,我们是否可以实现需求覆盖,即不仅仅覆盖特定的分支,而是结合需求和分支,生成更符合项目特点的测试用例。此外,我们也在探索如何让语言模型自动调试代码。过去,开发者常常自嘲说,自己写的bug含泪也要修复完。但现在,也许我们要含着泪修复AI帮我们写的bug.AI时代的代码调试问题也许是一个新的挑战。因此,我们也希望有新的智能化技术能够帮助开发者发现并修复bug.在这项工作中,我们的目标是将调试问题转化为在代码执行轨迹上找到第一个出错的步骤,然后让语言模型在这个轨迹上通过交互不断定位错误,并指导开发者了解错误是如何发生的。训练软件工程语言模型的“套路”当我们深入研究语言模型在软件工程中的应用时,我们逐渐发现了一个反复出现的模式,或者称之为“套路”。在这个套路中,我们是这么做的。首先,我们需要收集和清洗来自Git、JIRA、Jenkins等软件工具的数据,将它们转换成训练数据集。这些数据集随后被用来训练代码模型,最终这些模型被集成到集成开发环境(IDE)中。无论是进行测试生成、调试、代码生成还是测试用例生成,我们通常会遵循这个方式。但随着时间的推移,我们意识到,尽管这个套路在业界得到了广泛应用,但在实际应用中却并不简单。例如,当我们训练出一个模型后,我们首先想知道的是,模型为什么会做出这样的预测。毕竟,模型本质上是将大量的数据集压缩编码到代码中,然后利用其泛化能力进行各种生成任务。那模型的预测是如何产生的?我们知道,模型并非一蹴而就,而是经过数小时甚至数天的训练,经过多次迭代才得到的。因此,我们想要了解模型预测的具体生成过程。最终,我们希望能够提出一些方案,自动矫正模型中不符合我们期望的行为。上述套路解决的是"AIforSE",即我们提出了AI解决方案来帮助程序员完成任务。但随着AI解决方案的增多,我们发现需要一个"SEforAIforSE"的基础框架,以支持和管理这些AI解决方案。案例研究:交互式代码编辑(CoEdPilot)在具体介绍上述框架解决思路前,我想先跟大家介绍下我们与字节跳动合作的一个研究案例,这个案例恰恰符合我们之前讨论的“套路”。我们称这个过程为“编代码、编辑定位”。在现代代码仓库中,编写代码并不总像Copilot那样,给出一个注释后自动生成十几行代码。更多的时候,我们面临的是编辑任务:根据需求修改某一行代码,删除一行,或者更改一行中的几个字符串。这种编辑往往是跨文件的,一次编辑可能会影响到多个文件。在我们的案例中,我们首先关注的是编辑定位问题。当出现一个需求或者一个编辑请求时,我们希望能够迅速定位这个编辑在整个项目中如何传播。接下来,我们想要解决的是编辑生成问题。一旦我们知道某一行需要修改,我们就想进一步推荐出这一行具体应该改成什么样子。我们希望通过人机交互来实现这一点,利用人的反馈来进一步推荐下一轮的编辑定位和编辑生成。我们的工作目前集中在开发一个VisualStudioCode插件上,这个插件旨在帮助用户根据输入的需求自动定位代码修改的位置。用户一开始会输入需求,插件会生成一个定位提示,显示整个文件中可能需要修改的地方。在这个提示中,红色标记代表可能需要修改的地方,而绿色标记则表示可能需要添加内容的位置。当用户选择某个特定的位置后,插件会通过一个差异比较(DIFF)视图来展示这一行代码可能的修改方式。用户可以从多个选项中选择。一旦用户接受了某些建议或者拒绝了某些建议,这些反馈就会被收集起来,作为新一轮输入和迭代的数据。这个插件的核心思想在于,我们通过收集代码提交的信息来训练模型。每个提交通常包含多个代码修改,这些修改也被一并收集。通过训练,模型能够在整个项目中滑动窗口,识别出需要修改的地方,并推荐出具体的修改内容。代码编辑的基本设计思路我们的基本设计思路是将代码编辑任务分解为几个小模型来实现,避免直接将整个代码库喂给一个大模型,这样做的原因主要是为了减轻模型的计算负担,包含两个核心部分:任务分解和矫正反馈。首先,任务分解的目标是将一个大模型拆分成几个小模型,这样可以减少模型的输入量。例如,输入1万行代码与输入30行代码的效果是有很大差异的。我们使用三到四个小模型来完成这个任务。其次,我们希望通过与用户的交互来实现矫正反馈。具体来说,我们首先使用一个小模型,通过滑动窗口来预测文件中可能需要修改的位置。核心思想是比较两段代码的语义相似度和依赖关系,以判断它们是否会产生协同变化。在得到这些信息后,我们使用另一个小模型,将问题转化为一个分类问题。给定一个滑动窗口,窗口中有多行代码,我们根据之前的编辑来预测每一行可能发生的编辑类型。这样,我们不需要处理一个很大的窗口,只需要对每一行进行分类即可。训练模式采用的是指令微调,即给定一个指令(如替换或保留),然后让模型预测每一行的编辑类型。得到编辑类型后,我们使用另一个基于Transformer的编码器-解码器模型来生成具体的内容。当我们确定某一行需要添加或替换时,就让这个Transformer生成相应的内容。这样,我们就大大减少了活动窗口的大小。最后,我们使用另一个模型来学习之前的编辑,将之前的编辑作为Transformer输入和反馈设计的一部分。通过这种方式,我们在定位的准确性和生成内容的准确性上都达到了一个可接受的程度。哪些训练数据影响了这次预测?当我们构建并训练了代码模型后,我们希望它能够自动定位代码编辑的需求,并最终集成到IDE中。然而,我们发现在某些情况下,模型的表现并没有达到我们的预期。为了解决这个问题,我们首先需要进行训练归因分析,以了解为什么模型会做出特定的预测。我们想要回答的核心问题是:为什么模型认为某行代码需要修改,或者需要插入代码?为了解决这个问题,我们从三个角度进行思考:样本归因、表征归因和仿真验证。归因问题在机器学习领域是一个经典问题。我们想要了解的是,哪些训练数据真正影响了模型的预测。当我们面对一个严格的数学问题陈述时,我们可以这样表述问题:给定一个训练样本Zi,如果我们对这个样本进行权重调整(增加或减少ϵ),模型会发生什么变化?因为模型是在看到数据后才进行神经元调整的,所以我们想要了解哪些预测相关的神经元是由哪些数据调整的。在数学层面上,这个问题可以通过一个公式来描述。我们有一个测试集_X_test和一个训练集_X_train.我们想要了解_X_train和_X_test之间的关系。如果我们发现_X_train和_X_test的值是一个大的正数,这意味着如果我们更多地训练_X_train这个样本,模型在预测_X_test这个样本时的表现会变得更好。相反,如果_X_train和_X_test的值是一个大的负数,比如说-0.9,这意味着如果我们更多地训练_X_train这个样本,_X_test这个测试样本的预测会变得更糟,说明这两个样本之间存在矛盾。如果_X_train和_X_test的影响因素是0,那就意味着无论我们增加还是减少对_X_train的训练,对_X_test的预测都没有影响。要理解模型预测的影响关系,我们可以从理论上推导出三个决定性因素。首先,模型对测试样本_X_test的拟合程度会影响其预测。每个测试样本都有其损失函数和标签,模型在拟合这些样本时会朝某个方向移动,这个方向反映了参数空间的调整。其次,模型对训练样本_X_train的拟合方向也是一个重要因素。如果模型在拟合_X_test和_X_train时方向一致,那么它们之间会有正向影响;如果方向相反,则会产生负向影响;如果方向的夹角为零,则它们之间没有影响。最后,Hessian矩阵及其逆矩阵代表了所有样本之间的交互效应。Hessian矩阵是损失函数对所有参数的二阶导数的矩阵,其逆矩阵反映了样本间的相互作用。然而,计算Hessian矩阵的逆在实际中是非常困难的,尤其是当模型参数达到百万或千万级别时。为了解决这个问题,我们提出了一种改进的想法,即通过多次变异模型来模拟Hessian矩阵的效果。我们可以通过在参数空间上进行抽样来模拟Hessian矩阵,观察模型在多次变异后对训练样本和测试样本的影响。如果变异后的模型在训练样本和测试样本上都显示出对抗性或正相关/负相关的影响,那么我们就可以认为它们之间存在相互影响。通过这种技术,我们发现模型预测中的一些问题并不总是源于模型架构,而是可能源自训练数据集本身。例如,在开源数据集上运行模型时,我们可能会发现模型的某些错误预测实际上可以归因于训练数据的标注问题。例如,在服装分类任务中,开源数据集可能会将非常相似的服装款式标注为不同的类别,而人类观察者可能会认为这些款式是相近的。这种令人困惑的标注会影响模型预测的性能。为此我们设计了新的影响函数在很多开源数据集上找到了很多标注bug,并发表在了NeurIPS’22的会议论文《DebuggingandExplainingMetricLearningApproaches:AnInfluenceFunctionBasedPerspective》上。将影响函数应用于代码编辑生成任务我们将影响函数应用于代码编辑生成任务中,以评估每个预测背后的有益和有害训练样本。有益的训练样本是指那些通过增加训练量可以提升特定测试样本表现的样本,而有害样本则是指增加训练量会降低某些测试样本表现的样本。我们发现,对于任何一个测试样本,有害样本和有益样本的数量通常都非常少。通过这种方式,我们可以发现模型预测的具体影响。例如,当我们的模型预测需要将代码中的版本号从0.01更改为0.02时,使用影响函数进行归因分析,我们可以看到与数字变动相关的训练样本,这与模型的表征空间是相关的。在函数调用中添加参数时,模型应该定位到代码窗口中的某一行,并预测需要替换的行以添加类似的参数。对于这样的测试样本,模型的预测和归因分析将揭示出形状相似的代码标注,指出在语法上需要添加子节点。这种归因分析有助于我们理解哪些训练样本对预测有重大贡献,从而发现可能存在的标注问题。例如,我们可能会发现原本认为相似的代码样本实际上在语义上有很大差异,这表明我们的标注可能存在问题,或者标注的语义不够丰富。此外,在代码编辑中,commitmessage的质量非常重要。相似的commit或者过长的commit可能会导致信息量减少,从而形成打架效应。这意味着,为了提高代码编辑的质量,我们需要确保commitmessage的书写质量非常高,避免使用过于冗长或含糊不清的描述。我们觉得未来可能会有好几个方向可以尝试,第一是通过影响函数,可以帮助我们去做数据分析,判断到底哪些是脏数据,或者说非预期的训练数据产生了坏的影响。第二个是当产生坏的影响之后,有可能我们需要对整个数据进行重标注,所以我们也在尝试在训练过程当中动态地去更新某一些标注,因为我们永远不能保证人标的东西就一定是对的,或者说预期的标注就是我们想要的。最后是想去观测,如果有些训练样本有非常高的互影响的话,就意味着整个训练数据集有可能是冗余的。我们大量地在收集数据集,但是数据集过大真的是件好事吗?对此我们其实也是存疑的,我们有没有可能利用一个小但质量非常高的数据集产出一样的效果?这对模型训练效率的影响其实是非常大的。表征归因在讨论完样本归因之后,我们来谈谈表征归因。表征归因是深度学习的核心,因为深度学习本质上是表征学习。无论是处理图像、声音还是文本,深度学习的目标是将这些输入转换成向量,然后进行矩阵运算。以文本为例,深度学习模型需要将每个单词映射到向量空间中。在这个空间里,语义相近的词汇(如“男孩”和“女孩”)的表征应该彼此接近,而语义相距较远的词汇(如“猫”和“狗”)的表征则应该相距较远。在自然语言处理(NLP)中,我们希望模型能够通过单词的embedding来捕捉这种语义关系。如果我们能够训练模型,使其对每个样本或单词的表征具有这样的语义效果,那么模型就能逐渐发展出接近人类的预测能力,从而能够进行更自然的交流。然而,我们面临的一个主要挑战是,真实的表征空间可能是512维、1024维或768维,而人类很难直观理解高维空间中的变化。模型训练初期,样本的表征通常是随机分布在高维空间中的。随着训练的进行,这些表征会逐渐变化,最终形成一种分布,反映出人类的理解能力。我们可以将模型训练过程视为样本表征在高维空间中的运动。一开始,这些表征是无序的,但最终会形成一个有结构的分布。我们希望能够在二维空间中帮助人们理解这些表征是如何变化的,例如,猫和狗的表征是否真的接近。这将能为提供巨大的信息量,帮助我们更好地理解和改进模型。在过去的工作中,我们的目标是将模型的训练过程可视化。模型训练本质上是样本表征在高维空间中的变化过程,但由于这些维度通常是数百甚至数千维,这使得直观理解变得困难。因此,我们希望能够将这一过程投影到二维空间,使人们能够直观地看到,例如,两只猫的样本表征如何逐渐靠近,而猫和狗的样本表征如何逐渐远离。将训练过程转化为二维动画后,我们不仅可以观察到模型在表征空间中的运动,而且还可以与动画进行交互和分析。在模型训练过程中,我们通过可视化技术观察到了一个有趣的现象,即干净数据和噪音数据在表征空间中的运动轨迹存在显著差异。例如,在某个训练阶段,我们可以将橘黄色的点视为干净数据,而黑色的点代表噪音数据。如果我们观察到最后一个训练阶段,比如模型学习"apple"这个词汇时,会发现无论是干净数据还是噪音数据,模型最终都能达到很高的准确度。然而,它们在训练过程中的运动轨迹却大相径庭。干净数据在经过一两次训练迭代后,很快就能定位到它应该在的区域。相比之下,噪音数据则表现得像“钉子户”,在初始位置上停留很长时间,直到训练的后期,由于模型内部的某种“拉力”作用,它们才最终被拉回到适当的位置。这种现象不仅揭示了噪音数据在训练过程中的顽固性,也为我们提供了一种新的思路,即如何在训练过程中有效地去除噪音。通过观察数据在表征空间中的运动,我们可以识别出那些不易被模型正确学习的噪音样本,并采取相应措施。回到代码任务本身,我们注意到基于检索的生成(RAG)是一个非常热门的领域。在这种情况下,检索能力变得至关重要。在这个语义空间中,我们可以观察到代码表征的分布情况,同样也可以观察到代码描述的表征分布。这种映射允许我们在给定一个自然语言描述时,在整个语义空间中搜索与其最接近的代码表征。这样,与描述最相关的代码就可以被检索出来。基本上,这是一种在高维空间中进行代码检索的方法。通过这种方式,我们可以根据代码的自然语言描述快速找到相应的代码实现,从而提高代码检索的效率和准确性。这种方法利用了深度学习模型的能力,将文本描述和代码映射到同一个高维空间,使得相关代码的检索变得更加直接和有效。高层语义编辑距离在深入研究模型训练过程中的表征时,我们有时会发现模型可能只是学习到了表面现象,而并没有真正理解人类所理解的概念。例如,当我们探讨高层语义编辑距离时,可以通过比较两个序列或字符串来观察这一点。我们可以将字符串进行匹配,就像在本科课程中学到的字符串匹配算法那样。这种方法也可以应用于代码,因为代码中的每个token也都有一个高维的语义表征向量。例如,return这个词在代码中会有一个语义表示,我们可以计算两个return之间的语义相似度,从而判断它们在语义上是否大致相似。通过这种方式,我们可以对整篇代码进行理解。如果我们使用像CodeBERT这样的模型来训练代码,使用表征距离或高维空间的语义表征来对齐两篇代码。但是,在训练的初期,代码可以被正确对齐,但在训练的后期,模型可能会将versiondownload这个词与if的表征关联得最近,而将data的表征与return的表征关联得更近。这种现象表明,尽管模型似乎学习到了预测代码和描述之间相似性的能力,但它的理解仍然与人类的理解存在较大差距。这提示我们在模型训练和评估时,需要更加关注模型是否真正理解了代码的语义,而不仅仅是表面形式上的相似性。通过深入分析表征,我们意识到在模型训练过程中需要加强代码和描述之间的对齐能力。目前,我们主要采用对比学习的方法来训练模型,但为了进一步提升模型的性能,我们计划在训练中加入更多的对齐机制。仿真验证(数字孪生)这部分我们想讨论的是一种称为仿真验证的技术,也就是数字孪生。在模型训练完成后,我们经常会遇到模型的评估指标,如准确率、召回率和F1分数等,看起来非常高的情况。这些数字并不总能代表模型在实际应用中能显著提升程序员的工作效率。有时候,即使模型的BLEU分数只差一点点,程序员可能仍需花费大量时间进行调整。另一方面,即使BLEU分数差异很大,也不一定意味着模型的预测结果不对。这是一个非常微妙的问题。为了解决这个问题,我们提出了数字孪生验证技术。在我们与字节跳动的合作中,我们进行了用户实验,让学生实际使用我们的工具进行编码。我们发现,即使在学术环境中,验证模型的预测是否真正有用是一项工作量非常庞大的工作。因此,我们希望通过代码提交,即编辑历史的一个结果,来恢复过去的开发过程。我们称这个项目为“Historian”,就像考古学家通过文物来还原历史一样,我们希望通过已知的代码提交来恢复程序员过去的代码编辑过程。在这个过程中,我们需要解决一些问题,例如两个编辑之间可能存在的偏序关系,确定哪个编辑先发生,哪个后发生。通过恢复整个代码编辑的开发过程,我们可以在这个过程中引入模型,并观察在什么情况下模型真正有助于提升生产力,或者是否实际上在拖累开发。我们需要评估模型的表现是否真的有助于提高效率,或者它是否与不使用模型时的表现相当。基本思路:从提交历史重现“当年的”开发过程在我们的工作中,我们建立了一个复杂的工作流程,旨在通过提交历史来重现程序员当年的开发过程。这个流程的出发点是确定在何种程度的BLEU分数下,模型应该采取下一步行动。我们的目标是利用历史记录来创建一个虚拟的程序员,这个虚拟的程序员能够基于单个提交(commit)恢复出多种可能的编辑过程。在这些编辑过程中,我们的模型将被引入。我们允许对这个虚拟程序员的行为进行配置,例如:在检查推荐时需要花费多少时间?如果推荐错误,他将被延误多长时间?如果推荐正确,他将花费多少时间进行审查?我们会根据不同情况来设定这些参数。在这个过程中,我们会模拟实际的编辑场景。例如,如果我们输入一个描述并产生编辑,这个过程可能需要77秒,这包括了第一次编辑、加载语言模型的时间(因为模型不是凭空产生的),以及推荐编辑位置所需的时间。如果我们的推荐正确,我们将计算产生的延迟;如果错误,我们将计算延误的时间。我们还会模拟用户检测推荐所需的时间。通过这样的模拟,我们可以与正常的编辑过程进行比较,以确定模型是在帮助用户还是影响用户。通过这种方式,我们基本上可以观察到,当模型被应用于实际的开发过程时,所有的性能指标,如准确率和召回率,实际上都会出现一定程度的下降。这是因为在现实世界中,模型的表现受到多种因素的影响,包括与人类用户的交互。这个就是我们的SEfor(AIforSE)框架,旨在探索和改进人工智能在软件工程中的应用。在这个框架中,我们预见到未来业界将越来越多地采用这种模式。程序员的工作方式正在发生变化,他们不再只是调用和开发API或修改第三方库,而是可能会需要收集训练数据来微调模型,就像调整第三方库一样。模型本质上是一种特殊的第三方库,程序员在未来可能需要学习如何编写更有效的提示(prompt)来与这些模型交互。这可能会形成新的工作模式。随着这些新工作流程的出现,我们面临着如何进一步提升和赋权这些模式的问题。目前的模型是概率模型,每次输出可能并不稳定,同时还需要解决模型输出的幻觉问题。为了解决这些问题,我们尝试提出了一些方法。例如,样本归因可以帮助我们追溯并理解对特定预测产生贡献的训练样本。通过分析学习后的样本表征,我们可以在表征空间上进行更深入的交互式分析。我们还提出了一个仿真验证过程,也就是数字孪生的概念。通过创建一个虚拟的程序员来进行编辑操作,我们可以模拟实际的开发过程,并观察模型在其中的作用。我们希望这种虚拟仿真的方法能够帮助程序员或大型企业验证模型的实际效用。如果我们想在生产环境中引入一个新模型,我们需要说服生产团队这个模型确实能够带来产能增值。通过数字孪生技术,我们可以模拟模型在实际开发过程中的表现,从而预估它可能带来的效益。展望:AI原生的软件工程实践随着人工智能时代的到来,软件工程的实践将发生根本性变化。过去,编程主要是为了交付软件产品。但在AI时代,编程不仅仅是为了交付,它还具有数据标注的意义。我们编写的每一行代码、提交的每一个commit、撰写的每一个需求,都可能被用来训练模型。这意味着代码编辑和整个编辑过程实际上在无形中完成了数据的标注工作。由于模型训练对数据质量有很高的要求,我们预见未来将出现一种AI原生的软件工程实践。我们将利用现有的数据来训练模型,然后评估这些模型是否符合我们的预期。有了新模型后,我们可以反向工作,利用模型预测的好坏来评估过去的编程实践是否合适。这个过程类似于梯度下降,从模型预测到生产过程或代码标注的反向优化。我们可以通过模型的性能和对数据质量的分析,反过来指导整个开发实践,告诉我们何时应该如何编写代码、如何记录代码历史,或者如何提出问题。以前,我们通常依据一些软性指标来推荐最佳实践,未来我们将有更硬性的理由来证明为何要这样编写代码。因为这样做可以使模型训练得更好。通过这种方式,我们可以不断调整实践,形成一个AI原生的软件工程范式,最终推动整个过程的自动化。本文来源:36氪文章转载于其他网络,如有侵权请联系我们及时删除!