从AI绘画、AI写作到数字人,AIGC即AI生成内容已经为大众所熟悉。现在,它迎来了新的拐点:大模型和开源模式的推动,降低了AIGC的应用门槛,千亿市场的商业想象空间也徐徐展开。巨头纷纷布局大模型,AI的“iPhone时刻”到底会提供哪些机会,边界又是什么?
AI大模型的竞争,已经趋于白热化。
连前百度集团总裁兼首席运营官、现奇绩创坛创始人兼CEO陆奇,也在近期的一次活动中,声称自己快“跟不上”大模型狂飙猛进的速度了。“我实在不行了,论文实在是跟不上,代码实在是跟不上。Just too much(太多了)。”
美国人工智能实验室OpenAI发布的ChatGPT在2023年初火爆后,引发了各领域对人工智能社会效应的再认识,也将AIGC(AI Generated Content,生成式AI,即利用人工智能技术来生成内容)产业发展推上了高潮。
2023年3月14日,GPT-4大语言模型发布。随后,全球科技公司展开了AI大模型的“军备竞赛”。尽管大模型用途已可超出AIGC范畴,但ChatGPT作为生成式AI的代表,也给AIGC带来了深刻改变。
在过去的时间里,无论是AI绘画、数字人还是聊天机器人,AIGC领域已诞生了不少新应用。人类独有并引以为傲的“创造力”部分,正在受到机器的挑战。现在,大模型和开源模式推动了AIGC应用创新速度,也正在改变产业生态。同时,它也带来了通用人工智能时代是否将至的讨论,以及版权、隐私权等相关法规方面的争议和挑战。
站在现实和虚拟世界的分界线上,探讨AIGC未来的发展路径,也成为了当务之急。
01、AIGC产业拐点:“AI的iPhone时刻”
“我们正处于AI的iPhone时刻。”
英伟达创始人黄仁勋在3月21日的GTC大会上,多次强调了这句话。在2023年GTC大会当晚,半导体巨头英伟达推出了专为ChatGPT设计的推理GPU(图形处理器)等多种产品和服务,将2023年以来的AIGC浪潮推到了高点,被外界称为AIGC的“疯狂夜晚”。
在年初和投资者的电话会议上,黄仁勋也曾表示,生成式AI带来了科技的“转折点”。
事实上,AIGC概念早已存在。在互联网的内容生产方式经历了PGC(Professionally Generated Content,专业生产内容)和UGC(User Generated Content,用户生产内容)阶段之后,随着自然语言生成技术NLG和AI模型的成熟,生成式AI走到了爆发的前夜。
AIGC在技术场景上可以划分为文本生成、音频生成、图像生成、视频生成,以及图像、视频、文本间的跨模态生成等。ChatGPT作为自然语言处理工具,就主要用于文本生成。
近年来,用户对AI生成内容的需求日益增长。随着社交平台的发展,短视频、直播等不同模式的涌现,由专业化团队主导的PGC与由用户生产内容的UGC,受到产能和内容质量的限制,越来越难以满足用户对内容消费的旺盛需求,直接推动了内容生产方式迭代。
AIGC得以快速发展,更直接的原因是得益于底层技术的突破。2021年1月,OpenAI团队将其跨模态深度学习模型CLIP开源;2022年7月,去噪扩散模型Diffusion推出。得益于算法的不断进步,AI自动生成文字和图片等的质量都得到了极大提升。
在2022年夏天,一幅名为《空间歌剧院》的美术作品在美国科罗拉多州博览会上获得一等奖。而据其作者表示,这幅画作实际上出自新型AI绘画工具“Midjourney”之手。随后,AI绘画应用风靡一时。Midjourney也成为ChatGPT之外最为“炸裂”的AI应用。截至2023年2月,搭载了该款应用的Discord频道用户数已超过1081万。
而基于语言大模型GPT-3.5的ChatGPT在2023年初发布,引发了广泛关注,也让业界认知到,预训练模型(即大模型)将给AIGC带来质的飞跃。
所谓大模型,是指通过训练,从大量标记和未标记的数据中捕获知识,并将其存储到大量的参数中,以实现对各种任务进行高效处理的技术架构。一般来说,参数越多,模型越大;ChatGPT作为大模型应用的代表,其参数已经达到了千亿级别。
相较之前的自然语言小模型,ChatGPT基于对海量数据深度学习形成的通用模型,展现了令人印象深刻的泛化能力,比如上下文理解和思维链逻辑推理能力,并处理更细微的指令。换句话说,它在交流上,比起以前的AI语言模型来,更接近“真正的人类”了。同时,ChatGPT不仅可以进行对话,用户还可以利用它写作文章、写代码、写研报等,展现出强大的通用性。
在AIoT时代,当更多的设备联网之后,人们也在期待新的交互方式产生。在上一次AI浪潮中,智能语音曾一度被普遍认为是最有可能的下一代交互入口。但人工智能如何商业化落地,成为其发展的难点。
现在,ChatGPT的创造性突破也意味着,大模型的应用或将助力AI语音助手等突破现有的瓶颈,给“交互”带来彻底的变革。也因此,在黄仁勋提出的类比中,ChatGPT堪与苹果公司当年推出iPhone相比,是一次了不起的革命,将成为所有AI公司竞逐的目标。
开源的预训练大模型,可以将之想象成为AI的操作系统,催生出更多的AIGC工具和应用。OpenAI发布了ChatGPT插件,并开放了API接口,供开发者调用。在部分用户看来,若将ChatGPT类比于iPhone,这类插件衍生出的众多工具,就是iOS系统上的App Store。
AIGC产业也在2023年迎来突破式的发展拐点。模型主导内容生成的时代开启,这不仅意味着,任何人都将可能快速创作出高质量内容;生成算法、大模型为代表的底层技术的突破,也让AIGC产业生态发生了改变。
02、产业生态改变:云厂商竞逐大模型
目前,国内AIGC产业链已经初具雏形。其中,基础层由于行业技术和规模壁垒较高,且AI芯片、云计算等市场基本已被头部厂商瓜分,很难存在新玩家进入的机会。模型层赛道则目前还没有实现规模商业化,之前尚属于“少数人”,存在较大的市场空间。
面临巨大产业机遇的可能,互联网头部企业和创业公司纷纷加速涌入。
随着2023年3月百度发布“文心一言”,2023年成为“AIGC大模型爆发元年”,通用算法大模型成为当前头部公司AI“军备竞赛”的主力方向。
资本也闻风而动,带动了一批出身于大企业技术高管和“学院派”的高端人才们创业,一起“抢滩未来”。
事实上,早在百度于2023年3月发布“文心一言”之前,包括BAT、华为等科技巨头,均早已在大模型领域有所布局。
头部公司研发大模型,除了瞄准空白市场外,更多地则是出于自身业务需求,以及破除AI商业化难题的考虑。
云计算和AI服务提供商们,已探讨了多年人工智能商业化落地问题。做平台,并推进AI技术在行业场景中落地,是国内人工智能行业一以贯之的思路。早在2020年百度智能云发布的战略中,百度就提出“云智一体”,通过云计算与人工智能的融合创新,打造智能基础设施和通用AI产品,降低企业获取和使用人工智能的门槛。而这也已成为国内相关厂商们普遍选择的路径。
有业内人士认为,大模型或可为“普惠AI”的实现带来可能,让通用人工智能(AGI)不再是“空中楼阁”。
头部公司们在算法研发、算力上具备持续投入能力,并拥有海量数据,以及丰富的产业落地场景;打造通用大模型,与场景融合,配合平台支持应用落地,可打造开放的生态体系,形成良性的循环。
GPT-4发布后,作为OpenAI的投资方之一,微软宣布将通过Microsoft 365 Copilot,植入GPT-4 模型。用户在Office所有的应用程序中快速启动它,可使用AI技术协助进行创作、编辑、分析文档。
微软Office“全家桶”的推出震动了业界,也给其他大厂们提供了一个应用的范例。这进一步让科技企业们看到了“通用大模型+产业模型”推进AI产业化新的可能。一旦这条道路走通,将为AI商业化难题带来新的解法。
推出通义千问大模型后,阿里表示,阿里云也将面向企业提供更普惠的AI基础设施和大模型能力。未来每一家企业在阿里云上既可以调用通义千问的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型。此外,阿里巴巴的全部产品未来也将接入通义千问。
商汤科技也认为,超大模型与高算力成为衡量一家人工智能企业能力的主要标准。在大算力布局上,商汤此前搭建了SenseCore AI大装置,在2022年扩建后完成2.7万块GPU的部署,实现了5.0 exaFLOPS的算力输出能力,目前可最多支持20个千亿参数量大模型(以千卡并行)同时训练,最高可支持万亿参数超大模型的训练。并在大模型的能力上,推动其AI能力在各行业的应用。
区别于OpenAI,入局的国内科技头部企业,基本采用的都是“模型+工具平台+生态” 模式,基于自身业务,形成竞争壁垒。百度文心大模型,目前的内部应用方向有搜索、云服务、小度智能音箱和自动驾驶等。在文心一言发布后的1小时内,排队申请其企业版API调用服务测试的企业用户已有3万多家。
百度董事长、首席执行官李彦宏预测,大语言模型将带来三大产业机会。
第一类是新型云计算公司,其主流商业模式从IaaS变为MaaS(模型即服务),提供的模型是不是好用,成为未来云计算公司的竞争奥义。
第二类是进行行业模型精调的公司,可以基于对行业的洞察调用通用大模型能力,为行业客户提供解决方案。
第三类是基于大模型底座进行应用开发的公司即应用服务提供商,随着通用AI平台的成本降低,众多厂商都可以加入内容生成大军。
AI大模型严重依赖云服务厂商提供模型训练和部署,这盘棋局成为所有云计算厂商的必争之地。同时,也唯有软件和互联网大厂、AI科技头部公司,才有能力投入研发大模型,并支撑起AIGC在商用场景中的突破和落地。
对于垂直行业中的企业来说,应用大模型,也可以辅助它们提升产品质量、优化营销策略、改进客户服务等,企业可以提高竞争力和盈利能力,降低成本投入、提高效率。
所以,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇说,“所有行业、所有应用、所有软件、所有服务都值得基于新型人工智能技术、基于AIGC各方面技术支撑、大模型支撑重做一遍”。
对于在AI第三次浪潮的初期即投身于其中的创业者们来说,这更是一个不应该错过的市场机遇。不少公司推出了垂直行业的大模型。未来,有自研大模型或和头部公司在垂直产业合作的公司,也即将在AIGC产业发展中拔得头筹。
当然,这也关系到AI领域创新者们的“梦想”。
推出新公司百川智能的搜狗创始人王小川,就在创业的公开信里说:人类个体总有消亡的一天,但能够将毕生的知识通过语言记录下来供新生命学习、继承,文明也将因此延续。
03、千亿AIGC市场:大模型+办公已开战
作为多任务智能体,大模型的用途和生成结果已经超过AIGC的范围。但以ChatGPT为代表的大语言模型,已经成为AIGC发展的助推力量。AIGC内容生产的模式和效率或将迎来颠覆性的革新,并开拓更大的商业想象空间。
“大模型+办公”已经成为AIGC大模型商业落地的排头兵之一。在微软将GPT-4接入Office套件后,企业办公领域随之展开了AIGC商业化的竞逐。
4月18日,钉钉在2023春季钉峰会上,演示了接入千问大模型后,通过输入“/”在钉钉唤起10余项AI能力。现场演示中包括四个场景:群聊、文档、视频会议及应用开发。目前,钉钉与大模型融合场景正在测试中,将在相关安全评估完成后上线。
与钉钉同日,金山办公正式发布了具备大语言模型能力的生成式人工智能应用,暂定代号“WPS AI”。其将搭载在金山办公新一代在线内容协作编辑工具轻文档(airPage)上,未来将逐步嵌入金山办公全线产品。
今年3月,印象笔记公布了自研轻量化大语言模型“大象GPT”。同样也是在4 月 18 日,印象笔记宣布大模型驱动的“印象AI”正式开放使用,落地赋能旗下全线产品,包括印象笔记、扫描宝、收藏家、印象时间、印象图记等。
在金融领域,百度副总裁李硕曾表示,“文心一言”将率先在智能检索、投研助手、金融数字人、智能客服、智能创作等场景落地,大幅提升业务效率,带来金融行业应用的新突破。
除此以外,在电商行业中,AIGC可通过打造虚拟主播等,节省人力成本等的投入。
AIGC在文案、绘画、音视频方面的自主创作功能,也将推动文娱、影视、广告传媒、游戏领域产生生产变革。
Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%。红杉资本预计,未来2-3年内,全球AIGC初创公司和商业落地方案将持续增加,将产生数万亿美元经济价值。
根据艾媒咨询数据,预计2023年国内AIGC行业核心市场规模为79.3亿元,2028年将达2767.4亿元。
在使用大模型的基础上,更多的应用开发商可可以结合自身行业和业务需求,提供直接面向终端用户的产品和应用。在针对B端内容生产公司上,其客户主要为传媒、音乐流媒体、游戏、影视公司和视频平台等,如协助文娱公司制作视频片段、提供数字主播等。C端用户则主要包括写作者、歌手、画手等。
多数观点称,由于B端付费的稳定性及规模化带来的成本下降,AIGC商业化将先从B端开启。国盛证券也认为,B端是AIGC的主要商业模式。但以当前AIGC公司及产品的应用情况来看,普遍、一致性的商业变现模式尚未形成。国内主要出现的产品针对的行业需求痛点还不足,且底层模型、数据量等仍旧较为缺乏。
目前为止,国内AIGC应用仍然缺乏具有足够知名度并实现商业化的产品。C端用户对其的使用也主要是出于“猎奇”心理,好奇心大于应用必要性。
目前来看,文本生成属于AIGC领域发展时间最长、商业化落地较早的赛道,已有多家企业推出AI写作、AI聊天工具等产品;像ChatGPT使用率最高的功能即为文本生成,占比达72.1%。此外,在元宇宙概念的推动下,虚拟数字人也在2022年爆发,成为商业化应用典型场景之一;而AI绘画可以说是AIGC“出圈”的首个应用,在业内,知名AI绘画应用Midjourney也已经做出了商业化探索,以SaaS订阅制为盈利模式,根据其用户量估算,年营收可达到1亿美元左右。
市界研究院认为,从已有市场情况和市场规模预期看来,AIGC技术场景中,AI写作、虚拟数字人、AI绘画,或将迎来商业应用的爆发。
04、待解难题
从当前业界的反应看来,AIGC的普及和落地是迟早的事。然而,正如2009年移动互联网浪潮来临,起初受限于技术、载体、应用场景等发展缓慢,后来随着智能手机兴起,移动支付成为生活日常,移动游戏爆发,4G和5G技术相继成熟,移动互联网才真正有了用武之地。AIGC至少也要经历同样程度的历练。
当下,AIGC行业的问题主要集中在成本、版权、隐私问题和伦理等几个方面。
开源证券报告中就指出,AIGC的落地痛点在于成本高昂的通用大模型与下游垂直应用场景需求的不匹配。
OpenAI联合创始人兼CEO曾透露,ChatGPT的运营费用高得“令人瞠目结舌”。据估算,ChatGPT这类大模型的训练一次的成本接近千万美元,运营成本一个月要数百万美元。此外,算力也是制约其的瓶颈。英伟达曾透露,训练GPT-3大约使用了1000张A100 GPU芯片,该芯片官方价格约1万美元/枚。而在国内市场上,由于贸易限制,英伟达高性能芯片供给也严重不足。
此外,ChatGPT解放了创作者的生产力,但机器创作的内容也同样存在版权问题。两家顶级刊物知名学术期刊《Science》和《Nature》都禁止AI列为论文作者;国内科幻名刊《科幻世界》则明确表示拒收 ChatGPT等AI创作投稿。有艺术家更是联名对AI艺术创作工具Stable Diffusion及Midjourney的开发商Stability AI和Midjourney发出控诉。
还有安全专家提示称,如果利用AIGC生成的图片、视频、语音骗过相关的安全系统,将对目前以生物识别为基础建立的安全体系带来极大的影响。
2023年4月11日,国家互联网信息办公室发布通知,就《生成式人工智能服务管理办法(征求意见稿)》向社会公开征求意见。其中,强化了提供者的责任,从风险控制的角度入手,要求生成式人工智能产品或者服务的提供者肩负一系列职责。其中提出,提供生成式人工智能必须尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权;并禁止非法获取、披露、利用个人信息和隐私、商业秘密。
AIGC要实现商业化落地,尽管存在巨大的机遇,但实现成本和生成效率的优化只是第一步,摆在其面前的伦理和法规风险也是重中之重。
(作者 | 陈畅 杨洁,来源 | 市界研究院)