大模型时代下的应用革命正在加速到来。
今年以来生成式AI与大模型的研究与应用进展高潮迭起,4月初天猫精灵一个接入了阿里大语言模型通义千问的个性化DEMO,彻底点燃了智能终端市场。更拟人的对话方式、更有情感的交互能力、人格化标签,打破了智能终端一度难以寻找新想象力的僵局。
然而就在近日,网上一款研发中的AIGC新型硬件demo——天猫精灵智能随身眼镜又引起了我们的关注。视频中可以看出,虽然外观、重量上该眼镜与普通眼镜相差无二,但有千问大模型样机的加入使其能够“才思敏捷”,骨传导技术的加持也建立了一个相对私密对话环境。
(相关资料图)
例如UP主在吃饭时问道,“我好想吃面,可是我最近在健身,淀粉不能摄入过量怎么办?”天猫智能眼镜迅速给出了具体建议,“可以吃一些低热量面食,荞麦面、意大利面”;此外,后续UP在日常环境下与其交流爱好、游戏时,天猫精灵智能眼镜也能够像朋友一样对答如流。
事实上,ChatGPT类产品实现语义理解最快延伸出的场景,首先是文字,然后是图像和语音,而考虑到语音输入较文字输入的便捷性和实用性,智能音箱、智能眼镜、智能耳机等拥有语音交互能力的场景,可能会最先受益。
如果从场景倒推的话,更垂直的终端产品,也能在更垂直的大模型加持下,用更低的成本带来更专业、更个性的体验。而在垂直之下,“微调模型+智能终端”的打法,也将会成为应用升级的新风向。
个性化大模型升温
毋庸置疑,在行业共同作用下,大模型在通识任务上的表现越来越出色,基于超大规模语料训练的大模型在知识评测等任务上超越了人类平均水平。以ChatGPT等为代表的大模型出现,更让人切身感受到AI的智能水平。
然而这种以广义理论框架搭建、公用数据训练出的通用大模型,对于普通用户来说,在使用时也缺少个性,有时候更像是一个问答机器,而非像朋友一样互相交流。
在主流通用大模型的基础之上注入专业化、个性化是一个重要的探索方向,个性化大模型也逐渐成为“大模型时代”的另一种不同玩法。加入了人格化的标签、融入了更加细分领域的数据后,一个微调大模型会变得更加独特有趣。
例如在办公场景中,戴上眼镜便可以通过语音命令操作电子邮件、日程安排,当不清楚文档内容时,还可通过询问智能眼镜口头回答问题;在户外露营时,遇到陌生物种时,可以通过语音描述,得到鉴定和解说。甚至在开车外出时,可以通过眼镜来寻找目的地并且导航路线。
另外,这款眼镜本身是一个骨传导眼镜,技术核心在于用一种新的震动发声装置,采用了振子专利技术,搭配猫耳算法,让设备不入耳就能听到声音,并且能够有更小噪音、更低失真的声音表现。
目前在实验环境下加入了千问大模型demo,大模型在进行微调后,就能够成为交互更加流畅智能的个性化随身AIGC终端,可以支持佩戴者和眼镜随时进行不间断的语音交流,配合骨传导的技术特点,形成完全私密的声场。
“骨传导+定制大模型”的组合不仅仅可以应用于眼镜,也可以用于耳机、头盔等穿戴设备中。这一定程度上也标志着AIGC硬件会逐渐走入更加个人化的、随身的垂直使用场景中。
事实上,相对于“广而泛”的ChatGPT,垂直GPT的发展优势十分明显。
个性化大模型多是以深度解决垂直领域问题为主,以产品开发为目的,即企业在自己擅长的领域开发一个专业版大模型,然后直接应用到自己的相关AI产品上,使该产品实现或增强某种功能。
并且从成本角度来看,个性化大模型是针对特定领域或行业进行优化,只需利用该领域内的专业数据进行训练,避免了通用大模型数据采集的高成本和高难度。
钱学森在《系统工程论》提出这样一个核心观点,那就是做任何技术产品,都要从现有条件出发,不求单项技术的先进性,只求总体设计的合理性,充分利用现有资源,各个子系统需要充分协作,服务于整体目标。
把这个理论放在如今的大模型上,一样适用。大模型再厉害,也只是一项技术,它必须应用到具体产品上,才能发挥最大作用。因此大模型并不是做得越大越通用就越好,而是应该基于产品,聚焦在某个需求上,合理开发和利用,进而实现大模型在产品中功能的最大化。
落地更快更真实
如果要说大众对AIGC的终极幻想,那一定是人均一个贾维斯这样的全能助手,这也是目前行业的终极目标。
虽然大模型技术打破了AI难以用于不同领域的壁垒,加上多模态的快速发展,智能助理的发展方向一定是越来越全能,但不得不承认的是,科幻电影中的贾维斯离我们还很遥远。
不过目前可以实现的是,利用个性化大模型具备的专业性、独特性、定制性,微调出针对不同应用场景的智能助理,并且快速落地、快速应用,落地到消费端的产品上。
例如前不久爆火的接入了千问大模型的Sound Pro,通过知识增强、工具增强、个性化对话增强、人类反馈强化学习,四个训练步骤便实现了“知识+情感+记忆+人设”统一体验,在接入天猫精灵后能够实现多轮流畅对答、符合人设的人格化表达、富有创意的随机创作等能力,被称为“鸟鸟分鸟”。这本质上是“个性化”大模型,能够塑造特定的人格化特征,对“看法是什么”、“喜欢吃什么”等开放式问题作出符合自身“人设”的个性化回答。
比如问大模型“怎样做一道美味的意大利面?”,设定为专业厨师的大模型可能会分享正宗的意大利面做法,例如使用哪种面粉、如何制作面团、如何制作酱汁等等;而一位素食主义者大模型可能会提供素食意大利面的做法,例如使用哪些蔬菜和豆类代替肉类等。
这些高可玩性与可用性,给语音交互注入了前所未有的生命力,让行业初步看到大模型所激发的交互跃迁。
当然,除了以家庭中心为入口的智能设备外,终端穿戴式AIGC产品想象力更为丰富。因为人类物理条件限制,在许多场景最合适的语音智能载体还是耳机或者钢铁侠那样的眼镜。除非脑机接口或其它新技术突破,目前语言依然是人类交流的最通用方式,也是与智能助理交流的最佳方式。
更聪明的交互、更丰富的终端
2021年以来,传统智能音箱行业面临需求下滑、创新不足的困境。出货大跌的原因也不模糊,随着消费者的认知回归理性,交互模式机械化、产品严重同质化的智能硬件产品早已算不上新颖,且智能家居的“入口”概念早已淡化。
用户希望与智能音箱、手表等智能终端设备实现类似人与人之间的“对话式”交流,但多数设备无法理解复杂的语言场景,只能实现播放音乐、天气查询、快递查询等简单的功能,并且现阶段没能依靠技术或内容或某一特征打动更多消费者。
另外虽然众多终端配备了儿童模式、老人模式、青少年模式等个性化模式,但在实际使用中,除了内容上的些许不同,其他方面并未像“鸟鸟分鸟”那样真正的有个性。
方正证券认为,智能音箱需要更加“智能”,才能找到自己的独特定位,得到长足发展,而ChatGPT这类生成式AI具有智能对话、多模态表达的支持,对于智能音箱等都是可以弥补缺陷的方案。
比如将这种个性化定制的大模型可能和图像生成联系在一起,激发更多潜能。如为每台音箱、智能眼镜等智能终端产品装备一个虚拟数字人管家,通过用户的训练掌握用户的日常习惯,做到更私人、更个性。
行业的底层逻辑是产品周期,周期的强度取决于产品创新与痛点挖掘。目前行业处于库存逐步去化、周期将起未起的拐点时刻。对于企业来说,当下已经过了争夺“入口”的阶段,而大模型的爆发也促进了软硬一体的生态发展,所以,从实际体验出发,寻找更聪明的交互、更丰富的AIGC终端形态,不拘泥于单个“入口”,才是未来各大厂商角逐的方向。
据不完全统计,目前除了天猫精灵在深耕“大模型+智能硬件”外,百度旗下的小度科技也宣布将融合文心一言,打造针对智能设备场景的人工智能模型“小度灵机”,并且应用到小度全系产品;科大讯飞也将其星火大模型落地应用层,融合进了讯飞智能办公本中。
在「科技新知」看来,“个性化大模型”有望成为引爆下一轮产品创新的关键,不仅仅是文本、语音交互,图像、视频甚至手势动作都有望实现革新,而随之带来的便是,更多AIGC智能硬件的涌现,以及整个行业的二次爆发。