不久前,美国人工智能研究实验室OpenAI发布了对话语言模型ChatGPT,并开放了免费试用。短短5天的时间里,ChatGPT就吸引了百万用户。在OpenAI给出的描述中,ChatGPT是一个“可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求”的对话模型。
开放试用后,大量用户开始了与ChatGPT的对话,从闲聊、回答日常问题,到生成诗歌、小说、视频脚本,以及编写和调试代码,ChatGPT展示了其令人惊叹的能力。作为当前最火热的AI模型,ChatGPT这一波破圈影响力比两年前的GPT-3还要更大。
如此智能的机器人对话模型,仿佛与我们记忆中略显“笨拙”的机械式AI对话已经完全不同。据CIC灼识咨询报告,AIGC起源于深度学习技术的快速突破和日益增长的数字内容供给需求。在这些年里,人工智能创作内容(AIGC)已经飞速成长,甚至在很多领域大大超越了专家学者的精准性和博识水准。
但是,在如火如荼的AIGC技术发展中,有一个问题却始终没有得到明确的解答,那就是AIGC虽然这么新颖、好玩,但是它的商业化价值到底如何,又能应用于哪些具体的场景呢?
硅基智能,一家以服务智能化和知识智能化为核心的人工智能创新企业。硅基智能的核心产品包括AI语音机器人和AI数字人;同时步局AIGC领域,不断研发,通过数字人+AIGC,实现更接近于人类、个性化、善学习的数字人应用方案。先后获得腾讯、红杉中国、招银国际等知名机构7轮融资。
今天,《灼识三点半》栏目,对话硅基智能的创始人兼董事长司马华鹏先生,分享硅基智能在数字人及AIGC的布局及落地。
受访嘉宾:司马华鹏,硅基智能创始人兼董事长。连续创业者。年以联合创始人和技术总监身份的加入Lanseal,从事企业安全软件的研发;年在欧洲创立Returnil杀毒软件,获得VTB银行数千万元投资;年创立Toolwiz,前后获得和君资本和好望角资本数千万元投资。年成立硅基智能。
灼识访谈人:冯彦娇,灼识咨询合伙人。在人工智能和物联网等领域有丰富的咨询顾问经验,服务过第四范式、旷视、合合信息等多个知名企业的投融资活动。
以语音交互为起点
用AI解放人类
冯彦娇:
硅基智能从语音机器人起家,年开始有虚拟形象产生,进入虚拟数字人领域。这一步业务的拓展,硅基智能是基于什么样的考量?两者间具备哪些业务及技术的协同性?
司马华鹏:
相比语义、语音交互产品,数字人加入了视觉元素,需要一个逼真的形象,让用户能够有交互的沉浸感。如何让数字人在与用户的交互中做到非常自然,比如说数字人的声音和形象要同步,嘴型、动作和表情要匹配是有难度的;而且以上同步效果要在对话中实时推理完成的,这对算法和计算性能的要求非常高。
从底层技术来看,数字人是从文本低维信号转变为图像高维信号的过程,只有同时具备自然语言理解(NLP)、语音识别和生成,视觉合成这样的整体AI能力,才能给用户一个自然逼真的体验。硅基智能是做语义起家的,逐步发展到语音和视觉多模态技术,形成全栈AI的能力。数字人的核心“大脑”部分,主要是依赖NLP技术实现人与人的双向交互,而NLP正是我们的核心技术优势,这是许多厂商所不具备的。
冯彦娇:
市面上存在各类AI公司,我们为什么选择了语音机器人和虚拟数字人这个赛道?
司马华鹏:
人类目前从事着非常多的繁重且重复性的脑力劳动,并且面临着劳动力不足的问题;硅基智能要将它改造。通过向社会输送硅基数字人,我们给各行各业赋能、增加他的劳动力,每个人都有自己的数字分身,帮助企业数字化转型。让AI帮人类做大量痛苦的、没有创造性的工作,这样人类就会被解放出来做更多具有创造性的工作。同时还提高了企业的运营效率,做到了降本增效。比如现在南京各个区的警察在做反诈宣传;警力不足的情况下,硅基智能提供数字警察,虚拟数字人加入做反诈宣传,完成反诈宣传工作。类似的还有,师资(名师)、医生不足的情况,提供数字分身满足社会需求。
冯彦娇:
基于我们现在的AI底层技术和布局,硅基智能未来是否有其他多元化的业务布局计划?
司马华鹏:
我们希望能够成为一个AIGC的公司。
AIGC,也就是人工智能自动生成内容;是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式。
当我们迈入Web3.0时代,人工智能、关联数据和语义网络构建,形成人与网络的全新链接,内容消费需求飞速增长。UGC、PGC这样的内容生成方式将难以匹配扩张的需求,AIGC将是新的元宇宙内容生成解决方案。AIGC的生成利用人工智能学习知识图谱、自动生成,在内容的创作为人类提供协助或是完全由AI产生内容。不仅能帮助提高内容生成的效率,还能提高内容的多样性。
AIGC的生成利用人工智能学习知识图谱、自动生成,在内容的创作为人类提供协助或是完全由AI产生内容。不仅能帮助提高内容生成的效率,还能提高内容的多样性。
AIGC这方面做的好的公司,目前国内还不多。比较有代表性的是字节,头条的很多内容都是AI在创作。硅基智能作为长期深耕NLP的先行者,以AI技术为支撑,探索更多元化的应用。硅基智能已经打造出国内领先的2D/3D数字人,赋能了10多家虚拟数字人,在金融、政务、教育、医疗、保险等行业推向市场。虚拟数字人基于AIGC生产的内容不仅可以生成虚拟人的形象和声音,并且可以创造出说的内容,自主创作内容为虚拟人创造“灵魂”。我们希望未来能够通过数字人+AIGC的模式,让AI自主完成大量内容的、生成和呈现,给这个社会创造更多价值。
实验室“造人”
直击各场景痛点
冯彦娇:
数字人有哪些潜在落地场景?硅基的数字人目前完成了哪些场景的落地?
司马华鹏:
目前硅基智能正在帮银行做智能虚拟客服,还有全新的交互领域,比如教育、电商、营销等领域。
我们罗列了80多个职业,这些职业都是以人与人之间交互展开的,最典型的比如电销、直播、客服、教育、咨询、律师等等。我们的落地场景就是围绕这80个职业场景展开。
我们最近在跟一家公司合作,给他们提供数字人面试功能。候选人来公司面试,数字人会先提问过往经历、心理、技能等方面提前预设的几十个问题,用AI淘汰不符合预期阈值的候选人。通过数字人面试的候选人则可以和真人HR谈Offer。另外一个例子是智能客服,比如可以让数字人电话进行疫情流调工作,收集被访人的防疫信息比如从哪个外省过来,是否有做核酸。这类工作他本身的价值有限,会慢慢随着我们的AI交互水平提升,变得更加数字化、智能化,把人从中解放出来。
硅基现在也可以去做一些难度更大、互动更多的领域,比如直播、短视频。我们现在已经帮助各行业3万多名KOL拥有自己的“数字分身”,用于IP形象打造、视频的制作、直播及其它应用场景。直播和短视频场地、场景搭建、人员等前期投入成本高。硅语元宇宙应用产品,用数字人制作短视频,无需真人出镜,不需要复杂的场景、灯光、拍摄等人员,只需输入文案一分钟就可以批量生成数字人视频,可以节约90%的成本与时间。硅基智能数字人直播机产品让2D超写实数字主播替代真人主播,实现智能实时回复、24小时直播,能把成本降至元/天。
冯彦娇:
硅基数字人的变现模式是怎么样的?
司马华鹏:
在中国有一些相对强势的甲方,比如央企或一些大公司,往往需求比较复杂,需要一些定制化的服务来契合,单一化的产品很难契合他们。但是同时也存在大量中小企业,他们需要的是平台性的、简单化的产品。这两类需求肯定是长期并存的。
我们的战略是采取ProjectProduct双螺旋路线。在定制化项目中中提升产品性能和标准化,在产品中去帮助项目化的一些落地。这两种模式并非是对立的,而是并存的。
以元宇宙为温床
孵化更智能数字人
冯彦娇:
自从元宇宙概念火爆后,出现了很多公司开始布局数字人。如何理解数字人和元宇宙的关系?
司马华鹏:
元宇宙与AI不可分开,在元宇宙中AI能够得到充分发挥和发展,是AI发展的核心平台。比如我们今天做了一个机器人、一个Siri,或者哪怕是一个音响,大家觉得他很笨很傻、性能不好,不愿意再去尝试;但如果你不愿意给他机会,他就没有机会去成长。对于整个AI的发展来讲,你必须得有一个真正适合他的乐园,让他发展和生存。这就是我认为的元宇宙的逻辑,不单单是大家现在看到的简单地把现实世界3D化、虚拟化,根本上是给AI发展提供了一个练兵场。
冯彦娇:
这跟自动驾驶有点像,技术厂商会通过仿真系统不断训练模型;正好看到过您也把元宇宙和自动驾驶发展阶段做了类比,如何理解这两个行业之间具体的关联性?
司马华鹏:
我认为现在虚拟人在元宇宙的平台里面,其实还是有人在控制的,就有点像有人驾驶。有点像我们在这个世界通过物理传感器去调动另外一个世界的虚拟人,像一个牵线木偶去控制它。
慢慢会变成半自动驾驶;在虚拟世界的虚拟替身具有一定的自动化运行的能力,比如说我上班的时候,他在里面以我分身的方式赚钱。虚拟人可以替人类做很多事情,甚至把人类现实中的一些工作在元宇宙里分担掉。
未来你可能真的能看到一个虚拟人在里面有一定自我的意识,在元宇宙里面自主做出一些行为。虚拟人的成长过程,就像我们养孩子。最初我们教他很多东西,他慢慢长大了,独立了,就不再需要我们时刻在身旁。小时候我们可能是牵着他或者开车载他,后来他跟我们物理连接断开,就变成情感连接了。所以我们畅想未来的终极元宇宙里面,我们的虚拟人具有一定的自主意识,两边通过情感进行连接。