ElevenLabs联合创始人兼CEO马蒂·斯塔尼舍夫斯基表示,语音正成为AI的下一个主要交互界面——随着模型超越文本和屏幕,人们将越来越多地通过这种方式与机器互动。
在多哈网络峰会上,斯塔尼舍夫斯基告诉TechCrunch,像ElevenLabs开发的语音模型最近已从单纯模仿人类语音(包括情感和语调)发展到与大型语言模型的推理能力协同工作。他认为,这导致了人机交互方式的转变。
他说,在未来几年,“希望我们的手机都能放回口袋,我们可以沉浸于周围的现实世界,而语音将成为控制技术的机制。”
这一愿景推动了ElevenLabs本周以110亿美元估值融资5亿美元,并在AI行业中得到越来越多的认同。OpenAI和谷歌都将语音作为下一代模型的核心焦点,而苹果似乎正通过收购Q.ai等方式悄悄构建语音相关、始终在线的技术。随着AI扩展到可穿戴设备、汽车和其他新硬件,控制方式正从点击屏幕转向语音交互,使语音成为AI下一阶段发展的关键战场。
Iconiq Capital普通合伙人塞斯·皮埃尔蓬特在网络峰会上呼应了这一观点,他认为虽然屏幕在游戏和娱乐领域仍很重要,但键盘等传统输入方式开始显得“过时”。
皮埃尔蓬特说,随着AI系统变得更加自主,交互本身也将改变,模型将获得护栏、集成和上下文,从而在用户较少明确提示的情况下做出响应。
斯塔尼舍夫斯基指出,这种自主性转变是当前最大的变化之一。他说,未来的语音系统将不再需要详细说明每个指令,而是越来越多地依赖随时间建立的持久记忆和上下文,使交互感觉更自然,并减少用户的努力。
他补充说,这种演变将影响语音模型的部署方式。虽然高质量的音频模型主要部署在云端,但斯塔尼舍夫斯基表示,ElevenLabs正致力于采用混合方法,结合云端和设备端处理——这一举措旨在支持新硬件,包括耳机和其他可穿戴设备,在这些设备上,语音将成为持续伴侣,而非需要时启用的功能。
ElevenLabs已与Meta合作,将其语音技术应用于产品,包括Instagram和该公司的虚拟现实平台Horizon Worlds。斯塔尼舍夫斯基表示,随着语音驱动界面扩展到新形态,他也愿意与Meta合作开发其Ray-Ban智能眼镜。
但随着语音变得更加持久并嵌入日常硬件,它也引发了严重的隐私、监控担忧,以及基于语音的系统在更贴近用户日常生活时将存储多少个人数据——像谷歌这样的公司已被指控滥用此类数据。