ElevenLabs CEO：语音将成为AI的下一个交互界面

ElevenLabs联合创始人兼CEO马蒂·斯塔尼舍夫斯基表示，语音正成为AI的下一个主要交互界面——随着模型超越文本和屏幕，人们将越来越多地通过这种方式与机器互动。

在多哈网络峰会上，斯塔尼舍夫斯基告诉TechCrunch，像ElevenLabs开发的语音模型最近已从单纯模仿人类语音（包括情感和语调）发展到与大型语言模型的推理能力协同工作。他认为，这导致了人机交互方式的转变。

他说，在未来几年，“希望我们的手机都能放回口袋，我们可以沉浸于周围的现实世界，而语音将成为控制技术的机制。”

这一愿景推动了ElevenLabs本周以110亿美元估值融资5亿美元，并在AI行业中得到越来越多的认同。OpenAI和谷歌都将语音作为下一代模型的核心焦点，而苹果似乎正通过收购Q.ai等方式悄悄构建语音相关、始终在线的技术。随着AI扩展到可穿戴设备、汽车和其他新硬件，控制方式正从点击屏幕转向语音交互，使语音成为AI下一阶段发展的关键战场。

Iconiq Capital普通合伙人塞斯·皮埃尔蓬特在网络峰会上呼应了这一观点，他认为虽然屏幕在游戏和娱乐领域仍很重要，但键盘等传统输入方式开始显得“过时”。

皮埃尔蓬特说，随着AI系统变得更加自主，交互本身也将改变，模型将获得护栏、集成和上下文，从而在用户较少明确提示的情况下做出响应。

斯塔尼舍夫斯基指出，这种自主性转变是当前最大的变化之一。他说，未来的语音系统将不再需要详细说明每个指令，而是越来越多地依赖随时间建立的持久记忆和上下文，使交互感觉更自然，并减少用户的努力。

他补充说，这种演变将影响语音模型的部署方式。虽然高质量的音频模型主要部署在云端，但斯塔尼舍夫斯基表示，ElevenLabs正致力于采用混合方法，结合云端和设备端处理——这一举措旨在支持新硬件，包括耳机和其他可穿戴设备，在这些设备上，语音将成为持续伴侣，而非需要时启用的功能。

ElevenLabs已与Meta合作，将其语音技术应用于产品，包括Instagram和该公司的虚拟现实平台Horizon Worlds。斯塔尼舍夫斯基表示，随着语音驱动界面扩展到新形态，他也愿意与Meta合作开发其Ray-Ban智能眼镜。

但随着语音变得更加持久并嵌入日常硬件，它也引发了严重的隐私、监控担忧，以及基于语音的系统在更贴近用户日常生活时将存储多少个人数据——像谷歌这样的公司已被指控滥用此类数据。