Subtle Computing 的语音隔离模型可以帮助计算机在嘈杂的环境中理解你的意思。
语音AI应用兴起,环境噪声成行业痛点
总部位于加利福尼亚的初创企业Subtle Computing正通过自主研发的语音隔离模型,致力于解决嘈杂环境下的语音捕捉难题。这项技术有望显著提升语音AI产品与服务的用户体验。
语音AI市场呈现爆发式增长
当前基于语音AI的消费级应用发展迅猛。以Granola、Fireflies、Fathom和Read AI为代表的智能会议记录工具同时获得了用户与投资者的青睐。OpenAI、ClickUp和Notion等知名企业已集成语音转写解决方案,而Wispr Flow和Willow等应用开发商则专注于语音听写技术的研发。此外,Plaud和Sandbar等硬件公司正通过专用设备实现语音转录,并运用AI技术进行深度分析与交互。
环境噪声:行业共同的技术瓶颈
这些企业面临的核心挑战在于如何在不同环境中准确捕捉用户语音——无论是喧闹的咖啡馆还是嘈杂的办公场所。
突破性解决方案:端到端语音隔离技术
Subtle Computing开发的端到端语音隔离模型,即使在噪声环境中也能准确识别语音内容。公司联合创始人陈泰勒指出:“虽然众多企业致力于语音理解技术研发,但现有方案往往需要将语音数据上传至云端进行处理,这种方式效率低下。”
该公司的技术突破在于为特定设备定制声学模型,并适配用户独特的语音特征,而非采用通用型解决方案。陈泰勒解释道:“通过保留设备的声学特性,我们的解决方案比通用模型性能提升了一个数量级,这意味着我们可以为用户提供个性化服务。”
精英团队的技术革新之路
公司由斯坦福大学相遇的陈泰勒、大卫·哈里森、萨凡纳·科弗和杨杰基共同创立。其中陈泰勒、科弗和杨杰基攻读博士学位时,哈里森正在攻读MBA。他们在史蒂夫·布兰克的《精益启动》课程中结识,共同研究计算机替代接口技术,最终创立了Subtle Computing。
陈泰勒展望道:“随着与AI交互的日益频繁,我们正在步入与设备对话的时代。但核心问题在于,设备能否在日常生活各种场景中准确理解用户——无论是在喧闹的咖啡馆,还是在周围有人的共享办公空间讨论私密事务。目前的语音技术还无法完美应对这些场景。”
技术创新实现双重突破
该公司的语音隔离模型仅需数兆存储空间,延迟控制在100毫秒内,可在终端设备直接运行。同时他们还开发了专门的转录模型,可将语音转换为文本输出。陈泰勒强调,得益于隔离模型的优化,转录模型能更准确地理解用户语音,生成更精确的文字记录。
行业认可与战略合作
高通公司已选定Subtle Computing加入其语音与音乐扩展计划,这意味着该公司的技术将与高通芯片组兼容,并应用于设备制造商的终端产品。目前公司已与某消费电子硬件品牌和汽车品牌达成合作(暂未公开具体名称),推进技术落地应用。
资本市场的强力支持
公司已完成600万美元种子轮融资,由Entrada Ventures领投,Amplify Partners、Abstract Ventures及多位天使投资人跟投,其中包括Twitter联合创始人比兹·斯通、Pinterest联合创始人埃文·夏普和Perplexity创始人约翰尼·何。
Entrada Ventures管理合伙人、前Alphabet X实验室项目总监凯伦·罗特·戴维斯表示:“语音AI领域竞争激烈,虽然通过该媒介的交互正在普及,但整体语音体验仍不理想。Subtle Computing专注于语音隔离技术,为市场带来了全新视角。”
她进一步补充:“无论AI是否会改变人们的日常时间分配,我们都可以认同:算力与机器学习的进步为语音接口突破创造了条件。Subtle Computing通过在极端嘈杂与安静环境中保持稳定的语音接口性能,提供了可靠、便捷且愉悦的语音体验,这将是真正的颠覆性创新。”
未来规划:从技术供应商到产品创新者
尽管与多家企业建立合作,Subtle Computing并不满足于仅作为模型供应商。公司透露计划在明年推出融合硬件与软件的消费级产品,但尚未公布具体细节。这一战略举措预示着该公司正朝着构建完整生态系统的方向迈进。