01 我们是谁

我们是阿里巴巴天猫精灵语音交互团队

随着人工智能的蓬勃发展，人机交互技术的应用与人类产生了越来越密切的联系。在万物互联的今天，人机交互的场景进一步拓展，交互方式正经历着从传统的键鼠、触屏到语音、多模态的革新，更加接近人与人的自然交互。

智能音箱做为人机交互技术大规模应用的代表性产品，成为了很多用户生活中不可或缺的家庭智能助手。天猫精灵是阿里巴巴打造的人工智能助手，目前拥有千万级的用户，整体排名国内第一、世界第三，是全球最大的中文人工智能助手，致力于以用户家庭为中心的全场景覆盖，利用人机交互技术为用户提供家庭智能助手服务。

在AIoT时代，智能助手的自然交互能力是用户体验中极其重要的一环。语音交互作为天猫精灵主要交互方式之一，承担了“听清”并“听懂”用户的重要任务。这些技术的背后正是天猫精灵语音交互团队。天猫精灵语音交互团队属于天猫精灵人工智能部。整个人工智能部由一批杰出的科学家和优秀的算法工程师组成，围绕天猫精灵音箱及AIOT场景探索打造新一代的智能交互技术。

02

我们的产品

自2017年发布至今，天猫精灵陆续推出了十多款智能音箱产品，多形态的终端充分拓展了自然交互的场景，赋予了智能助手更多的想象空间。

天猫精灵的交互能力也在近1000品牌的数亿台智能设备上得到应用，覆盖家居、车载、随身、云端等诸多场景，助力人机交互更加泛在、多态、自然。

目前，天猫精灵的语音交互能力支持了17款自研产品，拥有超过数千万的用户, 同时以模组形式输出语音能力，支持了数百款生态设备，包括定制机、儿童故事机、大屏sdk等。

03

我们做什么

围绕语音交互的关键技术，团队的主要研究方向和工作包括：

语音增强麦克风阵列设计、信号定位、信号处理语音增强、深度回声消除、深度语音增强、声场感知等。
语音唤醒端到端唤醒、端云一体化唤醒、低功耗唤醒、多模态唤醒以及多模态误唤醒校验等。
语音识别声学模型、语言模型、端到端ASR、个性化场景化语音识别、自适应识别纠错、儿童专属ASR、英文ASR、方言识别、自然对话、多模态识别等。
说话人识别端到端说话人识别、远场说话人识别、半监督说话人识别、多任务学习、文本相关说话人识别、多模态说话人识别等。
口语评测中英文口语评测、半开放式口语评测、多模态口语评测等。
音视频内容理解音频理解、视频理解、音乐理解、内容安全等。

04

主要技术发展

天猫精灵语音交互团队致力于不断研发升级语音算法和系统能力，持续提升用户的语音交互体验。

自2019年开始，团队以大数据驱动的智能语音系统为主要方向，以提升用户体验为核心目标，不断探索如何结合前沿算法技术的升级和自身的业务场景，逐步对整个语音链路进行全面升级。

通过自研深度语音增强、端云一体化的端到端唤醒和误唤醒抑制、融合式端到端语音识别系统、个性化场景化语音识别、自适应语音识别增强、儿童专属语音识别、新一代自然对话、语音语义一体化，和多模态主人识别等技术的迭代和落地，团队将天猫精灵语音感知系统逐步打造成完全数据驱动的全新一代语音交互系统，带给用户不断提升的语音交互体验。

阿里天猫精灵语音交互团队，等你加入！

01 我们是谁

02

03

04

赞赏金额：20元

提示