小米最强AI语音技术_老虎社区_美港股上老虎

小米最强AI语音技术

Florida
2021-08-10

有很多人会说小米是贴牌厂、组装厂，但是其实小米的技术可以说的有很多，但是其中一个点就值得我们去思考，去学习。

小米AI技术的发展印证了小米技术的发展道路印迹。记得在2020年小米开发者大会（MIDC）上，小爱同学5.0正式上线。小爱同学由语音助手这个角色正式升级为了智能生活助手。加入了智能这个词汇，8月10号，小米还会发布旗下首款高端智能音箱，该音箱将支持UWB技术，或许会成为小米MIX 4新技术的联动对象之一。

用过小爱音响的米粉们估计也会知道，在小爱同学持续进化的背后，是小米AI技术的不断深耕与发展，这不是吹牛，大家可以比对一下这个行业中AI技术公司，语音AI可以说小米排行前位，siri某些地方都不如小米。

小米AI专门设立了一个实验室，这个实验室在计算机视觉、计算机语音、计算机声学、自然语言处理、知识图谱、机器学习、论文与竞赛等方面均有不小的成绩。小米自研AI技术用在了小米的各项业务中，比如手机、AIoT等，其中AI技术HDR还助力小米10 Pro/至尊纪念版夺得DXOMARK评测第一。

下面就小米AI分点为大家讲解。

一、计算机语音

计算机语音技术就是对我们人类说的话进行技术处理，这个比较常用，在蔚来、理想汽车中也可以体验到，我们平常使用小爱同学打开空调、关闭电视时进行的语音交互、语音生成等都用到了计算机语音技术。

小米AI在语音的唤醒、识别、生成等方面都取得了很大的成绩。

1、语音唤醒

2020年，小米自研两麦语音唤醒、低功耗语音唤醒方案，技术上取得了重大突破。

误唤醒率降低25%、唤醒延迟优化33%，Redmi小爱触屏音箱Pro 8英寸电池版在唤醒性能没有降低的情况下，待机时长增加了30%。

在唤醒方面，小米语音唤醒技术为了兼顾低功耗与高性能，采用了双级唤醒策略。低功耗待机唤醒词检测模型，利用子采样与共享隐含层等技术，减少模型资源消耗的同时保证召回率在一个较高的水平。

高性能误唤醒检测模型，采用粗粒度建模单元，结合局部信息与长时上下文信息，高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本，再经过数据扩充技术，提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

2、语音识别

小米语音识别也取得了明显的进步，主要包括4个方面：

1）多通道端到端语音识别算法的研究取得一系列重要进展。论文《MULTI-CHANNEL AUTOMATIC SPEECH RECOGNITION USING DEEP COMPLEX UNET》作为研究成果之一已入选IEEE信号处理协会的旗舰活动SLT 2021会议。

提出的算法与亚马逊AI团队提出的神经波束形成方法相比具有约10%的性能提升。

2）业务识别准确率大幅提高，识别错误率下降50%+。

3）在细分人群和细分场景等方面取得了明显的改进。小米语音对音乐点播、翻译查词等头部场景的中英文混合识别能力进行了专项优化，英文歌曲识别准确率较改善前提升100%，翻译查词识别准确率提升50%。另外，针对儿童等细分人群识别准确率低的问题也进行了专门的声学**，童音识别准确率提升近10个百分点。

4）动态识别、并行推理等新技术应用改善了线上服务能力。动态识别技术极大地提高了对突发或新增内容的支持力度，对新热资源、网络新梗、突发名词等已实现分钟级动态增强。在语音识别业务 batch 推理优化方面，小米的在线语音识别业务通过深度优化Kaldi中模型推理模式，将原来的单序列模式改为batch模式，帮助业务的吞吐量提升3倍。

3、语音合成

小爱同学在声音体验上做了很多创新，如多情感语音，对声音进行情感化处理。小爱同学声音体验升级的背后，其实正是小米自研语音合成技术的迭代创新。

这个技术正是对端到端语音合成技术的框架做了重大升级才得以体现的，只需目标发音人少量的录音数据，便可实现在音色和情感自然度等层面的合成效果高保真还原。

此外，首先通过在模型中加入声纹编码和风格编码，使得目标音色在利用其他数据完善自己对各类型文本驾驭能力的同时，保存了本真声音特点；其次，小米还上线了基于深度神经网络的声码器，使得生成的声音在音质上和对细节的刻画上更趋于自然饱满。

在小米10上用户只需要20句话就能够复刻自己、恋人、亲人的声音。小米是目前行业内唯一一家大规模落地语音助手场景的公司。

4、声纹识别

小米新增了儿童细粒度识别，可以进一步保护儿童内容健康。此外，小米将声纹的注册成本由原先的5句降低到3句，大幅降低了用户的注册成本。之后又通过前沿的深度学习技术，直接将3句降成0句，用户几乎零注册成本就可以使用声纹能力。目前该技术已在小米电视5上线，大大提高了声纹用户覆盖率。

目前小米自研的声纹能力，已落地在手机、音箱、电视等多种设备上，诞生了声纹锁、个性化聊天响应、声纹追剧、声纹支付等很多用户非常喜爱的场景功能。

二、计算机声学

小米声学技术中的通话降噪、麦克风阵列、协同唤醒、组合立体声、全屋播放、扬声器均衡等算法已经达到行业领先水平，已在多款小爱同学产品上线。

1、协同唤醒

随着用户家里的智能设备越来越多，小米希望通过全场景智能协同，为用户提供多设备跨场景的灵活应答和执行能力。

首先在协同唤醒方面，小爱同学会从设备距离、活跃状态、形态等综合条件判断，选择最优的设备应答并倾听，避免一呼百应。在控制功耗、不增加时延的同时，实现与其他设备的高效协同，突破原本“就近唤醒原则”的限制，实现根据场景不同唤醒不同设备的协同唤醒。

其次是协同响应方面，小爱同学解决了空间位置关系感知、设备能力统一建模、用户上下文状态管理等方面的技术难题，让小爱同学在接收并理解你指令后，自主选择出设备能力最能满足当前语义需求的设备，更好的满足你的需求。

最后是协同提醒方面，借助小米IoT生态的优势，小爱同学会即时通过海量小米智能设备获知环境状态，加上对用户家居控制习惯的学习记忆，预测你潜在的设备控制需求，适时主动为你作出提醒和建议，例如说晚安提醒你关灯，温度高时提醒你开空调或风扇。

2、阵列增强

在日常生活场景中，如果说话的人距离智能设备的麦克风较远，加上周围存在的噪声、多径反射和混响，会导致麦克风收取信号的质量下降，严重影响语音识别率。

针对这一问题，小米推出了自主研发的阵列唤醒算法，有效提升噪声场景平均唤醒率及回声场景平均唤醒率。

小爱音箱Pro及小爱音箱全量采用六麦自主研发的阵列唤醒算法，成为小米首款落地的全自主研发的智能音箱。

小爱音箱Art、小爱音箱Art电池版、Redmi小爱触屏音箱Pro 8英寸电池版搭载了小米自研两麦阵列增强技术，采用两麦盲源分离降噪前端，通过盲源分离、降噪、回声消除等技术，在多声源的嘈杂环境、音箱自身播放音乐时，都能结合语音增强技术，消除噪音的强干扰，获得干净、准确的人声音频。

3、组合立体声/全屋播放

小米AI自研分布式技术，研发出了基于Wi-Fi组网的分布式放音技术，并实现了国内智能音箱首次落地组合立体声的放音能力。

用户只需说一句“全屋播放XXX的音乐”，即可实现同账号同Wi-Fi下的所有设备自动组网、并自动同步播放相同音频。在实现语音自动组网的同时，也仍然支持APP内操作组建播放组。

除此以外，组合立体声功能还实现了支持蓝牙、Auxin场景，用户可以通过蓝牙或Auxin模式，自由地在组合立体声上播放自己喜爱的音乐。

三、自然语言处理

1、MiNLP平台

小米推出了自然语言处理平台（MiNLP平台）。目前MiNLP平台已经升级到了3.0版本，包含数十项NLP功能，已有30多个业务使用该平台，每天调用量达到80亿次。MiNLP平台通过对分词功能进行升级，在语料自动标注、领域数据增强、深度学习模型、人工干预机制、多端支持等方面有了很大的创新。

2、多模态内容理解

“多模态”，简单来说就是：拥有各种传感器的智能设备，除了能听（耳）会说（嘴）外，同时还能利用摄像头（眼）观察、利用底盘云台（脚）移动等，从而理解用户意图，和用户进行沟通。

小米在视觉模块上投入了较多精力，小爱同学可以集成键盘输入、语言输入、图像输入，自动截屏进行翻译、识物的语音与屏幕融合，还有扫一扫集成的六大核心功能：扫文档、翻译、扫码、识物、扫题、名片。

从语音输入走向视觉输入，小米的人工智能，一直在追求更自然地交互、更懂用户的需求的方向上努力，从未停下脚步。

4、人机对话

语音交互中的全双工连续对话能力，是目前业界比较关注的热点。全双工语音交互的特点是具备“边说边听，可随时打断”的能力。小爱同学是首个在手机上实现自然连续对话的智能语音助理。

小爱同学5.0的对话式主动智能，改变过去语音助手有问才有答的产品形态，小爱同学将会自己和你沟通，像人一样发起问题来增进对你的了解，拥有了关于你的记忆，背后强大的全场景主动服务能力也得以更好的施展。

为了让小爱同学能像人一样，拥有“记忆”，小米克服了很多难点，首先，有赖于小米NLP技术支持的30多个业务场景、日调用次数达80亿的深厚积累，用户对小爱同学说过的话会经过NLP分析处理，并主动学习其中关于用户的知识，另外，小爱同学还能计算哪些问题可以主动向用户提问，并在合适的时机加入到对话式主动智能的沟通队列中。

然后是记忆的存储，用户专属的小爱同学云端大脑会为用户建立多维度的个人画像，实现了全设备个人信息互联互通，每次交互都可以结合个人画像进行计算，产生出面向用户的个性化结果。

四、知识图谱

知识图谱，简单理解就是知识库，包括小爱同学的问答、搜索、推荐等能力都有涉及。知识图谱对小爱应用场景支持更广泛，除了知识问答场景外，支持音乐、视频、古诗、菜谱、复杂推理、闲聊等场景。小爱同学还增加了字、词、篇章、古诗的教育类能力，强化了“世界之最”以及“十万个为什么”知识专项。

小爱同学背后的知识图谱技术的提升主要体现在以下几个方面：

知识融合：多源异构知识融合技术不仅支持了文本知识融合还支持了多模态知识的融合；

知识构建：知识自动构建技术已经可以支持用户定制及敏捷扩展，可以更高效的支撑更多的业务；

知识关联：目前已经可以支持复杂的关系推理和知识推荐场景；

概念图谱：概念图谱体系持续扩展，目前概念体系扩展到了97%的实体；

实体链接：实体链接技术更加成熟，效果在小爱场景上准召都到98%以上。

未来，小米会用人工智能的技术和产品，为我们带来更美好的AI体验，还会应用到智能汽车领域，相信美好。

@小米公司 $小米集团-W(01810)$

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。