失效链接处理 |
AI产品l理需要了(jin)解的语音交互评h(hun)指标 PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
一?/strong>?/strong>?/strong>识别 ASR
语音识别QAutomatic Speech RecognitionQ,一般简U?ASRQ是声韌{化ؓ(f)文字的过
E,相当于hcȝx?/span>
1?/strong>识别?/strong>
看纯引擎的识别率Q以?qing)不同信噪比状态下的识别率Q信噪比模拟不同车速、RH、空?/span>
状态等Q,q有在线/ȝ识别的区别?/span>
实际工作中,一般识别率的直接指标是“WERQ词错误率,W(xu)ord Error RateQ?rdquo;
定义Qؓ(f)?jin)识别出来的词序列和标准的词序列之间保持一_(d)需要进行替换、删除或?/span>
插入某些词,q些插入、替换或删除的词的M敎ͼ除以标准的词序列中词的M数的?/span>
分比Q即?WER?/span>
公式为:(x)
Substitution——替换
Deletion——删除
Insertion——插入
N——单词数目
3 点说明:(x)
WER 可以分男奟뀁快慢、口韟뀁数?英文/中文{情况,分别来看?/span>
因ؓ(f)有插入词Q所以理Z WER 有可能大?100%Q但实际中、特别是大样本量的时候,?/span>
不可能的Q否则就太差?jin),不可能被商用?/span>
站在U品体验角度,很多Z(x)以ؓ(f)识别率应该等?ldquo;句子识别正确的个?ȝ句子?/span>
?rdquo;Q即“识别Q正)(j)率等?96%”q种Q实际工作中Q这个应该指?ldquo;SERQ句错误率,
Sentence Error RateQ?rdquo;Q即“句子识别错误的个?ȝ句子个数”。不q据说在实际
工作中,一般句错误率是字错误率?2~3 倍,所以可能就不怎么看了(jin)?/span>
2?/strong>?/strong>?/strong>?/strong>醒相关的?/strong>?/strong>
先需要介l下语音唤醒QVoice TriggerQVTQ的相关信息?/span>
Q?Q语韛_醒的需求背?/span>
q场识别Ӟ比如使用语音输入法时Q用户可以按住手Z siri 的语x钮,直接说话
Q结束之后松开Q;q场情况下信噪比QSignal to Noise Ratio, SNRQ比较高Q信h
晎ͼ单算法也能做到有效可靠?/span>
但是在远别时Q比如在音箱场景Q用户不能用手接触设备,需要进行语韛_醒,
相当于叫q个 AIQ机器hQ的名字Q引?ta 的注意,比如Ҏ(gu)?ldquo;Hey Siri”QGoogle
?ldquo;OK Google”Q亚马?Echo ?ldquo;Alexa”{?/span>
Q?Q语韛_醒的含义
单来说是“喊名字,引v听者(AIQ的注意”。如果语韛_醒判断结果是正确的唤?/span>
Q激z)(j)词,那后l的语音应该被识别Q否则,不进行识别?/span>
Q?Q语韛_醒的相关指标
a. 唤醒率。叫 AI 的时候,ta 成功被唤醒的比率。b. 误唤醒率。没?AI 的时候,
ta 自己跛_来讲话的比率。如果误唤醒比较多,特别?/span>
如半夜时Q智能音q然开始唱歌或讲故事,?x)特别吓人?hellip;…
c. 唤醒词的韌长度。一般技术上要求Q最?3 个音节,比如“OK Google”?ldquo;Alexa”
有四个音节,“Hey Siri”有三个音节;国内的智能音,比如雅Q唤醒词?ldquo;雅?/span>
?rdquo;Q而不能用“雅”——如果韌太短Q一般误唤醒率会(x)比较高?/span>
d. 唤醒响应旉。之前看q傅盛的文章Q说世界上所有的音箱Q除?Echo 和他们做?/span>
雅音箱能达?1.5 U,其他的都?3 U以上?/span>
e. 功耗(要低Q。看q报道,?iPhone 4s 出现 SiriQ但直到 iPhone 6s 之后才允怸
接电(sh)源的情况下直接喊“Hey Siri”q行语音唤醒Q这是因为有 6s 上有一颗专门进行语
xzȝ低功耗芯片,当然法和硬件要q行配合Q算法也要进行优化?/span>
|