背景
长期以来,关于语音识别准确率这一硬性技术指标,业界给客户的感觉总是支支吾吾,模棱两可。很多语音技术供应商在这项指标上要么标榜达到96%甚至98%的识别准确率,但实际部署的系统远远达不到这个指标或者这个指标只是针对码本非常小的系统(数百个码本容量)而言。这种状况很容易造成用户对目前语音识别技术的误解。特别是,现实情况中,有很多的语音技术供应商由于本身技术的不过硬,造成部署的系统语音识别准确率较低,难以令用户满意,间接对该技术的推广造成了负面影响。
正是针对这种情况,也本着对客户负责的理念,上海基立讯精心组织实施了对这一指标的实际测试。为了体现测试结果的可信性、实用性,基立讯对码本容量、测试数据、测试人样本等等因素进行了综合考虑。实际测试系统在码本容量的设置上全部超过6000条记录;在测试数据的选择上采用从互联网随机下载真实姓名以反映真实的用户数据;在测试人样本上尽量考虑不同地域、不同性别和不同年龄的测试人,测试人样本覆盖全国绝大部分省市口音的男、女人员,同时测试人年龄限制在18-55岁的群体以反映语音识别技术最广泛的目标用户群。
值得一提的是,测试数据中有非常多的姓名要么极其相近、要么发音即使真人都很难区分,是非常具有挑战性的测试数据。但即使这样,jTalk语音通信平台在采用独特的N-Best结果处理算法后,不但有效提高了系统总体使用的语音识别准确率,同时也增加了系统不用多选直接得到识别结果的概率,也降低了码本外词汇的误识别率,使jTalk系统用户使用感受又准又方便。
测试结果
经过上百例的实际测试,基立讯jTalk语音通信平台得到的一次语音识别准确率平均在93%左右,二次语音识别准确率平均超过97%。也就是说,用户在说了一次姓名后,系统返回的结果中包含正确结果的概率约为93%,但如果用户是说了2遍,那么用户有97%以上的可能性会得到系统正确的识别结果响应。其实,根据测试,对很多白领而言,只有1%稍多一点的姓名是用户在2次呼叫后都无法得到正确返回结果的,也就是说,对绝大多数的潜在白领语音识别用户,2次呼叫之内达到98%以上的识别结果准确率是完全现实的。考虑到测试人样本中不乏有浓重口音的人,这样的数据非常令人鼓舞。此外,这次测试也对系统一次识别不用N-Best就返回正确结果的概率等其他参数进行了统计,得到了非常宝贵的权威数据。需要指出的是,如果运用jTalk平台的组合识别功能,那么在2次呼叫内系统有接近100%的概率返回用户所呼叫的信息,这样的测试结果完全说明基立讯语音识别产品在技术上和应用上都处于国内领先,完全可以达到大规模商业应用的要求。
通过这次权威的实际测试,基立讯得到了语音识别系统真实的识别率数据,是目前国内业界见到的公开的最权威也是最高的识别准确率。 |