一. 产品能力
针对在语音机器人,AI助理,质检等转写相关场景中被高频转写错误的词汇,可以添加热词与纠错词提升该类词的转写准确率,帮助后续业务更好的运行。推荐优先使用热词功能,热词生效效果不达预期再使用纠错词功能。
- 热词与纠错词的区别是什么?
- 产品使用场景示例
- 场景1:质检录音文件转写(教育行业)
- 问题现象
客户口述「作业啊,督促他也没用」被错误转写为「作孽啊,督促他也没用」,导致质检分析有误,影响业务判断。 - 优化方案
- 添加热词:将”作业”添加为热词并将权重设置为4。
- 问题现象
- 场景2:AI助理实时转写(汽车行业)
- 问题现象
客户口述「我想看看那个捷途山海T2」被错误转写为「我想看看那个截图上海T2」,导致智能填单信息采集有误,影响业务识别。 - 优化方案
- 添加热词:将“捷途”,“捷途山海”,“捷途山海T2”添加为热词并将权重设置为10。
- 补充纠错词:若添加热词后依然产生错误转写「捷途上海T2」,在纠错词中添加正确词与错误词的对应关系「捷途山海T2-捷途上海T2」,实现业务上的强制替换。
- 问题现象
- 场景1:质检录音文件转写(教育行业)
二. 热词配置原则
2.1 哪些词建议作为热词
- 基于行业认知明确的高频词和行业专有名词,建议在业务冷启动阶段添加。
- 高频词:通话中高频出现的词汇或短语。
- 行业专有名词:行业中的特定术语,一般是有行业特色的词汇表达。比如新课标,小米SU七等。
- 实际业务中发现的易转写出错的词汇,建议基于业务运行发现后逐步添加。
2.2 权重配置说明
- 权重范围:1-10之间的整数。
- 权重越高,热词优先级越高,系统在语音转写时会优先识别该热词。
- 权重越低,热词优先级越低,可能会被其他权重更高的热词替代。
2.3 热词与权重的配置建议
在进行热词配置时,我们建议遵循以下几个原则和使用技巧,以确保配置的效果最大化:
行业专有名词建议设置最高权重,口语化热词建议设置低权重
行业专有名词表达较为特殊,且高频出现影响核心语义识别,可以直接设置为最高权重10;日常化、口语化的热词建议设置为低权重,这些词汇虽然在通话中频繁出现,但通常不会影响核心语义识别,一旦权重设置过高,反而会引起转写失真。
- 示例:比如教育行业中,“学生”,“家长”,“孩子”都是会高频出现的词汇,这些词汇本身转写错误的概率较小且不影响核心语义识别,权重设置也应较低(如4),以避免它们干扰行业特定词汇的识别,导致转写失真。
尽量避免添加含数字的热词
避免添加纯数字的热词,减少添加带数字的热词,行业中不可避免的带数字的专有名词(如汽车型号)除外。
- 示例:“奥迪A6”和“奥迪A6L”可以设置为相同权重,确保系统能够准确识别,同时要注意将数字转为对应汉字再进行添加,最终添加格式应为“奥迪A六”和“奥迪A六L”。
对高频热词进行拆解添加
对于包含多个组成部分的高频热词,可以进行拆解,并为拆解后的热词单独配置权重。这有助于提高ASR识别的灵活性和准确性。
- 示例:捷途旅行者可以拆解为:“捷途” + “旅行者” + “捷途旅行者”,设置“捷途”和“旅行者”设置为较高值(如8),而将“捷途旅行者”设置为较低值(如4),以确保能够同时识别单独词汇和整体词组。
同音或相似热词权重设置相同
对于可能在语境中互相混淆的词汇,权重要设置相同,避免权重设置相差过高导致权重低的一方被误转为权重高的一方。同时要结合热词使用频率做取舍。
- 示例:比如“电车”和“电池”,这两个词汇虽然不完全同音,但在汽车营销语境中可能会因方言表达而互相混淆。建议将其设置为相同的权重,确保它们不会在转写过程中互相替代。
- 示例:比如“试车”和“实车”,这两个词汇同音,但“试车”的使用频率远高于“实车”,权重设置相同反而会导致"试车"被误转为“实车”,根据业务需要评估后最终删除热词“实车”,仅保留热词“试车”。
定期优化更新自定义热词表
用户应根据实际输出的转写文本,评估当前热词词表效果。如果发现某些热词频繁被误识别或产生歧义,应及时遵循以上使用技巧调整其权重或对其进行删除处理,使语音识别保持高效和精准。
- 示例:在实际业务中发现,“投放”与“投流”会被误转为“投诉”,影响核心语义识别。添加热词“投放”、“投流”、“投诉”并设置为相同权重后,反而引入了高频转出单字“投”的问题,根据业务需要评估后最终对热词进行删除处理。
三. 热词使用方法
3.1 使用位置
点击【系统设置】【AI助理】下的子菜单【热词】,进入热词配置页。

3.2 使用方法
预置行业热词:默认关闭,用户单击开启后,下拉选择所属行业所在行业,选择后行业热词生效。行业热词由AICC通过公开领域数据进行积累沉淀,主要为行业独有且行业内高频出现的名词。行业热词持续迭代,迭代后自动对业务生效。

自定义热词表:用户可添加自定义热词,并进行权重配置。需注意,用户最多只能添加1000词。
- 新建热词:用户点击新建按钮,进入新建热词弹窗,按照要求输入想要自定义添加的热词。
- 可添加多个热词,多个热词之间用","隔开
- 单个热词限制为2-10个字数,支持输入中英文,英文按照字母计数
- 数字需更换为对应汉字,如1需改为一
- 添加热词默认权重为4,可在热词表中自行配置为1-10之间的整数
- 单次输入不得超过500字符

编辑热词:热词保存成功后,会展示在自定义热词表中,用户可以点击编辑按钮,调整热词权重为1-10之间的整数,也可以对热词进行删除处理。

发布热词:热词配置完毕后,用户需点击发布热词按钮,发布后热词生效,并显示最近发布时间。

四. 纠错词使用方法
4.1 使用位置
点击【系统设置】【AI助理】下的子菜单【纠错词】,进入纠错词配置页。
4.2 使用方法
- 新建纠错词:用户点击新建,添加正确词与错误词的对应关系。需注意,用户最多只能添加1000条纠错词。
- 正确词:字数限制为2-10个。
- 错误词:可输入多个错误词,词与词之间用“,”隔开,字数不能超出500字。

- 编辑纠错词:用户可对已添加的纠错词中的错误词进行编辑,也可对纠错词进行删除处理。

4.3 错误词的快速发现方式
- 基于业务从历史转写文本中发现错误词。
- 利用大模型的能力快速发现可能错误词,用户可直接复制下面这段指令给deepseek进行生成:
【大模型指令】
##角色:
你是一名专业严谨的方言学者,对中国的十大方言涉猎极深,出于职业需要,你曾深度生活在东北、江浙沪、两广、川渝地区,非常熟悉当地人民日常生活中的方言表达。
##任务:
基于我提供给你的正确词,生成在方言语境中可能被表达的错误词,同时需要你基于汉字组合的多样性和词组的高频性尽可能地多生成可能的错误词。
## 输出要求:
-不做多余的标注,只用逗号隔开错误词即可。
##特别注意:
-我会一次性提供多个正确词,请你不要混淆,尽可能地多输出方言语境中可能的错误词。
-过于低频使用的汉字组合不要输出。
## 参考示例:
输入:作业,家长
输出:
- 作业:作孽、昨夜、左叶、做野、唑耶,浊液,卓业,卓烨,茁叶
- 家长:假账,假章,加章,嘉彰,假掌,贾章,佳展,嘉展,甲长
【Deepseek生成示例】

- AICC【智能纠错】功能即将上线,敬请期待。上线后用户发起智能纠错任务,即可从历史转写文本中批量匹配到同音错误词并一键添加。