(通讯员杜鑫)近日,永利官网唐晓波教授团队在Scientific Reports发表论文《Research on automatic labelling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching》。该文是国家自然科学基金项目《基于文本和web语义分析的智能服务研究》的研究成果之一。
论文以电力公司的客户投诉文本为例,融合了BERT和Word2Vec方法,提出了一种基于BERT和Word2Vec的客户投诉文本自动标引模型。该模型在浅层级的文本标引标签上使用BERT模型,利用文本增强改善了由于标引标签过多客户投诉文本样本量不均衡的问题,并在深层级的文本标引标签上使用Word2Vec模型。实验结果表明,该文提出的自动标引模型,可以有效对客户投诉文本进行自动标引,并在召回率、F值等指标上有了提高。
该文提出的基于BERT和Word2Vec的客户投诉文本自动标引模型通过文本增强后,在没有改变语义的条件下,解决了一个类别下文本量过少的问题,改善了样本量不均衡的情况,在浅层级文本标引标签确定时使用BERT模型,而在深层级标引标签的确定中使用Word2Vec模型,充分利用了客户投诉文本标引标签具有层级性的特点。该文提出的自动标引模型一方面能够通过高效处理客户投诉文本,提高企业的服务质量,另一方面使用自动标引的方法处理客户投诉文本,也减少了企业的人工成本,在企业管理层决策和业务层应用上都具有重大意义,能提高企业效率。该文提出的模型在金融、医疗、互联网等行业的大数据分析与利用方面具有重要应用价值。
据了解,Scientific Reports是Nature Portfolio旗下一本开放获取的同行评议期刊,在SCI的Multidisciplinary Sciences领域一区排名第17,是全球第6大被引用的期刊。
论文链接:https://www.nature.com/articles/s41598-021-91189-0