论文 | SCI期刊《一种基于数据增强的领域预训练方法》
论文 数之联市场助手 2023-06-15 17:17

近日,中国电子科技集团公司第十研究所甘翼、路高勇、苏智慧、成都数之联科技股份有限公司王磊、周俊临、蒋家玮与电子科技大学陈端兵在SCI期刊《Applied Sciences》合作发表了题为《A Joint Domain-Specific Pre-Training Method Based on Data Enhancement》的学术论文。甘翼为论文第一作者,陈端兵为论文通讯作者。该论文提出了一种基于数据增强的领域预训练方法。



近年来,随着人工智能领域飞速发展,特别是在深度学习的支持下,自然语言处理技术(NLP)在各项任务中取得了巨大进展。在这些任务中,预训练技术起到了至关重要的作用。随着预训练模型越来越准确,微调所需预训练语料库规模越来越大。然而,很少有研究探讨预训练语料库的选择。



基于此,本文提出了一种基于数据增强的领域预训练方法来解决这两个问题。


image.png


该方法首先将预训练任务和下游微调任务进行联合训练,以缓解现有经典预训练方法产生的灾难性遗忘问题。然后,基于从下游任务反馈的难分样本,本方法从领域语料中选择相似文本来重建预训练语料库。通过对重建的预训练语料库的学习可以加深模型对无法确定的文本表达的理解,从而增强模型对领域文本的特征提取能力。在没有对预训练语料库进行任何预处理的情况下,分别对命名实体识别(NER)和文本分类(CLS)这两个任务进行了实验。


实验结果表明,与其他基准方法相比,学习所提出方法选择的领域语料库可以补充模型对领域特定信息的理解,并提高基本预训练模型的性能,以获得最佳结果


《Applied Sciences》作为综合性期刊,提供了一个关于应用自然科学各个方面的高级论坛。发表评论,研究论文和通讯。目标是鼓励科学家尽可能详细地发表他们的实验和理论结果,目前被18个国际数据库收录和摘要。2022年影响因子/JCR分区:2.838/Q2。

#论文

阅读 208

猜你喜欢
论文 | 《企业数据资产价值评估研究》
论文 | 《企业数据资产价值评估研究》
报告 | 《中国人工智能产业研究报告(V)》
报告 | 《中国人工智能产业研究报告(V)》