《电子技术应用》
您所在的位置:首页 > 人工智能 > 设计应用 > 融入翻译记忆库的法律领域神经机器翻译方法*
融入翻译记忆库的法律领域神经机器翻译方法*
电子技术应用
曾文颢1,2,张勇丙1,2,余正涛1,2,赖华1,2
(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500; 2.昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500)
摘要: 面向法律领域的神经机器翻译对于合同文本翻译等应用场景具有重要价值。由于法律领域双语对齐语料稀缺,翻译效果还不理想。针对该问题,目前有效的方法是融入翻译记忆或翻译模版等外部信息,但法律领域的文本多具有固定的表达结构且用词准确规范,在翻译记忆库中同时利用翻译结构信息和语义信息能够进一步提升法律领域翻译性能。基于此,提出一种融入翻译记忆库的法律领域机器翻译方法。提出了一种新的法律领域翻译记忆库,首先基于语义和结构信息的相似性训练跨语言检索模型以充分利用单语数据,然后从翻译记忆库中检索与输入源句相关的一组翻译记忆和翻译模版,进而引导翻译模型生成目标句子。实验表明,在MHLAW数据集上,提出的方法可以使译文较基线模型提升1.28个BLEU点。
中图分类号:TP391 文献标志码:A DOI: 10.16157/j.issn.0258-7998.233887
中文引用格式: 曾文颢,张勇丙,余正涛,等. 融入翻译记忆库的法律领域神经机器翻译方法[J]. 电子技术应用,2023,49(9):39-45.
英文引用格式: Zeng Wenhao,Zhang Yongbing,Yu Zhengtao,et al. Legal neural machine translation based on translation memory[J]. Application of Electronic Technique,2023,49(9):39-45.
Legal neural machine translation based on translation memory
Zeng Wenhao1,2,Zhang Yongbing1,2,Yu Zhengtao1,2,Lai Hua1,2
(1.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China; 2.Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming 650500,China)
Abstract: Neural machine translation for the legal domain is of great value for application scenarios such as contract text translation. Due to the scarcity of bilingual corpora in the legal domain, the machine translation performance is still not satisfactory. A practical method to address this problem is to integrate prior knowledge such as translation memory(TM) or templates. However, texts in the legal domain mostly have fixed expression structures and precise wording specifications. The performance of translation in the legal field can be further improved by using both sentence structure information and semantic information in the translation memory. Based on this, this paper proposes a new framework that uses monolingual TM and performs learnable memory retrieval in a cross-language manner. Firstly, this monolingual translation memories contain translation memory and translation template, which can provide richer external knowledge to the model. Secondly, the retrieval model and the translation model can be jointly optimized. Experiments on the MHLAW dataset show that this model surpasses baseline models up to 1.28 BLEU points.
Key words : neural machine translation;semantic information;structure information;translation memory;translation template

0 引言

近年来,随着深度学习的发展,神经机器翻译(NMT)在大量翻译任务上取得了巨大成功[1],面向法律领域的机器翻译也得到了领域内学者的大量关注。法律领域机器翻译在法律条款、合同文本和涉外公证文书等实际场景中也具有重要的应用价值。

目前融入外部信息是提升特定领域机器翻译的有效途径[2-5]。相较于传统的生成模型,引入外部信息可以让模型获得训练数据中没有的附加信息,降低文本生成的难度,减少对训练数据的依赖。现有的融入外部信息的方法主要分为三类:基于双语词典、基于翻译记忆和基于翻译模版

基于双语词典的方法[6]用于解决低频词和术语翻译等问题,利用双语词典作为外部资源输入神经网络结构。Arthur等人[7]提出一种通过使用离散词典来增强神经机器翻译系统的方法,以解决低频次翻译错误问题,这些词典可以有效地编码这些低频单词的翻译。



本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005635




作者信息:

曾文颢1,2,张勇丙1,2,余正涛1,2,赖华1,2

(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500)


微信图片_20210517164139.jpg

此内容为AET网站原创,未经授权禁止转载。