基于深度注意力的融合全局和语义特征的图像描述模型
网络安全与数据治理
及昕浩,彭玉青
(河北工业大学人工智能与数据科学学院,天津300401)
摘要: 现有的图像描述模型使用全局特征时受限于感受野大小相同,而基于对象区域的图像特征缺少背景信息。为此,提出了一种新的语义提取模块提取图像中的语义特征,使用多特征融合模块将全局特征与语义特征进行融合,使得模型同时关注图像的关键对象内容信息和背景信息。并提出基于深度注意力的解码模块,对齐视觉和文本特征以生成更高质量的图像描述语句。所提模型在Microsoft COCO数据集上进行了实验评估,分析结果表明该方法能够明显提升描述的性能,相较于其他先进模型具有竞争力。
中图分类号:TP391文献标识码:ADOI: 10.19358/j.issn.2097-1788.2024.02.008
引用格式:及昕浩,彭玉青.基于深度注意力的融合全局和语义特征的图像描述模型[J].网络安全与数据治理,2024,43(2):49-53.
引用格式:及昕浩,彭玉青.基于深度注意力的融合全局和语义特征的图像描述模型[J].网络安全与数据治理,2024,43(2):49-53.
Deep attention based image caption model with fusion of global and semantic feature
Ji Xinhao,Peng Yuqing
(School of Artificial Intelligence, Hebei University of Technology, Tianjin 300401,China)
Abstract: Aiming at the problems that existing image caption generation models face limitations when utilizing global features due to the fixed receptive field size, and object region based image features lack background information, an image caption model(DFGS) is proposed. A multifeature fusion module is designed to fuse global and semantic feature, allowing the model to focus on key object and background information in the image. A deep attentionbased decoding module is designed to align visual and textual features, enhancing the generation of higher quality image description statements. Experimental results on MSCOCO dataset show that the proposed model can produce more accurate captions, and is competitive compared with other advanced models.
Key words : image caption; global feature; semantic feature; feature fusion
引言
图像描述[1-2]是一种使用自然语言描述图像内容的任务,是一项涉及计算机视觉领域和自然语言处理领域的跨领域研究内容。目前大多数方法使用卷积神经网络(Convolutional Neural Network, CNN)编码图像以提取图像特征,然后使用Transformer网络结构来解析图像特征并生成描述语句。Pan等人[3]提出了XLinear注意力块来捕获单或多模态之间的二阶相互作用,并将其集成到Transformer编码器和解码器中。Cornia等人[4]在Transformer编码器和解码器中设计了类似网格的连接,以利用编码器的低级和高级特征。多数研究者针对Transformer网络结构进行改进,没有关注CNN提取到的图像特征其对应的感受野是均匀的网格,难以明显地关注图像中对象内容信息的问题。此外Transformer模型中的注意力机制仅仅是隐式地计算单个区域和其他区域的相似性,无法捕捉长距离的关系。
作者信息:
及昕浩,彭玉青
(河北工业大学人工智能与数据科学学院,天津300401)
文章下载地址:https://www.chinaaet.com/resource/share/2000005902
此内容为AET网站原创,未经授权禁止转载。