适配语义对齐图像字幕方法 2026-06-08 关键词: 跨模态对齐 语义路由 数据要素 数据流通 内容简介:基于冻结大语言模型的图像字幕生成方法突破了传统模型在利用外部知识方面的限制,但容易过度依赖文本先验,导致视觉特征利用不足和描述幻觉问题。为此,提出一种适配语义对齐的图像字幕方法,通过视觉压缩模块和语义路由模块,构建视觉与文本数据要素间的流通路径,实现跨模态语义的精准对齐与高效交互。在MSCOCO、Flickr30k和NoCaps等基准数据集上的实验结果表明,该方法能够在保持较低可训练参数量的同时,有效促进多模态数据要素的价值传递,达到当前先进性能水平,为工业应用提供了可靠解决方案。