中文引用格式: 于惠钧,邹志豪,康帅. 基于SAM和pix2pix的商品数据集生成网络[J]. 电子技术应用,2025,51(4):23-28.
英文引用格式: Yu Huijun,Zou Zhihao,Kang Shuai. Product data set generation network based on SAM and pix2pix[J]. Application of Electronic Technique,2025,51(4):23-28.
引言
在现代零售和无人结算系统中[1],商品识别技术[2]的准确性和效率对于提升用户体验和优化商业运营至关重要。然而,随着商品包装的快速变化,数据集的采集和标注工作变得愈发复杂和耗时,数据集的缺少[3]成为制约商品识别模型性能和应用的主要瓶颈。传统的数据集生成方法依赖大量人工标注,不仅耗费大量人力和时间,而且数据集更新不及时,无法适应市场中商品包装的频繁变化,导致模型的泛化能力不足,识别精度下降。
目前,尽管一些数据集增强方法已经在图像识别领域取得了进展,但它们在应对商品包装快速变化方面仍然面临诸多挑战。首先,现有的商品识别模型大多依赖于静态数据集,这些数据集无法涵盖所有可能的商品包装变化。其次,数据集的多样性和丰富性对模型的训练效果至关重要,但现有方法在生成具有高度真实感的多样化数据集时表现有限。此外,随着商品种类的增加和市场变化的加速,传统数据集生成方式显得尤为笨重,难以满足实际应用的需求。因此,如何有效生成与实际结算场景相似的数据集,以提高商品识别模型的鲁棒性和识别精度,成为当前亟需解决的问题。
为了解决商品数据集采集和标注工作的繁琐问题,本文提出了一种基于分割一切模型(Segment Anything Model,SAM)[4]和图像到图像转换网络(Pixel to Pixel,pix2pix)[5]的商品数据集生成网络,旨在突破传统数据集生成中的瓶颈。该网络以单个商品的多角度图像作为输入,首先利用基于SAM改进的图像分割网络,从单个商品多角度图像中精准提取出包含目标商品的部分。提取后的商品目标图像经过姿态拟合后,随机摆列组合形成商品拼接图像。最后,这些拼接图像通过基于pix2pix的图像生成网络转换为接近实际结算场景的商品结算图像。
由于单个商品的多角度图像易于获得,并且同一角度的商品只需标注一次,这种方法能够生成多种拼接图像,扩展商品摆放的多样性,以应对实际结算中不同商品摆放的情况。此外,基于pix2pix的图像生成网络可以针对各种实际结算场景进行训练,从而有效降低环境因素对商品识别准确率的影响。这一系列优化措施使得商品识别系统在快速变化的商业环境中更加灵活和准确
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006389
作者信息:
于惠钧1,2,邹志豪1,康帅1
(1.湖南工业大学 轨道交通学院,湖南 株洲 412007;
2.湖南工业大学 电气与信息工程学院,湖南 株洲 412007)