基于SAM和pix2pix的商品数据集生成网络-AET-电子技术应用

基于SAM和pix2pix的商品数据集生成网络

电子技术应用

于惠钧1，2，邹志豪1，康帅1

1.湖南工业大学轨道交通学院； 2.湖南工业大学电气与信息工程学院

摘要： 针对商品包装快速变换带来的商品数据集采集和标注过程繁琐的问题，设计了一种基于SAM和pix2pix的商品数据集生成网络。该网络以单个商品多角度图像作为输入，生成与实际结算场景相近似的数据集。在RPC大型商品数据集上进行数据集生成，在YOLOv7、Fast R-CNN、AlexNet三种目标检测网络上验证生成数据集对目标检测效果的提升。实验结果表明，生成数据集融合到原数据集后用于训练模型能够有效提升商品识别准确率，并且与真实数据集相比具有较好的替代性。相较于原数据集，融合生成数据集三个网络上识别精度分别提升7.3%、4.9%、7.8%。通过该方法，显著提高了模型训练的效率与实用性，减轻传统商品数据集采集与标注所需的人力物力投入。

关键词： 商品识别 SAM pix2pix 数据集生成

中图分类号：TP181；TP391.4 文献标志码：A DOI: 10.16157/j.issn.0258-7998.245759
中文引用格式： 于惠钧，邹志豪，康帅. 基于SAM和pix2pix的商品数据集生成网络[J]. 电子技术应用，2025，51(4)：23-28.
英文引用格式： Yu Huijun，Zou Zhihao，Kang Shuai. Product data set generation network based on SAM and pix2pix[J]. Application of Electronic Technique，2025，51(4)：23-28.

Product data set generation network based on SAM and pix2pix

Yu Huijun1，2，Zou Zhihao1，Kang Shuai1

1.College of Railway Transportation， Hunan University of Technology； 2.College of Electrical and Information Engineering

Abstract： Aiming at the cumbersome process of collection and labeling of commodity data set caused by rapid change of commodity packaging, this paper designs a commodity data set generation network based on Segment Anything Model (SAM) and Pixel to Pixel (pix2pix). The network uses multi-angle images of a single commodity as input to generate a data set similar to the actual settlement scene. The data set generation test was carried out on Retail Product Checkout Dataset(RPC) set, and the improvement of the generated data set on target detection effect was further verified on YOLOv7, Fast R-CNN and AlexNet target detection networks. The experimental results show that the generated data set can effectively improve the accuracy of commodity recognition, and has better substitution compared with the actual data set. Compared with the original data set, the recognition accuracy of the three networks generated by fusion data set is improved by 7.3%, 4.9% and 7.8%, respectively. Through this method, the efficiency and practicability of model training are significantly improved, and the manpower and material input required for traditional commodity data collection and labeling is reduced.

Key words : commodity identification；SAM；pix2pix；data set generation

引言

在现代零售和无人结算系统中[1]，商品识别技术[2]的准确性和效率对于提升用户体验和优化商业运营至关重要。然而，随着商品包装的快速变化，数据集的采集和标注工作变得愈发复杂和耗时，数据集的缺少[3]成为制约商品识别模型性能和应用的主要瓶颈。传统的数据集生成方法依赖大量人工标注，不仅耗费大量人力和时间，而且数据集更新不及时，无法适应市场中商品包装的频繁变化，导致模型的泛化能力不足，识别精度下降。

目前，尽管一些数据集增强方法已经在图像识别领域取得了进展，但它们在应对商品包装快速变化方面仍然面临诸多挑战。首先，现有的商品识别模型大多依赖于静态数据集，这些数据集无法涵盖所有可能的商品包装变化。其次，数据集的多样性和丰富性对模型的训练效果至关重要，但现有方法在生成具有高度真实感的多样化数据集时表现有限。此外，随着商品种类的增加和市场变化的加速，传统数据集生成方式显得尤为笨重，难以满足实际应用的需求。因此，如何有效生成与实际结算场景相似的数据集，以提高商品识别模型的鲁棒性和识别精度，成为当前亟需解决的问题。

为了解决商品数据集采集和标注工作的繁琐问题，本文提出了一种基于分割一切模型(Segment Anything Model,SAM)[4]和图像到图像转换网络(Pixel to Pixel,pix2pix)[5]的商品数据集生成网络，旨在突破传统数据集生成中的瓶颈。该网络以单个商品的多角度图像作为输入，首先利用基于SAM改进的图像分割网络，从单个商品多角度图像中精准提取出包含目标商品的部分。提取后的商品目标图像经过姿态拟合后，随机摆列组合形成商品拼接图像。最后，这些拼接图像通过基于pix2pix的图像生成网络转换为接近实际结算场景的商品结算图像。

由于单个商品的多角度图像易于获得，并且同一角度的商品只需标注一次，这种方法能够生成多种拼接图像，扩展商品摆放的多样性，以应对实际结算中不同商品摆放的情况。此外，基于pix2pix的图像生成网络可以针对各种实际结算场景进行训练，从而有效降低环境因素对商品识别准确率的影响。这一系列优化措施使得商品识别系统在快速变化的商业环境中更加灵活和准确

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000006389

作者信息：

于惠钧1，2，邹志豪1，康帅1

（1.湖南工业大学轨道交通学院，湖南株洲 412007；

2.湖南工业大学电气与信息工程学院，湖南株洲 412007）

Magazine.Subscription.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容