文献标识码: A
DOI: 10.19358/j.issn.2097-1788.2023.01.001
引用格式: 王申奥,王亚龙,王乾旭,等. 安卓应用隐私合规检测方法研究[J].网络安全与数据治理,2023,42(1):4-14.
0 引言
近年来,移动应用超范围收集用户隐私信息,强制索取敏感权限等现象屡见不鲜。为了保护用户的个人隐私信息,监管部门要求企业或组织在隐私政策以简洁易读的方式告知用户他们如何收集、存储和管理用户的个人信息。然而,根据武汉大学2021年的相关调查显示,77.8%的用户在安装App时“很少或从未”阅读过隐私协议,69.69%的用户会忽略App隐私协议的更新提示。尽管一些服务提供商已经提高了其隐私政策的可理解性和可读性,但这些政策仍然篇幅太长,难以阅读。此外,2021年国家计算机网络应急技术处理协调中心和中国网络空间安全协会共同发布的《App违法违规收集使用个人信息监测分析报告》中也显示,超范围收集用户隐私信息,违反用户“知情同意”原则的违法违规应用在各主流应用市场仍然广泛存在。
近来,隐私合规分析的相关工作在国外颇受关注,逐渐被应用到大规模网站隐私合规性分析、移动应用隐私泄露检测等领域。移动应用的隐私合规分析主要包括隐私政策文本分析与程序分析两个部分。静态程序分析执行效率高,然而由于缺乏运行时路径信息,静态分析往往会产生一定程度的误报。动态污点分析通常是利用插装和代码重写为污点数据创建污点标记,优点是准确率更高,但插装和代码重写往往带来更大的性能开销。隐私合规研究往往是在程序分析的基础上结合隐私政策文本进行合规性检查。隐私政策文本分析作为国外新兴的研究热点,已经陆续建立起丰富的隐私政策语料库。然而在中文领域,隐私政策命名实体识别的研究仍然缺乏,中文隐私政策的公开语料库也仍处于空白。这些问题制约了国内隐私政策与程序分析相结合的自动化合规检测技术的发展。
为了解决上述问题,本文通过人工注释构建危险权限术语词典,提出利用双向最大匹配算法实现基于词典的隐私政策自动标注,从而构建中文隐私政策权限词实体识别语料库。在此基础上,本文为隐私政策语料构建预训练字嵌入,通过双向长短期记忆神经-条件随机场(Bi-directional Long Short-Term Memory-Conditional Random Field,BiLSTM-CRF)架构实现最优标签序列预测,从而完成权限词实体识别任务。在应用程序动静态混合分析部分,基于Androguard实现交叉引用并对程序实际调用的危险权限进行静态分析。通过隐私政策声明权限集与实际调用权限集的一致性分析,实现了对超范围收集敏感信息行为的检测。此外,依托 Frida动态插桩与Hook技术,对敏感应用编程接口(Application Programming Interface,API)进行重载,记录函数调用堆栈、调用频次、关键参数等行为日志信息,针对同意隐私政策前收集、静默状态下频繁访问敏感信息实现运行时状态监测。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005092.
作者信息:
王申奥,王亚龙,王乾旭,贺紫怡,李 晖
(西安电子科技大学 网络与信息安全学院,陕西 西安710071)
欢迎关注电子技术应用2023年2月22日==>>商业航天研讨会<<