《电子技术应用》
您所在的位置:首页 > 通信与网络 > 业界动态 > 网络安全攻防:大数据处理平台

网络安全攻防:大数据处理平台

2021-06-08
来源:计算机与网络安全

  随着互联网信息化应用的普及,越来越多的企业和机构拥有海量数据。这些数据的采集和分析大多依托于大数据平台。数据从采集到分析最后再形成结果以及可视化模型,中间经历复杂的大数据处理过程。下面主要介绍大数据处理的基本过程和方法,以及当前普适的大数据平台。

  大数据处理的过程一般分为4个步骤。

  1. 数据采集

  数据采集,主要是指通过某种方式搜集数据并存入数据库中,并且用户可以通过数据库进行简单的查询和处理工作。例如,电商平台使用传统的关系型数据库(MySQL、Oracle等)存储每一笔事务数据,或采用Redis或MongoDB等NoSQL类型的数据库。下面介绍几种常见的数据采集方法。

  (1)系统日志采集方法

  大型的互联网企业一般都会开发自己的数据采集工具,大多用于日志数据的采集。如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百兆字节的日志数据采集和传输需求。

  (2)网络数据采集方法

  网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

  (3)特定的数据采集方法

  对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据;也可采用特定的传感器获取指定的数据,再加密传输到数据库中。

  2. 数据预处理

  由于数据搜集途径多样、数据种类繁多,采集的数据具有多源异构特性,并且同时存在数据不完整、有噪声、不一致等情况。因此,将搜集的数据进行统计分析或利用数据挖掘算法建模,均需要数据清洗,即统一数据格式、提高数据质量,进而提升数据挖掘效果。

  数据预处理的方法主要包括:数据清洗,用于去除噪声数据;数据集成,将多个数据源中的数据融合集中到一致的数据存储中;数据变换,把原始数据转换成为适合数据挖掘的形式;数据规约,包括数据聚类、维度归约、数据压缩、数值归约、离散量化等。

  3. 数据统计分析

  统计与分析主要利用分布式数据库,或分布式计算集群来汇总分析海量数据,以满足后续的数据挖掘需求。常见的结构化关系数据实时统计分析工具,包括 EMC 的 GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等;而其他半结构化数据处理或非关系型批处理等则可应用Hadoop。

  4. 数据挖掘与机器学习

  在数据统计分析的基础上,数据挖掘通过对数据实施高级分析与建模运算,借助机器学习模型,最终形成数据处理的智能决策。代表性的数据挖掘算法有K-means 聚类、SVM 预测、Na?ve Bayes分类等,大数据挖掘的集成平台有Hadoop的Mahout等。自AlphaGo问世以来,深度学习开始应用到各行各业的大数据领域,Google 推出的深度学习集成平台TensorFlow,极大降低了大数据应用深度学习的门槛。

  诸如淘宝、12306 等大平台的并发量极大,采用分布式大数据架构。当前常用的大数据分布式平台主要有Hadoop和Spark。

  Apache Hadoop是一款支持数据密集型分布式集群计算应用开源软件框架,基于Google公司提出的MapReduce和GFS文件系统。Hadoop框架可为应用提供透明可靠的数据分布式处理,即MapReduce编程范式:应用程序被分区成许多小部分,每个部分都能在集群中的任意节点上运行。同时,Hadoop 还提供了分布式文件系统,用以存储所有计算节点的数据。MapReduce和分布式文件系统的设计,使Hadoop框架能够自动处理节点故障,应用程序能与成千上万具有独立运算的计算机共享数据。整个Apache Hadoop平台包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS),以及Hive、HBase等数据处理工具。

  Apache Spark也是一个开源簇运算框架,最初由加州大学伯克利分校的AMPLab开发。Hadoop的MapReduce节点需在运行完任务后将数据存放到磁盘中,Spark则使用了存储器内存运算技术,能在数据尚未写入硬盘时即在存储器内完成运算。Spark 在存储器内运行程序的速度比MapReduce 的运算速度快 100 多倍,即便在硬盘上运行程序,Spark 也能比MapReduce快10倍以上。Spark允许用户将数据加载至簇存储器,并多次对其进行查询,尤其适合用于机器学习算法。

  Spark支持独立模式(本地Spark簇)、Hadoop YARN或Apache Mesos的簇管理模式,可以和HDFS、Cassandra、OpenStack Swift和Amazon S3等分布式存储系统对接。Spark也支持伪分布式(Pseudo-Distributed)本地模式,不过通常只用于开发或测试时以本机文件系统替换分布式存储系统。




电子技术图片.png

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。