姜
娜,顾庆传,杨海燕,黄吉亚
(昭通学院云南昭通
657000)
摘人们日常生活工作中数据量呈现爆炸式增要:计算机技术发展应用,机器学习已经成为计算机科学的主要构成部分。
长,人们已经步入大数据时代,在此背景下,提高机器学习效率是现阶段计算机工作人员的主要难题。文章主要以大数据以望促进大数据下的机器学概述为切入点,对大数据背景下机器学习算法的主要研究方向以及机器学生算法进行分析,习的发展,更好服务于人们。算法关键词:大数据;机器学习;中图分类号:TP391
文献标识码:A
MachinelearningAlgorithmUnderBigData
JIANGNa,GUQing-chuan,YANGHAI-yan,HUANGJi-ya
(InstituteofZhaotong,Zhaotong657000)
Abstract:Withthedevelopmentandapplicationofcomputertechnology,machinelearninghasbecomethemaincomponentofcomputerscience.TheamountofdatainPeople'sDailylifeandworkshowsexplosivegrowth,andpeoplehaveenteredtheeraofbigdata.Underthisbackground,improvingtheefficiencyofmachinelearningisthemainproblemforcomputerworkersatthepresentstage.Thispapermainlytakestheoverviewofbigdataastheentrypoint,analyzesthemainresearchdirectionofmachinelearningalgorithmunderthebackgroundofbigdataandmachinestudentalgorithm,inordertopromotethedevelopmentofmachinelearningunderbigdataandbetterservepeople.Keywords:Bigdata;machinelearning;algorithm
计算机信息技术的不断发展,人们已经步入了信息时代,工作生活所产生的数据越来越多,并且这些数据资源具有较大价值,需要计算机对数据进行有效分析,提取有效信息。在计算机工作过程中,算法决定了机器学习效率,因此,只有加强对大数据背景下机器学习算法的研究才能提高计算机工作效率,提高数据分
析质量。
理、处理[1]。1.2大数据特点
就目前来说,大数据特点从最初的多样性、体积、速度(3V)已经逐渐发展成为4V,并且业界对4V的说法各不相同,例如:虚拟化,价值性,效率性等等。只有智能的将这些数据和计算机技术进行结合,才能从根本上提高数据处理水平。
1大数据概述
对于大数据的定义可以从两个方面进行叙述,即
2大数据环境下机器学习研究方向
在大数据背景下,机器学习研究方向主要包括了
1.1大数据定义分析
狭义定义、广义。狭义定义主要指:不能装载到计算机存储器中的数据,该定义也是最容易理解的一个定义,因为无论哪个电脑都不能将数据装入到电脑中。广义定义主要是指的在数据在可容忍时间内可以采用传统的计算机技术以及软硬件对数据进行感知、采集、管
两个方面,第一,对机器学习机制进行研究,其侧重点对人类学习机制进行模拟研究,并且将其应用到机器学习中。第二,主要是对一些有效信息进行研究分析,其侧重点是从大数据中筛选一些有价值的信息进行利用。在大数据背景下,及时对数据进行分析已经成为现阶段各个行业的主要工作,机器学习可以快速的从其
收稿日期:2018-12-18
(1984-)主要研究方向:计算机应用;顾庆传(1982-)硕士研究生,主要研作者简介:姜娜,女,云南曲靖人,讲师,硕士研究生,男,云南宣威人,副教授,
究方向:计算机应用研究。
第27卷第3期姜娜等:大数据下的机器学习算法
·31·
中获取数据知识[2]。就目前来说,大数据背景下,不断提高机器学习效率,推广普及学习技术已经成为现现阶
段主要的发展方向。
另一方面,数据数量的不断增加,
并且数据类型也在不断变化,一定程度上增加了机器学习难度,因此,只有积极对机器学习方向以及方式进行延伸,保证其
多样化,才能满足大数据背景下发展的需求。同时,还要依据实际情况对其中存在的扩展问题进行研究,
才能提高机器学习效率,例如:可视化分析、数据挖掘算法等都是现阶段大数据机器学习的研究方向。
3大数据下几种机器学习算法分析
3.1C4.5算法
现阶段,机器学习算法中使用最为广泛的是C4.5
算法,该算法属于分类决策树算法,是建立在Quinlan上的ID3算法经过改进后形成的。
而实质来讲,决策树在具体运用时属于一种预测模型,主要是对目标属性
进行映射,决策树的每一个节点都代表一个目标,分叉路径表示每个目标的属性值,以机器学习为基础性形
成的机器学习技术称为决策树学习技术。每个不同决策树都表示每一种树型结构,然后可以根据分支种类对目标属性进行分类,同时还可以根绝数据库对各项数据进行分割测试,此过程可以概括为对决策树的修剪,如果不能被继续分割,就表示该过程已经完成。C4.5算法可以将不同种类的树型结构进行分类,可以短时间内通过智能分类方式对数据进行处理,完成机器学习[3]。
3.2K-MEANS算法
机器学习中,数据相似度具有重要意义,
在数据分析整理中通过机器找出相似度较高的数据进行集合,是机器学习工作开展的基础,只有能够准确分析数据之间存在的相似度,才能从根本上保证机器学习的有效性。K-MEANS算法其内涵是样本之间以相似度为基础的间接聚类法,在应用过程中把n个不同的目标按照目标属性之间存在的差异进行分类,并且k小于n,从而可以保证各个分割内高度相似且分割间相似度较低,相似度计算主要是根据分类平均值进行计算。K-MEANS算法在应用中,先选择一些k目标,每个目标表示一个聚类的质心,其余目标依据各个聚类的质
心之间距离,将其分配到相似度较大的聚类中,反复进行以上计算流程,当准则函数收敛后方能结束。
K-MEANS算法是一种典型修改迭代动态聚类算法,两种算法的共同点都是尝试寻找数据中自然聚类中
心。在应用中K-MEANS算法计算速度较快,
都通过对k平均算法的多次计算,然后依据实际情况选择最优
结果。
3.3SVM支持向量机算法
大数据环境下,数据量较大,
不仅数据处理工作较为繁琐,而且还要对各种数据进行统计。SVM支持向量机算法本质是一种监督学习算法,该种算法主要包
括:统计学习理论、VC维理论、结构风险理论,然后学习样本存在的复杂性,不断提高推广能力,
并且支持向量计算方式属于线性分类机器,此种方式在应用中可以同时将误差最小化和边缘区域最大化,所以也被称最大边缘区分类器。支持向量机方法是最近几年提出
的一种全新的计算方式,其主要思想主要包括:(1)对线性可分来说,要根据具体情况进行综合分析,对于线性不可分的状况,可以使用非线性映射方法对数据信息进行计算,可以在短时间内将低维输入空间线性不
可分样本逐渐转化为高维特征空间,
让其线性可分,从而使高维特征空间可以使用线性算法对样本非线性特
征进行线性分析;
(2)在结构风险数值最小的基础上,特征空间能够实现对超平面的最优分割,实现对机器的整体优化,同时,样本空间中所希望的风险值在某一点可以满足上界[4]。
4大数据环境下机器学习算法发展趋势
科学技术的不断发展,机器学习算法的主要发展
趋势为以下几点:首先,提高机器学习的泛化能力是机
器学习的主要发展趋势,就现阶段来说,支持向量机具有可以满足提高机器学习的泛化能力的技术,能够实现理论和实践的结合[5]。其次,不断提升机器学习的速
度,在不同行业中,机器学习效率都十分重要,也是机器学习的主要发展方向。目前主要致力于研究机器学习速度测试和速度训练,从而消除两者之间存在的冲
突,
从根本上提高机器学习效率。再次,不断提高机器学习的可理解性,在机器学习中,提高机器学习的可理解性十分重要,也是许多领域都十分关注的问题。最后,提高数据的使用能力以及敏感问题处理能力。没有进行优化的机器学生方式主要是针对已经被标
记的数据进行分析学习,随着数据的不断增加,各个领域中都出现了没有标记的数据,一定程度上增加了
机器学习压力。
一些领域在应用中都会受到噪声信息等大量的垃圾数据,对机器学习造成较大干扰,
并且还会影响数据的正常使用。在大数据背景下,机器学习的侧重点是降低数据错误率,但是,不同行业对错误率的容忍度也各不相同,即使是同一行业,
差异化代价也各不相同。
·32·电脑与信息技术2019年6月
5机器学习算法的实际应用
机器学习算法过程中根据实际情况可以分为三个
步骤,第一,维度特征数据信息的筛选,第二,以数据为基础维度特征模型的构建第三,
不同维度模型的结合,在某种特定的环境中,模型结合工作完成以后,就能快速获取该领域中的数据,便于及时对数据信息进行分
析,提取有效信息。5.1提取特征维度
维度特征的提取其本质是从大量的数据中筛选对
分类预测有针对性的数据,例如:歌曲类型、影视类型,图书类型,垃圾信息类型。从维度空间层面来讲,能够把维度空间划分为:一维、二维、,其中,一维分类如图1所示,有且只有一个阈值,就是可以轻松将数据划分为A、B两种不同的类别。
图1一维分类
二维或者二维以上的分类方式主要是根据欧几里
得度量进行划分,然后以实际距离为主要内容,如果在m维空间中存在两点,那么两点之间存在的真实距离可以用自然长度进行表示,二维和三维空间中,欧氏距离代表着两点之间的有效距离。
二维空间公式为:籽=姨(x22-x2)+(y姨2-y1),|X|=
x222
+y
2
在公式中,p表示两点,(x2,y2)和(x1,y1)之间的
欧氏距离;|X|表示点(x2,y2)到原点的欧氏距离。
三维空间公式为:籽=222|X|=姨x222姨(x2-x1)+(y2-y1)+(z2-z1),
2+(2y)2+z2,
二维分类最终结果显示如图2所示:图2二维分类
倘若存在维度的数量较多,就说明该事物存在的特征数量较多,只有对其进行对大量的数据进行处理,才能保证数据的真实性,在特征筛选过程中,可以根据实际情况适当剔除一些关联较小的数据特征,将定量
的数据特融入到机器学习过程中,此种操作方式称为降维。
5.2模型的构建
在获取一定的特征数据信息以后,应该及时以数据信息为基础构建不同类型的模型,并且还要明确特征和模型两者间存在的关系。
在事物问题预测中,良好的模型对特征集合依赖性较强,
例如:对学生成绩的预测,单独的模型被称作预测器[6],主要是对一些单独的问题进行分析。如果是对一些单独的同一种类的问题进行分析,可以将一个单独的模型看作为一个单独的
分类器。例如:银行贷款工作中存在低违约风险、高违约风险两种不同的类型。模型在投入使用之前要经过训练,在训练时,模型可能出现的情况分为两种即:过拟合、欠拟合,经过对维度调整,最终选择合适的目标。过拟合主要是指机器学习在模型训练样本中表现的过于优越,致使数据验证集、数据测试表现较差;欠拟合主要指训练集的判断准确率效果不好。两者的主要特
点表现在:过拟合特征维度数量较多,
训练时应该减少特征维度;欠拟合特征维度较少,
训练时需要增加特征维度。5.3模型融合
应用过程中,单独模型预测数据以及分类方式都是不能满足实际需求,所以,存在的每个模型都可以被
称为弱预测器或者弱分类器,如果模型数量足够多,此时就可以将所有模型进行结合,从而就可以获取更好的预测数据以及分类。例如:可以把每个模型获取的结果当做对该样本分类结果,依据投票数量的多少进行确定,票数较多的模型占据的权重更大。再例如:假设存在两个模型:客户信用度估测模型(1)客户信用度估测模型(2)模型结合中所占有的权重划分都是根据客
户特征维度对每次分类结果进行投票,模型数量达到一定程度可以把所有模型结合起来,所占的权重也根据每次分类的票数进行确定。具体的模型融合见表1:
表1模型融合
特征维度年纪客户信用度估测模型1
薪酬行业
籍贯客户信用度估测模型2
负债
通常来说,融合方案都是固定的,
只要对特征库、模型库采取相应的维护,并且通过特征学习、者机器学习模型,也可以快速获取结果。
第27卷第3期姜娜等:大数据下的机器学习算法
265-266.[2]
·33·
6结束语
谷珊.大数据环境下机器学习算法趋势研究[J].海峡科技与产业,2017(8):127-128.
并综上所述,大数据技术已经应用到各个行业中,
互相进步。在实际且大数据技术和机器学习相辅相成、
单一的机器学习已应用中,由于信息数量的不断增加,
明确机经不能满足社会发展需求,只有不断进行完善,器学习领域发展趋势以及研究重点,才能满足现代社
会发展需求。参考文献:
[1]
肖红.大数据下的机器学习算法探讨[J].通讯世界,2017(6):
[3]王凌.大数据背景下的机器学习算法简述[J].数字传媒研究,
2017,34(5):59-60.
[4]张绍成,孙时光,曲洋,等.大数据环境下机器学习在数据挖掘
中的应用研究[J].辽宁大学学报:自然科学版,2017,44(1):15-17.[5]
李成录.大数据背景下机器学习算法的综述[J].信息记录材料,2018(5).
[6]黄猛.基于大数据和机器学习模型的风力发电机组健康管
理研究[J].机械制造,2017,55(8):37-39.
(上接第3页)
钮,在低通滤波器的截止频率一栏输入2,得到结果如图7所示:
师上课演示及同学实验的相关内容。通过对程序的编写与控制,实现了仿真。参考文献:
[1]沈再石.信号与系统MATLAB信号处理[M].清华大学出版
社,2017
邹炼,等.面向创新能力培养的信号与系统教[2]卜方玲,徐新,
学改革[J].计算机教育,2016(1):52-55.
[3]黄海波,梁玉红,卢军.信号与系统实验教学平台建设探讨[J].
教育(文摘版),2016(3):002-002.
[4]何松,陈观.基于MATLAB的信号与系统教学改革初探[J].信
息技术与信息化,2015(3):14-15.
图7输入低通滤波器的截止频率后界面图
[5]全星慧,周围,韩建,等.基于Matlab的信号与系统实验平
台设计[J].现代电子技术,2014,37(22):88-90.
[6]李念念,张红梅.基于MATLABGUI的信号与系统分析软
件开发[J].工业控制计算机,2011,24(3):19-21.[7]
李秀梅,董文,贾中云.基于MatlabGUI的信号与系统课程GUI演示系统[J].大学教育,2014,(5):78-79.
贾中云.基于Matlab的信号与系统课程GUI[8]李秀梅,董文,
演示系统[J].大学教育,2014,21(5):78-79.
3结束语
基于MATLAB的信号与系统相关通过此次设计,
实验平台已经初具模型了。该实验平台是使用MAT-LAB的GUI虚拟界面设计系统。设计的实验平台包含信号与系统课程中一些比较简单比较基本的部分实验的内容,最基本的内容也是比较重要的。通过对实验平台的测试及试运行,本设计平台简便明了地满足了教
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务