1:起因
(1)最近1直在处理大数据,从MB ----> GB的变化,是1次质的奔腾,相应的工具也在变 从widows到linux,从单机单核 到 hadoop多节点的计算
(2)问题来了,面对海量的数据,如何从中发掘实用的信息或发现潜伏的现象,可视化工具多是必不可少的 ;
(3)可视化工具可以说百度1大篇,可是作为研究者的我们,程序猿的我们可能更希望能够抽象出1种数学模型,对现实的现象进行非常好的描写和刻画
(4)Python(数据清洗和处理) + MATLAB(模型分析) 或 c++/java/hadoop(数据清洗和处理) + MATLAB(模型分析)
(5)先前的1篇博文可以参考 c++ fstream + string 处理大数据 和 大数据处理之道 (MATLAB 篇(2))
(6)程序猿鄙视学习MATLAB的人,是由于对MATLAB的理解不够深入,MATLAB是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵实验室);说起处理矩阵(其实就是数值型的数组嘛)计算问题那是数一数二的快,简便。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等。
2:MATLAB学习(遍历文件夹,矩阵的重新组合,pca)
(1) save(tofilename, 'ANS', '-ASCII') 保存结果ANS矩阵到制定路径tofilename中
(2)num2str(num) 将数字转化为string型;
(3)strcat(rootpath,num2str(i),'*.csv') 字符串拼接函数 用于绝对路径的生成
(4)[coef,score,latent,t2] = princomp(data); 主要成份分析法,latent是贡献率排序的(从大到小),score是生成的新数据,根据贡献率排序的
3:PCA讲授
(1)特点抽取是指将高纬度的特点经过某个函数映照至低纬度作为新的特点。经常使用的特点抽取方法就是PCA
(2)当贡献率累加至95%(当要求不是特别严格时,85%以上也能够),以后的维数会不再显示;所以根据贡献率(例如前两位已到达95%),那末最后可以降至2维,便可以只选取SCORE的前两列来表示原始数据。
(3)PCA算法步骤:
设有m条n维数据。
1)将原始数据按列组成n行m列矩阵X
2)将X的每行(代表1个属性字段)进行零均值化,即减去这1行的均值
3)求出协方差矩阵C=frac{1}{m}XX^mathsf{T}
4)求出协方差矩阵的特点值及对应的特点向量
5)将特点向量按对应特点值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)Y=PX即为降维到k维后的数据
4:程序(注释比较详细)
上一篇 NYOJ A-B Problem