搜索
您的当前位置:首页正文

数据分析预处理的MATLAB实现

来源:爱够旅游网
第33卷第4期 宜春学院学报 Vo1.33,No.4 2011年4月 Journal of Yichun Cortege Apr.2011 数据分析预处理的MATLAB实现 邱爱保’,吕爱清 (1.宜春学院数学与计算机科学学院应用数学教研室,江西宜春336000; 2.宜春学院生命科学与资源环境学院资源环境教研室,江西 宜春336000) 摘要:利用数值逼近中的插值和曲线拟合技术,对数据库中缺失数据进行修复。对比Hermite插值、 Spline插值和多项式拟合,并利用相关文献数据检验,Spline插值效果最好,为项目的小波分析提供可靠的数据 支撑。 关键词:插值;曲线拟合;检验;小波分析 中图分类号:0241.5文献标志码:A文章编号:1671—380X(2011)04—0033—02 The Realization of Preprocessing in Data Analysis、 th Maflab QIU Ai—bao,LU Ai—qing (College ofMath and Compeer.sc , ,Yiehun Uniersity,Yichun,336000 China; College ofLife Science and Resources&Environment,Yichun University Yichun,336000 China) Abstract:Using interpolation and curve fitting in numerical approximation,to fix the missing data in the database.Comparison of Her- mite interpolation,Spline interpolation&polynomila fitting,and use of relevant literature data test,Spline interpolation works best, provide relibale data for Wavelet analysis of the pmject support. Key Words:Interpolation;Curve fitting;Test;Wavelet analysis 数据分析和处理在数学、物理、生物、医学等科学领 S( )=ao90( )+aI l( )+…+n ( ), 域和工程领域有着广泛的应用。例如,在工程领域,根据 =span{妒o( ),gol( ),… ( )} 有限的已知数据对未知数据进行推测时,经常需要用到数 根据具体数据选择各类函数对其进行最小二乘逼近。 据插值和拟合的方法;在信号工程领域,则经常用到傅立 2应用 叶变换和小波变换等工具。利用连续小波变换对信号数据 影响农业的自然灾害包括水灾、旱灾、火灾、风灾、 做时域分析、频域分析时,需要对时间变量等距离散化处 理 J。对于缺失点的数据,为了达到精度要求,可以利用 雪灾、雹灾、农作物病虫害、畜禽病虫害、沙尘暴、太阳 插值或拟合技术修复处理。 核子爆炸、地震、火山暴发、泥石流等类型,以水灾、旱 1方法 灾、风灾、雹灾、低温灾害为重点,查阅统计资料,得到 插值技术根据实际的需要分为Lagrnage插值、Newton 江西省1949—2009年时间序列的受灾面积和农作物播种面 插值、Hermite插值、Spline插值等多项式插值-2j。一般来 积,拟用小波变换分析受灾比例(受灾面积/播种面积)周 说,插值次数越高越精确,但是到了一定阶段后,又会出 期演变规律。但由于各种原因,有些年份(1965、1967、 现数据震荡或Runge现象。Spline插值方法可以得到很好的 1968、1969)数据缺失不全,需要对其修复。 平滑效果,但它需要满足边界条件,在程序实现时需要传 (1)将统计资料汇编成Excel表格; 递参数。判断插值的效果主要按插值余项R(x)进行估 (2)将Excel表格导入到Matlab的工作空间(Work— 计,余项越小逼近程度越高。 space)中,保存为szb1.mat; 曲线拟合技术是求函数S (X),使误差平方和达到最 (3)绘制散点图,X=szbl(:,1);Y=szbl(:,4); 小: plot(x,Y,,r0,; =∑ =∑ ( )一), ] (4)在图形窗口的“Tools”中选择“Basic Fitting”命 令; =mi(fn Is( ) ] (5)根据残差(Norm)值比对各种拟合,选择插值拟 这里 合效果较好的方式,以缺失年份为自变量 J,计算出相应 收稿日期:2011一Ol一11 基金项目:江西省教育厅科学技术研究项目(GJJ09358),江西省高校人文社会科学重点研究基地宜春学院农村社会建设研究中心招标 项目。 作者简介:邱爱保(1972一),男,江西樟树人,讲师,主要从事计算数学及应用数学研究。 ・33・ 第4期 宜春学院学报 第33卷 的函数值(见表1)。 表1缺失年份的成灾比例比较 为了比较6阶多项式拟合、Spline插值和Hermite插值 三种方式的效果,绘制函数插值与拟合的图像,并标记缺 失年份相应的函数值(见图1,图2,图3)。 图3 Hermite插值 对比图1、图2、图3,查阅《江西历代水旱灾害辑 录》,1963年全省春、夏、秋连旱;1964年六月赣江大水; 1967年六月,修河、饶河、乐安河、信江、抚河、锦江、 袁水大水;1968年赣江六月大水,抚河七月大水 】。其中 1968年受灾面积389万亩,受灾比例为4.6396%,接近 Spline插值的结果;1969年没有水旱灾害记录,也与表l 中Spline插值的值最小相吻合,故Spine插值效果最佳。 3结语 图1 6阶多项式拟合 对数据库进行修复时,选择何种修复技术不仅要考虑 插值余项或误差平方和,还需从不同角度挖掘数据,检验 数据是否科学合理。 参考文献: [1]胡昌华,李国海,刘涛,等.基于MATIAB6.X的系统分 析与设计((小波分析[M].西安:西安电子科技大学出 版社,2004,215-230 [2]李庆杨,王能超,易大义.数值分析[M].北京:清华大 学出版社,施普林格出版社,2005,21—96 [3]苏金明,阮沈勇.MATLAB实用教程[M].北京:电子工 业出版社,2005,102—114 [4]江西省水利厅水利志总编辑室,江西历代水旱灾害辑录 [M].江西:江西人民出版社,1988,209—215 图2 Spline插值 由正项级数的比值审敛法,知级数 收敛,故由 地求解极限。 级数收敛的必要条件,得: [1]华东师范大学数学系.数学分析(上册)[M].北京:高 lim :0。 等教育出版社,1980,37-68 7.此例若不借助级数收敛的必要条件来求解,则难以求 =~ 一~…~…….…~,.。 . .. , [2]弭 簿,,科学技 i-i:/@"V4 ̄ 杨有俸.高等数学疑难解析[M. H土, -…33一…… ].合肥:…~…。安徽  法:。出. 上里 法 耋了目, 警。  要耋曼  皇些耋  [4] 才.,.* -zl 北 北触随 。选择恰当的方法,只有方法得当,才能准确、快速、灵活所以求极限时,首先要根据数列或函数表达式的特点, ,。:■ ,,, :::…’谈谈求极限的方法[…~……J]….抚州师专学报,… …… 1998,’ tz) ¨叫  

因篇幅问题不能全部显示,请点此查看更多更全内容

Top