创新创业项目
给数据洗个澡
(081740317杨欣慰;081740314宋一凡;081840330周意林;081840328张放放;081740309张秋红)
(指导教师:陈锋)
项目简介:
该项目是通过开展针对数据预处理的更加简便高效的创新创业训练计划项目,通过平台线上学习学习可以高效有针对性地采集并清晰海量数据,高质量处理数据为之后的建模和可视化过程做铺垫。通过运用PMT平台线上学习数据预处理方法,使用电商平台数据分析和钢水数据预处理的分析检验发现,运用该平台可以达到简便合理的高效数据预处理方式,值得学习和推广。
项目创新点:
项目主要是以长风大数据平台技术软件PMT作为支撑,对数据进行初步采集及清洗。PMT平台拥有在线学习知识的教程,可以通过掌握数据预处理的多种方法对海量数据直接进行操作,节省了传统软件的代码工作量,得到的数据具有较强的可操作性。运用PSO粒子群优化法对钢水数据进行优化,运用XGBoost算法建立短期可行性模型,为后续工作带来有利基础。
项目实施步骤:
该项目在针对PMT平台中采集到的电商企业用户购买行为数据进行数据预处理,对数据进行搜集整理加以分析。通过数据噪声处理,阈值法和插值法结合后提取特征值,挖掘出数据间的联系。减少电商企业用户流动性大所带来的分析困难,使得海量数据可操作性增强,最终让商家有针对性对用户进行合理化推荐商品。在对钢水脱氧合金化数据进行前期清洗和误差分析后,增加了PSO粒子群优化法对钢水脱氧合金化数据进行误差分析,为下一步建立合金加入量的误差模型和合金最小成本优化模型做好准备。
成果简介:项目在数据挖掘竞赛中获得国家三等奖,吉林省特等奖的成果;