机器学习实验报告
〇、实验报告pdf可在该网址下载
机器学习实验三:线性回归
这个需要积分下载(因为实验报告后台查重,不建议直接白嫖)。
建议看博客,博客里面会有很多实验报告小说明会用【…】加粗注释。
一、实验目的与要求
(1) 实现基本的线性回归算法,对一个简单的数据进行预测; 参考相关论文与文献,实现3-4个现有论文中的回归算法,并比较其在人脸识别中的性能
(2)自行设计一个全新的线性回归算法(不是别人论文里的!而是自己创造的!),包括建模与优化,收敛性证明等(如果有),要求:你开发的新算法能在人脸识别实验中的识别率能比过基本的或现有的线性回归算法(至少在23个数据库中比较好,另12个中基本差不多)。 全方位比较你的方法与你复现的方法在不同维数的识别率。(这项创新内容可另写一篇论文提交到“论文提交处”)
上述内容不超3-4页。
思考题题目: 机器学习之股票价格预测大PK----- 论从即日起到6月30日上午收盘涨幅最大的锂电池相关行业股票
这部分内容要求不少于4页,长度不限(但也不要过长到20页)。要求关键数据详实、图表丰富,有理有据,引用清楚(给出网址,报告名,作者名,就像引用论文一样)最后选出价格涨幅最大的股票及其涨幅(以4月17日交易结束时的实际价格为准)。 不限内容不限技术,可用机器学习的任何技术,包括但不限于线性、非线性、多项式、多变量函数等各种预测模型,也可什么也不用,用数据列表讲明理由。 ( 可考虑每月需求、产量、价格、 进口量、 疫情等其它因素的关系进行建模。 )
建议每组同学分工合作,每人收集2-3个股票的关键可靠信息,进行信息汇总与小组讨论,最后各作各的预测,通常每个人由于观点不一致,预测值很难完全一样!。 各组统一观点选出最具投资价值的一只股票并给出预测涨幅( 2022年6月30日中午收盘,正好我们的最后一节课 )。各组公选一位同学进行小组研究成果汇报,每人约15分钟,我们拿一个下午的实验课时间来汇报PK,要求:模型,图表,数据都详实。
该部分的最后一句话用以下句子结束:
短期我推荐购买(股票名称),4月15日交易日价格是元,它到6月30日/7月6日(最后一次课下午收市价为准)的价格是元,涨幅为%。预测人姓名:*
长期(2020、2021、2022年末) 我推荐购买(股票名称),4月15日交易日价格是元,它到 (2020、2021、2022年末12月30日)的预估价格分别是(、、**元),涨(跌)幅分别为(%、 **%、 %)。 预测人姓名:*
该段话的照片保存好在手机中,以便在当时拿出证据领奖!!预测最准的,老师有神密大奖!!!)请每个同学记住自己的提交报告的最终值,并拍下.上面点收市价为准3日(以最后一次课的下午6月30对到)。
二、实验内容与方法
2.1 线性回归算法学习与回顾
2.1.1 线性回归的原理
2.1.2 一元线性回归模型
2.1.3 多元线性回归模型
2.2 线性回归算法实现简单预测
三、实验步骤与过程
3.1 比较线性回归与现有论文中的回归算法在人脸识别中的性能
3.1.1 实验数据集与训练集、测试集的划分
- ORL56_46人脸数据集 该数据集共有40个人,每个人10张图片。每张图片像素大小为56×46。本次实验该数据集每个类划分为5张训练集,5张测试集,使用40个类。
- AR人脸数据集 该数据库由3个以上的数据库组成;126名受试者面部正面图像的200幅彩色图像。每个主题有26张不同的图片。对于每个受试者,这些图像被记录在两个不同的时段,间隔两周,每个时段由13张图像组成。所有图像均由同一台摄像机在严格控制的照明和视点条件下拍摄。数据库中的每个图像都是768×576像素大小,每个像素由24位RGB颜色值表示。本次实验该数据集每个类划分为13张训练集,13张测试集,使用前16类。
- FERET人脸数据集 该数据集一共200人,每人7张,已分类,灰度图,80x80像素。第1幅为标准无变化图像,第2,5幅为大幅度姿态变化图像,第3,4幅为小幅度姿态变化图像。第7幅为光照变化图像。本次实验该数据集每个类划分为4张训练集,3张测试集,使用200类。
3.1.2 实验步骤
1. 线性回归分类算法LRC
2. 岭回归(Ridge Regression)
3. Lasso回归
3.1.3 实验结果
3.1.4 实验结果分析
通过几种应用于人脸识别的方法进行比较,我们发现回归模型的人脸识别率会比较高。LRC、岭回归、Lasso回归由于是否添加正则项、添加什么样的正则项在算法上有所不同,但是通过我的实验可以发现,在人脸识别上的差距并不是很大。
四、思考题
【预测的非常不准,献丑献丑!!!】
4.1 首先了解现阶段的半导体的股票大头
- 宁德时代 毫无疑问,电池是新能源汽车发展的重中之重,现阶段电动车最迫切需要解决的是续航,而最直接影响续航的就是电池。目前,整个新能源动力电池行业,宁德时代不论放在国内还是全球来看,都是妥妥的龙头老大。
- 比亚迪 自2003年收购秦川汽车之后,比亚迪就开始了他们的造车之路,并且逐渐发展成了中国最大的新能源车企。
- 国轩高科 目前,国内锂电池上市公司中,国轩高科是主要以磷酸铁锂技术路线为主的动力点查生产企业。国轩高科在国内企业中排在行业第三,属于动力电池的第二梯队企业。
- 亿纬锂能 亿纬锂能虽然美哟宁德时代和比亚迪做的那么大,但也一致专注于锂电池的创新发展,经过这么多年的努力,锂亚电池居世界前列,锂原电池居国内领先地位。
- 鹏辉能源 鹏辉能源主要生产聚合物锂离子、锂离子、镍氢等二次充电电池;锂铁、锂锰、锌空等一次性电池。产品广泛应用于移动电源、航模、新能源汽车、汽车启动电源、童心基站后备电源、风光储能及家庭储能电池系统解决方案。
4.2 导出股票的数据
现在目前的量化平台非常多,JoinQuant(聚宽)量化平台饱受好评,本次股票预测将使用JoinQuant平台与Python的API导入股票的数据。JQData是聚宽数据团队专门为有志于从事量化投资的金融机构、研究人员以及个人量化爱好者提供的本地量化金融数据。用户只需在本地Python环境下安装JQData数据包,输入三行代码,即可调用由聚宽数据团队专业生产的全套量化金融数据。
首先需要手动安装压缩包:
然后将数据导出.cvs文件,查看数据结果如下图所示:
4.3 可视化股票数据
首先,我进行已知数据的可视化,先初步分析各个半导体行业的股价走势。
4.4 预测模型
我采用时间序列ARIMA模型改进之后对股票行业走势进行预测。
ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),是时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是“自回归”,p为自回归项数;MA为“滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。
首先某一天股票市价的影响取决于近几个月的走势,与预测的时间越近,认为影响程度越大。我认为股票的走势还有可能受到往年同期的影响,一年的走势具有一定程度的周期性,所以考虑在ARIMA模型的基础上,增加往年同期的考量。
具体的ARIMA模型理论知识就不在实验报告中过多赘述了。
4.5 预测结果展示
4.5 综上预测结果分析
使用预测模型,预测五家半导体企业的2022年4月份的市值为
预测表:
短期和长期的盈亏预测:
短期我推荐购买宁德时代(股票名称),4月15日交易日价格是5949元,它到6月30日/7月6日(最后一次课下午收市价为准)的价格是8816元,涨幅为18.37%。预测人姓名:汪贝琪
长期(2022、2023、2024年末)我推荐购买宁德时代(股票名称),4月15日交易日价格是5949元,它到(2022、2023、2024年末12月30日)的预估价格分别是(16985、22663、27066元),涨(跌)幅分别为(185.51%、280.95%、354.96%)。 预测人姓名:汪贝琪
五、实验结论或体会
本次实验报告关于线性回归,在实验过程中,线性回归可以当作一个拟合的工具,也可以解决分类问题。在人脸识别的实验中,我们知道PCA和LDA+KNN分类器是通过降维重构的手段来进行人脸识别的。对于回归算法,与其相同点都在于重构的思想。但不同的是,回归算法本身就可以作为一个预测模型,且不需要降维,而是赋予一定的权重。除了多元线性回归之外的回归算法还有:岭回归、Lasso回归等回归模型。这些与线性回归的差别在于是否添加正则项,和添加怎样的正则项。对于人脸识别的任务而言,线性回归、岭回归、Lasso回归的识别率差别不大。
本次实验报告的另一任务是预测股票价格。该问题的解决思路如下:1)首先,选好半导体行业,导出股票数据。我使用的聚宽JQDATA的API,利用Python导出其数据。2)然后,数据处理,将日信息转化为月信息,方便分析。3)接着,设计预测模型,将这个行业股票的市值进行预测,并使用2021年前的数据对2021年的股票价格进行预测验证。4)最后给出预测结果和长期短期预测的市价与选择。
本次实验报告耗时较长,内容也比较丰富,而且我对量化金融也非常的感兴趣,ARIMA模型也是数学建模中常用的算法。时间序列的本质就是线性回归,所以将其加以改进之后,使用在股票预测上具有一定的说服力。
版权归原作者 显然易证 所有, 如有侵权,请联系我们删除。