大家好呀,从昨天我发完初步的思路到现在,我肝到就睡了一个小时,手都快抽筋了,但总算完成了完整论文,结果一看各大平台又是各种血雨腥风各种东西满天飘,什么完整代码论文思路竟然有的昨天就完成了,我想说,我不相信有任何人能在短短几小时完成这道题目的完整解答,所谓的这种完整解答不过是随便搜点模型介绍、代码和数据糊弄小白罢了,要这么写我一两个小时就能完成,这还不简单吗?某文库直接搜时间序列:
然后某sdn直接搜代码:
然后连带着题目给的数据全给你复制粘贴进去。
具体怎么应用的?不知道,题目在问什么?不知道,数据符不符合题目要求?不知道
一问三不知,糊弄小白就完事了。
好了,废话不多说了,也不是说一棒子打死市面上全是垃圾,只是希望大家明鉴别被骗。
我开始我的分析吧,注意,由于分析过程复杂,所以本文很长,请大家耐心看完,如果有帮助,别忘了点赞关注收藏,后续还会更新讲解视频。
总体而言,这次题目难度较大,重点在于数据搜集和处理,在处理方面,非常复杂,稍后我会录制b站讲解视频,你们看完就懂了,会在这个文章更新,大家点赞关注收藏追更,及时看我更新,另外,本题小问极多,导致我通宵到现在才肝完。
我的完整原创论文(需要的看本文最下方我的个人卡片):
共66页,修改及方便大家理解的单独说明页面7页,正文57页,附录2页。
之所以篇幅这么长,是因为
1.我论文很多的篇幅需要用来解释我为什么要这么做,基本就是手把手教你怎么做,并且我还要照顾每个人的水平,所有会有些地方需要写得很繁琐,一些中间过程展现得事无巨细,你们自己删减,另外,这次我新增了操作说明等界面帮助你们理解。
2.本题模型没有那么难,但是搜集到有用的数据,然后把它变成我可以用来计算的格式,然后处理是非常非常复杂的过程,绝不是一两句话可以说清楚的,稍后大家看我讲解视频吧。
我自己用到的数据:
我的:
摘要:
目录:
从目录就能看出来,这道题需要解决的小问很多。
OK,现在大家跟着我的脚步,一步一步来分析这道题目:
最开始,我们只获得了一篇问题和一个附件数据。
第一问(a):
我们有什么数据?
数据多达23万多条,囊括各个地区的,但根本没有近十年的数据。也根本没有2022.3之后的数据,那怎么分析?
第一步自然是搜集数据了,题目给了他们的数据来源,点进去看一下:
这里不就有平均气温吗?甚至还有年度汇总。直接点进去
是一个txt文件,里面也有详细的对于数据的说明,对于数据的说明,我大概翻译如下:
该文件包含地表平均值的详细汇总
Berkeley Average方法产生的结果。温度为
以摄氏度为单位,并报告为相对于1951年1月至1980年12月平均值的异常。不确定性代表统计和空间欠采样效应的95置信区间。
此处显示的当前数据集描述如下:
基于完整Berkeley数据集的估计全球陆地表面TAVG
该分析于2022年11月3日08:13:55进行
结果基于50498个时间序列和21051207个数据点
估计1951年1月至1980年12月绝对温度(C):8.60+/-0.05
由于地球的陆地并非围绕赤道对称分布
全球土地平均值存在平均季节性。
估计1951年1月至1980年12月月绝对温度:
一月二月三月四月五月六月七月八月九月十月十一月十二月
2.59 3.20 5.29 8.29 11.28 13.43 14.31 13.84 12.04 9.20 6.07 3.63
+/- 0.12 0.08 0.06 0.07 0.07 0.08 0.09 0.08 0.06 0.07 0.07 0.10
对于每个月,我们报告该月的估计陆地表面平均值及其不确定性。我们还报告了
年、五年、十年和二十年的移动平均值在该月左右居中(如果中心在两个月之间,则向下舍入)。例如,1950年1月至12月的年平均值报告于1950年6月。
什么意思呢,方便大家理解我简单点说,这里给的每月温度,只是一个温度表征量,是相对的,不是其具体的绝对温度。
但这并不影响我们直接使用这个数据,因为人家官网自己研究气温的报告也都是直接使用这个表征量的。
那就没事了,我直接把txt文件导入excel中,把用不到的那些列删除,当然了,具体导入过程中会有很多琐碎问题,我就不多赘述了:
得到了上面这个表格,这下我们终于有题目要的数据了:
紧接着,判断2022年3月全球气温的上升是否导致了比过去10年期间更大的上升。
先做个可视化图片整体把握一下吧:
初步判断完趋势有了一个整体把握之后,再做一个差异性分析,什么意思?其实就是分成两组数据,看看两组数据存不存在显著的差异罢了:
要是存在,那就说明导致了更大的提升呗。
这里直接用差异性分析自动求解器就行,最后弄出来最适合的是独立样本t检验,建议结果放出来就完事了:
最后算出来跟我看趋势图的直观感受一致。
OK第一问结束,开始第二问:
第一问(b):
描述过去有什么好说的,直接趋势图完事:
预测未来,这里我用两种模型:
第一个时间序列,第二个季节性时间序列:
为什么这么做?因为对于气温这个显然呈现季节性变动的东西,当然季节性时间序列非常合适,时间序列本质上就是个对照组。
分别绘制预测图就完事了,效果拟合程度很好:
这里有一个问题,看看我们预测用的表格:
年和月份是分开的两列,如果你按照月份作为横坐标,时间序列预测得到结果横坐标是没问题的,但是,如果你做季节性时间序列预测,很可能出现这样的情况:
月份全跑到一边去了。
所以年份和月份还要汇总到一起,做成日期。。。。这里我直接用excel功能做了,有丢丢麻烦,但我不多赘述了。
汇总到一起,用这个日期作为时序变量就行了。
第二问完事。第三问:
第一问(c):
上一问都选好模型了,这一问无脑预测就完事了,只是需要注意,由于时间序列预测不了很多,这里肯定要用年度数据。。。
所以从官网下载那个年度数据:
又是个txt文件,又要导入,跟前面一样的步骤。。
得到最终表格:
无脑预测。。。
但是离谱的是,预测单位要达到20℃需要非常非常多年。
对了,这里提一嘴,我前面说过了,我们用的数据全都是相对温度,最后得到20℃是需要加上人家的绝对值的。
说实话刚开始得到这个结果我还以为我模型选错了还是算错了。
但是又仔细一看,不对啊,你过往150年不也就提升了一两度?
所以个人感觉这道题目是出题有问题,应该设置成10℃才合理,但是无所谓,人家怎么出咱们怎么做,我模型又没错,预测是多少年就是多少年吧,无所谓。
这一问结束,继续:
第一问(d):
没什么好说的,前面分析的时候我就说过了,气温肯定是季节性变化,那么无论是从内部机理角度还是最终实际预测图,肯定季节性时间序列更好。
第二问(a):
温度和时间的关系前面都已经有了。。。重点自然是温度和位置
有人说直接用题目给的数据呗?
我不建议这样,因为,题目给出的数据中,国家实在太多了,如果按照这个位置去分析,那么相关性表格将会非常大,同时,其参考价值也会降低,而且计算过程也会非常复杂,因此,我在这里考虑采用南北半球进行对比。
为什么是南北半球?
因为人家数据官网给了这俩地方数据了:
而且南北半球对比岂不是很有代表性?当然了,你们也可以挑几个代表国家,我只是给出我自己的做法。
接着又是txt文件导入excel,然后划分,,,汇总。。。。
这些步骤是真的有点恶心,但是没办法必须要做,我最终的数据表格:
然后看一下温度和位置相关不相关吧,有的人说直接做相关性分析呗?我不建议,因为你得到的热力图解释不了什么东西,这个从内部机理而言,是没有道理的,南半球和北半球温度有多少相关性有什么意义?
做个差异性分析就行了,如果南北半球差异大,那就说明温度跟地理位置相关性强啊?是这个道理吧?
ok直接做了:
第二问(b):
这一问还行吧,最开始我路走骗了,一直在找covid相关的变化,但一直没找到,后来看了个报道:
人家的结论是:
数据不够多,分析不了。
额那就再找文献吧,后来找到了一些高度相关的文章和数据
踏破铁鞋无觅处,得来全不费工夫啊,结束。
第二问(c):
人家题目不都有提示吗:
把里面二氧化碳数据下载一下,然后他的趋势图也搞出来就完事了,温室气体当然是主要原因:
结束结束
第二问(d):
措施就不用多说了吧?题目我都懒得截了,这个一搜一大堆,自己复制粘贴降重吧。
第三问:
非技术报告,意思就是把我的摘要里面的跟数学模型相关的东西全删掉,做成让一个完全不懂数模的人也能看懂的一点文章,也就是说基本只用展示结论,最后加上措施就行。
OK,彻底结束,完整成品看下方我的个人卡片:
版权归原作者 smppbzyc 所有, 如有侵权,请联系我们删除。