0


基于大数据和机器学习分析评估步行与街道特征之间的关系

本次给大家带来一篇SCI论文的全文翻译!该论文利用机器学习技术仔细研究关于街道特征的移动应用程序数据,通过告知决策者和城市规划者行人的行为和偏好,促进更有效的基础设施投资和支持规划决策,为决策者和城市基础设施投资提供了启示。


【论文题目】

Evaluating the relationship between walking and street characteristics based on big data and machine learning analysis

【题目****翻译】

基于大数据和机器学习分析评估步行与街道特征之间的关系

【****期刊信息】

Cities;Voume 151, August 2024, 105111

【****作者信息】

  • Avital Angel, 以色列理工学院建筑与城市规划技术学院,海法,以色列
  • Achituv Cohen, 以色列阿里尔大学土木工程系
  • Trisalyn Nelson, 美国加州大学圣巴巴拉分校地理学系
  • Pnina Plaut,以色列理工学院建筑与城市规划技术学院,海法,以色列

【****论文链接】

https://doi.org/10.1016/j.cities.2024.105111

【****关键词】

步行, 行人动态, 移动应用程序数据, 机器学习分析, 决策树回归器。

【****本文亮点】

  • 珠江三角洲区域经济一体化基础上的城际边界影响
  • 三个大都市城市间的趋同发展和共同改善存在较大差异
  • 城市间的经济趋同与产业协同发展有关

【摘要】

步行和建筑环境之间的关系越来越引起人们对促进可持续交通和健康社区的关注。然而,当行人参与街道环境时,步行性评估往往忽略了人类规模的特征,主要集中在社区层面。此外,传统的关于可步行性的研究依赖于有限的和有时间限制的方法。为了解决这些研究差距,并深入了解步行和建筑环境之间的联系,本研究利用机器学习技术仔细研究关于街道特征的移动应用程序数据。基于树的算法被部署来识别步行量和街道层面上的建筑环境特征之间的关联,它们跨越了不同的时间段。行人交通数据是在以色列的特拉维夫收集的,同时考虑了季节变化、工作日和一天中的时间。研究横跨8000个路段的20个街道水平特征,可以进一步了解各种不同的步行特征的相对意义,以及与较大的行人活动和较少的行人活动相关的街道轮廓。值得注意的是,时间变量变得至关重要,街道特征在不同的时间定义中的重要性也有所不同。该研究通过告知决策者和城市规划者行人的行为和偏好,促进更有效的基础设施投资和支持规划决策,为决策者和城市基础设施投资提供了启示。

【引言】

对行人友好的环境正被推广为重要的公共空间,以加强积极的交通。城市和城市规划者都认识到街道作为社会空间的重要性,在多年的以汽车为导向的规划之后,让行人重新回到了中心舞台上(萨拉查·米兰达等人,2021年)。作为这一趋势的一部分,对步行性和步行与建筑环境之间关系的研究正在得到越来越多的关注,目的是了解行人的需求、偏好和步行选择(Yencha,2019)。

步行与建筑环境之间关系的研究是基于城市空间的物理属性和设计特征可能促进或阻碍步行活动的前提(Ewing & Handy,2009)。实证研究的努力,以确定这些特征和质量。城市设计特征在影响个人(如个人步行时间)和集体(如行人量)步行行为方面发挥着重要作用,有经验证据支持个人步行行为与社区水平的建筑环境特征之间的关联(Saelens,Sallis,& Frank,2003)。此外,研究发现,对建筑环境的主观感知,如交通安全和美学,会影响个人的步行行为(Knuiman等人,2014年;Panter等人,2014年)。虽然现有的研究已经广泛探索了建筑环境与个体步行行为之间的联系,但对建筑环境与集体步行行为之间的联系的关注有限(Jiang et al.,2021)。

可步行性评估通常在社区层面进行(通常称为“社区步行性”),同时考虑将城市形式,如街道连通性、住宅密度和土地使用组合作为步行的相关因素(Frank et al.,2005)。由于行人直接与街道环境互动,社区步行性指数往往没有考虑到人为尺度的特征,而且,尽管它对步行性研究很重要,但街道水平的评估在文献中并不常见。此外,与机动交通研究的大数据技术和先进的数据收集方法相比,步行性研究主要依赖于传统工具,如调查、问卷调查和行人文件观察等(Boakye等人,2023年;费雷尔和鲁伊斯,2018年;弗兰克等人,2005年;高等人,2022年;杰克和麦科马克,2014年;米特拉等人,2015年;苏丹等人,2021年)。因此,测量的规模往往局限于小的地理区域和样本,由于传统数据收集工具的限制,与时间相关的变量往往被忽略。

近年来,很少有研究将更先进的技术和方法用于行人记录和步行行为分析。例子包括传感器技术(Angel等人,2022年,2023年;Angel &普劳特,2024年;高和¨公司,2021年;莱萨尼和米兰达-莫雷诺,2019年;赵等人,2019年),街景数据(陈等人,2020年;尹等人,2015年,2016年)和移动应用数据(萨拉查米兰达等人,2021年),以及结合机器学习技术的分析方法。然而,这些研究在研究领域仍占少数。

本研究旨在仔细研究大型城市网络中的街道水平特征与集体步行(行人量)行为之间的联系,同时使用机器学习技术,并考虑与时间相关的变量,如一年中的时间、一周中的天数和一天中的时间。本研究聚焦于以色列特拉维夫,分析了从“Moovit”应用中获得的行人量数据和建筑环境的客观测量数据。本研究采用基于树的算法,研究不同时间段的步行模式与建筑环境特征之间的关系。这项研究的结果为了解与增加的步行行为有关的街道特征提供了新的见解。

本文的其余部分组织如下。第2节提供了本研究领域的理论背景和文献综述。第3节描述了在实证分析中使用的研究领域、数据和模型。第4节介绍了数据分析的结果和所提出的模型,强调了不同街道水平的特征与步行有关的重要性。在第5节中,我们讨论了研究结果,与以前的文献相比,讨论了在实践中的见解和可能的应用,并讨论了该研究的贡献和局限性。最后,第6节提供了总结语,总结了本文的主要思想和发现。

【文献综述】

“可步行”一词自18世纪开始使用(Forsyth,2015),而“可步行”的概念是一个最近的术语,首次引入,常用于城市规划设计,旨在建设可步行社区(Wang & Yang,2019)。术语“步行性”通常指建筑环境对步行的人友好的程度(Frank et al.,2004;Gebel et al.,2009),但是不同的学者和实践者的定义不同,他们在定义这个术语时给予不同的重点。

对步行与城市环境之间关系的研究主要集中在城市/建筑环境的哪些属性影响步行,以及这种影响是如何反映的?根据(Moran & Plaut,2013),该研究领域可分为三种类型的研究设计:(1)比较设计-包括比较“高”和“低”步行性得分地区的身体活动水平(欧文等,2007;萨伦斯、萨利斯、黑、陈,2003;范戴克等,2009);(2)相关设计-考察身体活动与建筑环境元素之间的相关性(卡尔森等,2012;弗兰克等人,2007,2009;罗米希等人,2006);(3)多层次设计研究结合比较和相关设计(Berke等人,2007;Kerr等人,2007)。本研究属于相关性研究的范围。

关于建筑环境和体育活动的相关性研究主要在公共卫生部门和健康促进领域很常见。这一领域的研究依赖于社会生态学理论的某些元素,因为它是基于人类行为与物理环境、社会和个人特征相关的假设(Moran & Plaut,2013)。在这类研究中提出的主要问题是,城市环境的什么特征鼓励体育活动,以及相对于其他个人和社会因素,建筑环境的相对权重是什么?一般来说,在不同地点和不同人群之间进行的相关研究结果支持了步行性特征(密度、土地利用组合、连通性和有吸引力的城市设计)和体育活动之间的联系。例如,在美国对成年人进行的一项研究(Hoehner et al.,2005)发现,为了移动目的而步行与周围环境中的土地使用组合呈正相关,与维护不善的人行道呈负相关。在美国另一项对儿童进行的另一项研究中(Roemmich et al.,2006),体育活动(在离家中5.2公里半径内测量)与居住密度和儿童住宅附近的公共空间大小呈正相关。

相关研究中常用的方法是调查和问卷调查(Chan等人,2019年;Feuillet等人,2016年)。例如,(Feuillet et al.,2016)使用互联网调查来描述建筑环境和步行之间具有对比关系的地方,并从环境和个人特征方面确定是什么区分了所发现的环境。结果显示,整个研究区域的建筑环境与步行跑腿和休闲有显著的正相关关系。此外,环境变量的相关性比个体变量要高得多,这表明环境变量对任何类型的步行结果都有更强的辨别能力。

(Chan et al.,2019)通过在中国深圳的四个选定社区进行的问卷调查,调查客观社区特征、人们对社区环境的感知和步行态度对步行频率的独立和联合影响。对美学、可及性和到达目的地的感知与休闲/休闲步行有关;维护和糟糕的人行道状况与所有类型的步行都密切相关。在韩国首尔大都市10000个地点的调查数据发现,人行道和宽阔道路的存在与步行呈正相关(Kim et al.,2019)。

一些相关的研究提供了一个稍微不同的视角,通过关注环境变量,这些变量是行走的障碍,并减少了在城市进行体育活动的可能性。在西班牙巴伦西亚和格拉纳达,焦点小组发现了害怕犯罪(缺人、夜间路灯不佳或在冲突地区行走)、高密度的交通灯和沿着大型大道行走的常见障碍(Ferrer & Ruiz,2018)。对老年人自我报告的体育活动的分析显示,恶劣的社区条件降低了参与体育活动的几率(Cheval et al.,2019)。

在相关研究中使用的变量可分为三种类型:(1)客观变量,可用标准方法进行量化,如GIS,并在其他研究中重复(如土地使用混合物、树木、公共交通站等)。;(2)主观变量,可以用标准方法测量,如调查,在其他研究中可能也可能不会重复(如安全感、维护、吸引力等)。;(3)不同的变量,可以用观察等方法来测量,但可能无法在其他研究中重复(如社区的社会性、政策变量等)。(Maghelal & Capp,2011)。表1总结了一些客观环境变量的例子,这些变量在最近的相关研究中与身体活动相关。客观措施进一步分为四个主题:目的地、功能、安全和美学(根据可变主题(Salvo et al.,2018))。

表1 近年来研究中与体育活动相关的客观环境变量的例子

c835f026756980817ed950c6a7942a5e.jpeg

在城市环境中,区分个人(如个人的步行时间)和集体(如步行量)的步行行为是至关重要的。考虑到低人口密度或在社区外发生的步行活动等因素,社区内居民延长的步行时间并不一定与较高的步行量相关。同样,社区中行人容量的增加并不一定意味着居民步行时间更长,因为行人可能居住在其他地方或人口密度高的地区。这强调了个体和集体行走行为之间的不均匀关系。广泛的学术努力已经致力于阐明个人步行和建筑环境之间的关系,而对集体步行的调查在文献中并不常见(Jiang et al.,2021)。

今天,随着智能手机被广泛用于收集大量的众包数据(里奥斯&穆˜诺兹,2017),新的机会调查客观构建环境特征之间的关系和步行——等等——以低成本和大规模成为可能(徐等人,2015;翟等人,2018)。由(Eagle et al.,2009)进行的一项研究,检查了`记录的行为与自我报告行为的个体之间的差异,以评估拥有地面真实位置数据的附加价值,指出记录的行为与自我报告显著不同。

近年来,很少有研究采用先进的数据收集方法来调查行人运动与建筑环境之间的关系。例如,使用GPS数据、传感器技术、移动应用程序和街景数据来记录行人的运动,使用二维和三维GIS和机器学习技术来构建更全面的建筑环境措施(Yin,2017;Yin & Wang,2016)。其中一个例子是(萨拉查·米兰达等人,2021年),他利用从GPS信号中收集到的数千条行人轨迹构建了波士顿街道的可取性指数。该研究调查了行人偏离最短路线的意愿,发现理想的街道有更多的公共设施,更不复杂的立面和更广泛的商业范围。近年来,谷歌街景图像已成为另一种行人计数工具,具有合理的精度水平(克伦巴赫的阿尔法≥0.70)或良好的精度水平(克伦巴赫的阿尔法≥0.80),但由于元数据不完整,它缺乏行走的时间维度(Yin等人,2015)。

然而,与机动交通研究相比,使用先进的技术和方法来研究步行性以及步行与建筑环境之间的关系还处于起步阶段。在这一研究领域中利用它的现有技术机会之间存在着重大差距。更具体地说,迄今为止,只有少数研究利用移动应用程序数据进行行人移动性研究。一项关于研究行人行为的数据收集方法的系统回顾(Yan et al.,2020)探索了147项涉及收集不同行人行为数据的研究,而没有一项涉及移动应用程序数据。这一研究差距可能源于几个原因。首先,一些包括摄像头在内的行人监控技术,引起了隐私问题,特别是关于谁持有数据的问题(例如,地方政府)。另一个突出的挑战是数据的可用性,因为行人数据通常由私人公司拥有,并且具有很高的财务成本。最后,地方政府往往不知道现有的步行行为记录的机会。(Angel et al.,2022)的一项研究表明,在特拉维夫用于汽车交通监测的蓝牙传感器网络可以同时用于市政当局的行人记录和研究。为了更好地理解人们走在哪里,以及这些选择是如何受到随着时间的推移和大型网络中的建筑环境的影响的,我们需要利用大数据技术和先进的分析方法进行进一步的研究。

【材料和方法】

3.1 研究区域和数据
分析的范围是以色列第二大城市特拉维夫市。特拉维夫是以色列的经济中心,也是特拉维夫都市区的核心城市,后者是以色列的中部和最大的城市群,拥有350万居民(几乎占以色列人口的30%)。超过45万居民居住在该市(占该国人口的5%)(Levy等人,2019年)。特拉维夫市的特点是地中海气候,夏季炎热干燥,冬季温和多雨。该市的街道网络由网格状和曲线状的街道混合组成,街道密度约为每平方公里2500人。这个城市的交通基础设施包括多种交通方式,包括有轨电车、公共汽车、出租车、自行车和电动滑板车。我们选择特拉维夫作为案例研究,主要有三个原因:首先,特拉维夫以其广泛的人行道、自行车道和城市公园网络而闻名,这有助于该城市作为步行友好城市的声誉。此外,城市没有独特的地形,这意味着它整体是平坦的,我们使用整个城市区域来包括它的各种街道和社区类型。该城市的城市规划和发展政策因其可持续性和对公共空间的重视而得到认可,使其成为调查建筑环境与步行行为之间关系的相关案例研究。

截至2020年,在特拉维夫,步行出行的比例为17 %,而公共交通、自行车和私家车的出行比例分别为16 %、13 %和54 %。作为优先考虑行人的战略的一部分,特拉维夫市的目标是到2030年将步行的比例增加到20 %,主要是通过重新分配公共领域空间。

为了评估街道特征与步行之间的关系,我们使用了从“Moovit”智能手机应用程序中获得的行人交通数据(行人量)。2该数据包括在2021年3月至2022年1月期间收集的特拉维夫街道路段层面的行人量。在我们的样本中,使用一年中每个季节的两个月的数据进行分析(见表2),同时分离工作日和周末之间的数据。此外,数据收集为每日平均值,同时区分白天的部分如下:早上交通:早上6点到10点;中午交通:11点至下午2点;下午4点到7点;晚上交通:晚上7点到11点。在我们的实证分析中,我们关注的是超过200米和小于5公里的步行轨迹(从2.5 min到约1.5小时的步行轨迹)。

行人量分为五个步行级别(WLs),代表行人计数的分位数如下:0%-20%-WL1,20%-40%-WL2,40%-60%-WL3,60%-80%-WL4,否则-WL5。由于隐私限制,该应用程序没有提供关于应用程序用户的个人数据,也没有提供关于用户旅行的来源和目的地的数据。我们最后的样本包括超过8000条街道段,覆盖所有特拉维夫市区。对于所有这些部分,我们计算通过它们的行人的量,并测量它们的建筑环境的关键特征,接下来我们将讨论。表2 各变量的描述和汇总统计数据

145773917498c585ee53f6a9de47d72a.jpeg

3.2测量已构建的环境的属性
对于每个街道段,我们测量以下特征:物理特征——树木、照明、公共交通站、建筑高度、自行车道和住宅密度;兴趣点特征——商业比率、教育机构(学校和幼儿园)、卫生服务(如医疗保健中心、药房)、休闲设施(如电影院、剧院、博物馆、艺术画廊和音乐中心)、体育设施(体育场馆、游泳池、健身房、户外公共体育馆、体育大厅、运动场)、宗教设施(犹太教堂)、靠近公园和操场。此外,我们使用了亲缘性和中间性的共同中心性度量(拓扑特征),这在文献中也被考虑过(Pont & Marcus,2015)。接近度度量计算从系统中每个线段(或轴线)到所有其他线段的最小平均距离代价(Hillier & Hanson,1984),而中间度度量显示线段是系统中所有段对之间最短路径的频率。简单地说,城市导航频繁需要的线段相比,使用较少的线段具有更高的中间性值(Pont & Marcus,2015)。最后,在模型中考虑了社区的社会经济水平(1-10,最高时为10)(人口统计学特征)。社会经济水平基于14个变量,其中包括四个关键领域,包括:人口统计学、教育、就业和退休,以及生活水平(经济收入、满意度水平、住房特征)。

我们使用从特拉维夫市的GIS门户网站获得的开放获取数据来构建上述特征。4在以前的文献中,一些与步行相关的变量(如人行道的宽度和条件)在城市尺度上是不可用的,因此在本研究的分析中只使用了可用的数据。表2明确了街道特征的分类,总结了每个测量街道特征和变量统计的描述。我们使用GIS Pro软件和Python工具来计算网络中每个街道段的上述特征。
3.3****数据分析

决策树回归器(DTR)是一种决策树(DT)算法,作为多元模型来研究变量与行走水平之间的关系。DT是一个以流程图结构的图形模型,其中内部节点表示预测因子(例如,表2),分支表示测试,叶子表示分配给行走类级别的标签。虽然可以使用没有离开的内部节点来做决策,但这种方法可能会导致精度降低,从而在分析中包含更多的样本。之所以选择DT算法,是因为它能够提供自变量和因变量之间关系的直观和可视化表示,特别是在多个预测器和结果之间存在复杂交互作用的情况下。DT的可解释模型结构可以帮助识别关键特征及其对目标变量的影响。尽管在本研究中使用了离散标签,但我们使用了回归变量来获得连续输出。这个输出,连同它的误差,允许更直接地评估其对总体预测的影响。

为了实现DTR,我们使用了scikit-learn,一个全面的、免费的Python软件机器学习库。这个库促进了DT模型的创建和测试。此外,我们使用了NetwornX,另一个专门用于图和网络分析的Python库,它为我们的数据集的中心性度量提供了值。

实施过程有系统地分为五个阶段:1)数据结构、2)培训和测试分配、3)参数优化、4)交叉验证和5)模型评估。首先,我们的数据集被构造为两个数组。第一个数组封装了每个街道段的特征值,并格式化成一个包含20个特征的跨街道段和473,800个街道段的矩阵。第二个数列对每个街道段的相应标签进行分类,形成一个大小为1×473,800的向量。随后,我们随机分配了80 %的数据用于训练目的,同时指定将剩下的20%作为测试集来评估训练后的模型。

在参数优化阶段,为DTR配置了一组参数。考虑到不同参数设置中在准确性上的微小差异,我们选择了scikit-learn推荐的默认参数,并针对我们的数据集进行了特定的调整。

  • 准则:利用平方误差函数来评估分割的质量。
  • 拆分器:采用“最佳”策略来选择每个节点的拆分。
  • 最大深度:设置为扩展节点,直到所有的叶子都是纯的或包含少于为分割指定的最小样本,我们的阈值为61。
  • 最小样本分割:在两个样本上建立,以允许内部节点分割。
  • 最小样本叶:确定为一个样本,以定义一个叶节点的最小大小。

交叉验证旨在保证模型的可靠性和精度。该过程包括将训练数据集划分为子集,将70 %的数据用于模型训练,剩下的30 %用于验证。通过k-fold方法重复进行划分,其中k固定为5,允许各种训练和验证集组合。最后,使用测试集来评估模型的性能,应用r-平方和均方误差(MSE)度量来量化模型的预测和测试数据集中的实际值之间的差异。此外,还计算了整个模型和数据集中每个定义类别的MSE,以识别不同类别之间预测精度的潜在方差。即使r-平方不够高,如果MSE不超过1,模型误差仍然可以接受,这说明本研究的预测一般都是准确的。

为了检验DTR,我们将调查限制在基于大量样本的准确预测的节点上。首先,我们选择了所有使用至少1250个样本和最小值为0.75的MSE进行预测的节点。接下来,对于每个类(WL),我们计算了类值和节点值的绝对值(即预测),并保留了绝对值最低的5个节点。如果没有识别到特定类的最近的节点,我们用较低的阈值重复这个过程,涉及更少的样本和更大的MSE。对于选定的节点,我们在决策树中重构指向每个节点的路径,以检查路径中涉及的变量的值与分配给该节点的WL之间的关系。这使我们能够调查每个变量如何对最终预测的贡献,并深入了解影响特定WL的因素。我们将这个过程的结果视为WL的街道剖面,这意味着对于每个WL,我们搜索一个典型的“剖面”,具有特征值的组合特征。

【结果】

**4.1 **在街道分段层面上的城市特征和行人量的空间分布

图1显示了我们在实证分析中使用的、在街道分段水平上计算的特征的空间分布。街道层面的测量特征的计算和表示可以实现街道网络的微观尺度视图,这在步行性研究中经常被忽视。结果显示,市中心的客流量高,树木多,靠近休闲设施,而靠近公园在城市郊区的情况更为普遍。城市东北部具有高社会经济水平和居住密度低的特点,与城市其他地区相比,步行前往保健服务和教育机构的机会较少。此外,接近度计算强调了该区域与城市网络的其他部分的拓扑分离。中间性的计算突出了城市的主要内部道路。海岸线和城市的东北部部分的特点是有更高的建筑,以及大量的树木与街道的长度有关。一些功能,如照明和公交车站,是相当均匀地分布在整个城市,没有明显的集中在特定的地区。

图2显示了在春季、工作日和周末的行人体积分布的一个例子。步行的空间分布表明,大部分的步行活动发生在市中心周围的10个社区。与此同时,我们发现商业比率、休闲设施、医疗服务和住宅密度相对较高的地区相吻合。然而,低WL的社区也包含了高WL(4-5)的街道片段,反之亦然,如东北部和西南部的社区。这一观察结果加强了街道水平视角对行人和步行数据的重要性,这将在第5节中进一步讨论。此外,研究结果显示,随着时间差异的推移,WLs显著减少,最显著的是在周末和工作日相比,而流行的步行街道与研究区域的其他街道相比,保持了相对较大的行人量。简单地说,步行的空间分布表明,时间上的差异主要与有多少人选择步行(步行量)有关,而不是与大多数人选择步行的地方(步行的相对空间分布)有关。

4.2模型结果

在模型中计算出的特征重要性的结果如表3所示。每个特征的重要性级别以百分比表示,显示其相对于其他特征的相对重要性。与步行量相关的最重要的特征是接近度(12%),其次是白天类型(10.9%)、建筑高度(9.1 %)、季节(8.4 %)和照明(8.1%)。一般来说,时间特征的重要性相对较高,而白天类型(工作日和周末)是最重要的,其次是季节和白天(6.8%)。该模型的R平方值为0.52,MSE值为0.98,即平均误差大小为当预测行人容量为1到5级时,步行水平不到1级。最小的误差大小用于预测WL 5(MSE = 0.56,n = 18,245),最大的误差大小用于预测WL 4(MSE = 1.13,n = 17,011)。

d31e8715e1a41f5985cefe52460c44ee.jpegFig1 Spatial distribution of street features. Variable descriptions are provided in Table 2.

ace745917cfdad4d753059d7264bee09.jpeg

图2工作日(左)和周末(右)的春季行人步行水平(WLs)表3模型结果-特征重要性c2a91a0cce128bb6479c223bc0bf0e8d.jpeg

在模型中测量的物理特征中,建筑高度、照明和树木被发现是与行走有关最重要的。在兴趣点特征中,公园、教育机构和宗教设施最为重要,而商业、卫生服务和休闲设施的重要性水平相对较低。自行车道的存在是在步行中最不重要的特征。值得一提的是,一个特征的高度重要性水平并不表明它是否与更多的步行呈正相关\负相关,而是它表明了它与步行的关系强度。

观察和解释树的结果,我们首先观察了树的六个第一层,如图3所示。树的根是天类型特征,它对工作日和周末之间的数据进行分类。在这一阶段,我们选择集中在图3中红色矩形标记的树的部分,有两个原因:首先,我们从结果中知道,我们研究区域的大部分步行活动发生在工作日(左分支)。其次,树中的下一个节点是接近度,将数据划分为大于或小于的接近度值,并等于1.87。由于74 %的数据导致的接近值大于1.87,我们关注该节点的右分支。其次是时间节点和拓扑节点,是一个人口统计节点特征,它将数据划分为社会经济水平。然后节点再次分裂为密度水平的物理节点,然后是感兴趣点特征,这涉及到商业、体育设施和宗教设施的土地使用。这些节点的特点是高于平均步行水平。在这部分树的第六层,有额外的兴趣点被分类(公园、教育机构和公交车站),以及拓扑特征(紧密性和中间性)和物理特征(密度)。树的这个标记部分,代表了模型中使用的大部分数据,表明文献中提到的社区步行性指数的共同特征(住宅密度、土地使用组合和街道连通性)在我们集中于街道水平部分的模型结果中也很突出。然而,在我们的模型中,时间和人口统计学等其他特征比密度和土地利用具有更高的重要性。此外,树的其他部分显示了更通用的特征类别分布,这将在第5节中进一步讨论。

此外,树显示,在周末,一天中的时间是步行的一个重要特征,在树的第二层将数据分成早上到中午到晚上的时间。如第6级所示,在中午到晚上的分支中,相对较大的重要性归因于兴趣点的特征,如公园,而在早上,更大的重要性归因于物理和拓扑特征(建筑高度、照明、密度、接近性和中间性)。

由于特拉维夫被认为是一个世俗的城市,宗教设施在树的第三层的位置是有趣的结果。在第5节中讨论了对此的一个可能的解释。除了宗教设施,在工作日,树的前六层最常用的土地是教育机构,而在周末则靠近公园。

表4显示了每个WL的一个典型街道轮廓的例子。每个特征都有一系列的值,归一化为百分比,用于特征之间的比较。表中的每个条形图显示了在0%到100 %之间的特征值的范围,用黑色表示。特征的数量和组合在不同的wl配置文件中有所不同,以及每个特征的范围值。在所有的wl中都出现了五个变量:亲密程度、日间类型、与公园的接近程度、宗教设施和社会经济水平。其他的只出现在高WLs中3-5(如体育设施和操场)或低1-2(日间、居住密度、教育机构、休闲设施和公交车站)。低WLs(1-2)包括周末作为白天的类型,而高WLs(3-5)则与工作日更为相关。白天的功能只在周末相关,在WLs1-2上。WL 3的特征值范围相对较广,最显著的是接近特征。

a42465f13ff8a10b263a438c686920eb.jpeg图3 决策树结果的前六个级别

虽然某些特性值对于某些WL可能似乎令人惊讶(例如,WL5中的树和业务的小值),但需要强调的是,每个值并不代表自己来描述WL,而不是将特性组合在一起。从这个意义上说,研究结果表明,高WL (5)街道的典型特征是低建筑、高度靠近公园、大的亲密价值、很少的树木、宗教设施和商业、许多体育设施和操场、广泛的中间价值以及较低的社会经济水平。另一方面,低WL (1)的街道的典型特征是较大的亲密值、很少的照明、树木、教育机构、宗教设施和商业、靠近公园和住宅密度低、非常小的中间性,以及低和高的社会经济水平。

【讨论】

步行性研究主要依赖于传统的数据收集方法,如调查、问卷和观察,这些在时间和规模上是有限的。因此,时间变量在评估步行活动中的重要性在这一研究领域中被很大程度上被忽视了。本研究的关键发现之一是,在调查行人体积及其与建筑环境特征的关系时,定义时间变量是至关重要的。本研究发现,白天类型(工作日/周末)、白天和季节等时间特征对步行预测具有重要意义。更具体地说,结果表明,用于分类数据的第一个特征是日类型。

此外,本研究加强了现有的学术调查,通过检查街道连通性、土地利用组合和密度来阐明步行性(Adams等人,2014;Frank等人,2005;Van Dyck等人,2010)。然而,不同流行的社区层面范式,本研究采用了街道层面的方法,结合了额外的街道特征和时间动态。因此,与之前的研究相比,我们的发现揭示了一个微妙的视角,例如,通过表明传统上与步行活动增加相关的变量主要适用于工作日和具有高亲密度测量的街道路段。本节讨论分析结果,并讨论其在实践中的可能应用。最后,我们介绍了本研究的贡献和局限性。

5.1 拓扑特征

人们经常观察到,测量的人口和结构的排列之间存在显著的联系,在接近和中间测量之间,这表明几何和拓扑方面在个人如何在城市网格中导航都是必不可少的。尽管如此,由于这些发现与人类的集体行为有关,很难确定它们在多大程度上受到个体空间决策的影响,或者仅仅是由网络结构产生的数学概率,这是相对不相连的(Hillier & Iida,2005)。本研究结果显示了拓扑测量的高度重要性,其中接近度测量在测量特征中最为重要,支持了先前表明拓扑变量与步行之间存在相关性的研究(例如,(Pont & Marcus,2015))。此外,树的结果显示,拓扑特征在周末的总体重要性高于工作日。

5.2 热点特征
虽然在文献中,商业用途通常与更多的步行有关,但我们的模型对街道层面的企业的重要性不小。这一发现与最近由(Angel等人,2022年)发现,在特拉维夫,虽然商业区的步行活动比居民区多,但这些商业区的大部分步行活动发生在住宅街道段,而不是沿着主要的商业轴线。这一发现强调了在街道层面上的可步行性研究的重要性,它从微观尺度的角度揭示了行人的偏好。此外,低的地区总体上也包括高的街道,反之亦然,这表明街道方法可以通过识别需要注意的特定街道,为街道设计的决策提供有价值的信息。

表4 步行水平的典型街道概况

af17bbdd4f88b86f4881016f42bc7ce6.jpeg

在热点的特征中,靠近公园是与步行最重要的。这一发现补充了先前的研究,表明步行和公园之间存在正相关(克里斯蒂安森等,2016;Mitra等,2015;Salvo等,2018)。

在这一文化背景下,研究结果揭示了一个有趣的发现,关于犹太教堂与步行有关的高度重要性。尽管特拉维夫的绝大多数(90 %)人口是犹太人(特拉维夫Yafo,2021年),而且大多数犹太人都是世俗的,但犹太教堂被认为是与步行相关的一个重要特征。这一开始可能令人惊讶;然而,犹太教堂的特点是他们要求坐落在步行距离内。在神圣的日子里,如安息日和节日,驾驶任何机动车辆都不是习惯,甚至被宗教信仰禁止。因此,各种犹太宗教流的犹太教堂被有意地安置在每一个地方社区离每个家庭都有潜在的步行距离。因此,与模型中测量的其他兴趣点相比,犹太教堂被认为与步行有很强的联系是合理的。尽管如此,这并不一定意味着个人步行去犹太教堂比步行去其他目的地更多。

5.3 物理特征

在街道设计中,树木是一个重要的元素,通过为周围环境提供绿化和舒适来提高步行体验的效果。树木在减少空气污染和来自道路的热量以及提供阴凉方面也发挥着重要作用。先前的研究表明,在一个社区中存在的树木对行人有益,并有助于增加步行活动(Park et al.,2015)。然而,其他一些研究发现,树木和更多的步行之间的关系存在微弱的统计学意义(Kim et al.,2019)。在这项研究中,树木被发现是与步行和接近公园相关的前10个特征之一。然而,街道剖面分析的结果显示,WL 1和WL 5的树木比例都较低。

与过去一些研究发现公交车站与步行活动之间存在正相关关系的结果相比(Yin et al.,2023),本研究的结果显示,公交车站与WLs之间的重要性令人惊讶的弱。值得注意的是,本研究中使用的行人数据来自一个公共交通导航应用程序,这可能会导致公共交通站和步行率之间的正向偏差。然而,没有观察到预期的相关性,这表明当综合考虑时,汽车站的位置在预测步行性方面没有那么大的影响。然而,值得注意的是,这并不一定意味着公交车站和步行活动之间没有关联,而是表明其他特征在预测步行性方面发挥了更重要的作用。

5.4****人口特征
模型结果表明,社会经济地位在步行量的背景下的显著性相对较低。然而,它在数据分类中扮演了一个值得注意的角色,显著地出现在决策树的第三行。来自街道概况分析的结果强调,高社会经济地位是WL 1的主要特征,而低社会经济地位在较高的WLs中普遍存在。这与之前的文献显示,低社会经济地位的成年人的建筑环境和体育活动之间存在联系(Cristtetal.,2020)。
5.5对规划的洞察力和可能的应用程序
表4中的结果提供了基于其步行性水平(WLs)的不同街道轮廓特征的见解。这种方法代表了一种新的方法,基于通过使用人工智能行走的真实证据来描述不同水平的步行性。尽管如此,这种方法还需要进一步的研究和分析技术,以建立决策和城市设计的实用工具。这种方法的基本原理是,每个特征值在描述WL时并不是独立的,而是将特征组合在一起。因此,断言高密度必然会导致较高的步行性是不合适的。此外,该方法强调了特征范围的概念,这表明某些特征不一定与行走具有线性或单调的关系。相反,它们可能会鼓励或阻止在特定范围内行走。

考虑到城市政府对提高步行性的兴趣日益浓厚,本研究为了解长期以来步行模式的街道水平分析的潜在应用,以支持城市规划和设计中的决策提供了有价值的见解。获得这些知识可以使更有效地分配基础设施投资和更好的规划决策,规划者和决策者可以创造更有利于行人的城市环境,促进积极的交通和健康的社区。具体来说,这项研究根据这些发现提出了几种可能的干预措施。首先,市政当局可以优先考虑低水位地区的行人基础设施投资,以提高其步行性。这可以涉及与社区、企业主和受影响街道的用户的合作项目,以确保他们的需求和偏好得到考虑。其次,确定在一天、一周或一年的特定时间更受欢迎步行的街道,可以帮助市政当局和当地企业计划在这些时间内的活动或活动,比如夏季晚上在某些街道上的夜市。最后,只要有可靠的行人数据,本研究的方法就可以在其他地方重复,并具有不同的城市特征。

5.6贡献和限制

本文探讨了可步行性研究中明显的三个主要研究差距。首先,该调查确定并解决了对行走的时间维度的监督和在步行性研究中普遍存在的研究区域的有限规模。这种差距主要源于步行性研究中使用的传统工具所固有的限制,如文献综述中所描述的,如调查、问卷和实地观察。为了弥补这一差距,本研究采用了一个大规模的行人统计数据集,通过手机应用程序获得的数据。本工作中提出的方法补充了先前利用虚拟审计或调查的研究,并通过利用机器学习算法进一步扩展了它们。此外,这种方法克服了规模限制,可以很容易地通过行人的体积数据以类似的方式在不同地点复制。

其次,该研究深入研究了经常被忽视的集体步行领域,并将其与个人步行区分开来。鉴于个人行走和集体行走的非互惠性质,这两种方式之间的细微区别变得势在必行。第三,分析的重点是街道水平的步行,脱离了普遍的社区水平的视角。通过这样做,该研究解决了在社区步行性视角的背景下被忽视的人类尺度属性,包括但不限于树木和建筑高度。本研究证明,与提高社区步行性相关的传统特征,如土地使用组合,在街道水平上仔细观察时,表现出不同程度的重要性。最终,城市规划和设计跨越宏观和微观层面运行,强调了这两种视角在提高城市环境中的可步行性方面是不可缺少的。

我们工作的一个局限性是,我们使用Moovit应用程序用户的数据作为我们研究区域的整体步行活动的代理。然而,数据提供者使用渗透率来推断行人的真实数量,以克服这个限制。另一个数据限制是,行人数据不会在街道的两侧之间分开。在某些情况下,由于身体条件、羊毛衫等原因,人行道两侧的行走体验可能会有显著差异。因此,虽然有捕捉街道不同两侧行人行走行为的数据可以提供更多的信息,但这项工作在考虑街道两侧的同时,同时考虑街道特征。然而,允许监控人行道之间分隔的技术,如摄像头,可能会带来隐私问题。最后,我们发现一些与评估步行性相关的街道特征,如路面条件和微气候特征,由于不可获得,没有用于本研究分析。未来的研究应将这些因素纳入其中。

我们的方法可以适应任何城市环境。然而,它的有效性取决于三种基本类型的数据的可用性:道路网的地理布局、城市特征的位置和步行活动模式。由于许多地方政府和组织提供,获取这些数据的途径各不相同5,但也有一些情况下可能无法获得。在这种情况下,我们建议采用合适的替代方案。开放街道地图(OSM)是道路网数据的主要来源,但导航其复杂性可能具有挑战性。为了简化这个过程,我们开发了一个GitHub存储库6,它提供了简化OSM道路网络数据分析的工具。OSM的城市特征在一定程度上可用,但在不同城市之间缺乏一致性和准确性。OSM数据的细节和完整性差异很大,一些城市比其他城市有更全面的映射。对于步行活动模式,人们可以利用一种应用随机森林树木来预测步行活动的方法。该方法包括使用来自不同城市的OSM数据和训练数据来预测一个新城市的行人运动模式(Cohen等人,2021年)。

在特拉维夫发现的结果对全球城市环境的可复制性值得进一步调查。虽然常见的步行能力指数将城市属性作为步行的普遍相关因素,但谨慎的做法是认识到街道层面城市特征的潜在的文化差异。从我们的研究中,一个值得注意的例子与犹太教堂的空间分布有关。这强调了在评估特定城市特征对步行行为的影响时,需要考虑当地文化的细微差别。因此,我们提倡在不同的城市环境中复制我们的方法,作为未来研究努力的一个途径。

【结论】

本研究利用机器学习的方法来研究步行和建筑环境特征之间的关系。从移动应用程序获得的行人数据与时间、拓扑、物理、兴趣点和人口统计属性的20个特征进行分析。该分析是使用决策树回归模型建立的,并包括了以色列特拉维夫的8000多个街道段。我们的研究表明,街道特征在不同的时间定义中具有不同的重要性,这表明新的步行能力指数应该包括步行的时间维度。接近度测量对预测WLs的重要水平最高。通常,与工作日相比,拓扑特征在周末表现出更大的意义。在物理特征中,建筑高度、照明和树木在模型中最为重要。在兴趣点特征中,靠近公园的重要程度最高。此外,研究结果显示了调查步行和建筑环境之间关系的街道方法的重要性:虽然商业用途通常与社区层面的步行有关,但我们的模型结果显示,在街道层面的重要性较低;最后,我们发现步行性较低的地区总体上也包括WL最高的街道路段,反之亦然。
7bc898aaf64abe5be5e9d08b97603c76.jpeg

标签: 论文阅读

本文转载自: https://blog.csdn.net/LFSJXS/article/details/140405600
版权归原作者 城市数据研习社 所有, 如有侵权,请联系我们删除。

“基于大数据和机器学习分析评估步行与街道特征之间的关系”的评论:

还没有评论