您好,欢迎来到爱够旅游网。
搜索
您的当前位置:首页基于OD数据的群体行为可视分析

基于OD数据的群体行为可视分析

来源:爱够旅游网
第30卷 第6期 2018年6月

计算机辅助设计与图形学学报

Journal of Computer-Aided Design & Computer Graphics

Vol.30 No. 6 Jun. 2018 基于OD数据的群体行为可视分析

黄文达, 陶煜波*, 屈 珂, 林 海 (浙江大学CAD&CG国家重点实验室 杭州 310058) (taoyubo@cad.zju.edu.cn)

摘 要: 针对已有的公共自行车群体租车行为研究仅在站点尺度上进行分析, 存在分析不完备等问题, 提出了从城市—区域—站点的多尺度群体租车行为交互分析系统. 首先, 基于租/还站点和时间的一致性, 从公共自行车数据中提取租车群体; 然后结合站点的地理位置和群体租车行为的相似性, 利用改进的迭代双聚类算法生成区域; 再设计日历图、流量散点图和群体行为分布地图等视图, 支持在宏观上分析群体行为随时间的变化和自流量与总流量的关系, 在区域或站点尺度上分析群体行为的微观变化; 最后结合多视图联动和交互分析, 比较区域或站点的群体行为在工作日和周末的模式. 通过4个案例, 展示了群体租车行为的时空模式, 证明了该系统在群体行为分析上的有用性和有效性.

关键词: 出发点-目的地数据; 群体行为; 区域划分; 可视分析; 时空数据 中图法分类号: TP391.41 DOI: 10.3724/SP.J.10.2018.16666

Visual Analysis of Group Behavior Based on Origin-Destination Data

Huang Wenda, Tao Yubo*, Qu Ke, and Lin Hai

(State Key Laboratory of CAD&CG, Zhejiang University, Hangzhou 310058)

Abstract: While previous methods usually analyze the group cycling behavior only at the station level, which re-sults in incomplete analysis results, this paper proposes an interactive visual analysis system to investigate the group cycling behavior at multiple levels, from city to region to station. First, according to the consistency of location and time, groups are extracted from the public bicycle data. Then, the modified bi-clustering algorithm is used to generate regions based on the similarity of geographic location and cycling behavior. Next, multiple views, such as calendar view, scatter plot and group distribution map, are designed to analyze both the time variation of group behavior and the relationship between self-flow and total-flow at the macro level, and to ex-plore micro changes on the region or station level. Finally, these coordinated views together with user interac-tions are combined to compare patterns of group behavior on weekend and weekday. Four case studies are conducted to analyze the spatial-temporal patterns on group behavior, and this demonstrates the effectiveness and usefulness of our system.

Key words: origin-destination data(OD); group behavior; region segmentation; visual analysis; spatial-temporal data

轨迹数据在社会科学、生物、城市交通等诸多

领域都已经存在大量的工作和研究. 在城市交通

收稿日期: 2017-6-30; 修回日期: 2017-11-20. 基金项目: 国家自然科学基金(614723, 61672452);NSFC-广东省大数据科学研究中心项目(U1611263); 高校基本科研业务费. 黄文达(1995—), 男, 硕士研究生, 主要研究方向为信息可视化; 陶煜波(1980—), 男, 博士, 副教授, CCF会员, 论文通讯作者, 主要研究方向为数据可视化、可视分析; 屈 珂(1994—), 女, 硕士研究生, 主要研究方向为信息可视化; 林 海(1965—), 男, 博士, 教授, 博士生导师, 主要研究方向为数据可视化、可视分析、电磁计算.

1024

计算机辅助设计与图形学学报 第30卷

领域, 研究轨迹数据具有十分重要的意义和价值, 如可以研究城市道路的交通状况来识别拥堵区域和地段, 根据用户推荐个性化路线, 挖掘人们乘坐地铁的主要换乘模式, 识别套牌车等. 轨迹数据存在关联关系, 并非孤立产生, 如由结伴而行所产生的一组轨迹, 这种行为被称之为群体行为. 蕴藏在公共自行车数据中的群体行为通常都表现出其独有的时空特征. 如结伴骑车出行的人们都会更倾向于在周末、午后和晚上出行, 且选择的地点都是类似公园、广场等人群密集的地方. 研究群体行为有助于发现群体的移动规律并分析群体形成的原因, 研究发现, 女性相比男性更倾向于群体骑行是出于一种自我保护的意识[1], 因为女性单独骑行存在更大的风险. 也有研究发现, 群体骑行是引导那些童年以后就不再骑自行车的人重新骑车的重要原因之一[2].

公共自行车出发点-目的地(origin-destination; OD)数据记录了借车站点、 还车站点等属性, 提供了借车还车的站点位置以及时间信息. 然而, 由于自行车站点数目较多, 倘若需要从宏观上一一研究2个站点之间的流量关系, 那么n个站点就会产生n2数量级的关联关系, 这将会给可视化带来了难度不小的挑战. 同时, 考虑到人们借车还车的习惯: 倘若在站点A借不到车, 那么很有可能会从A相邻的站点借车(还车亦然), 以及考虑到单个站点的流入流出量受天气、 活动事件等不确定因素的影响具有很大的不稳定性, 即人们并不会固定地选择某一站点进行有规律的骑行.

本文选择对城市进行区域划分, 对一片区域进行观察和分析. 具体地, 本文选择采用一个迭代双聚类算法对站点进行聚类, 将群体功能相似且位置相邻的站点聚为一类, 以便更有效地进行数据分析以及更好的可视化展示.

本文先从自行车数据中提取出需要研究的群体行为, 并以此为依据, 利用群体流量对自行车站点进行聚类, 从而实现区域划分; 进而探索群体行为的时空分布、 区域与区域之间的群体流量关系,再深入到站点与站点之间的群体流量关系. 最后设计并实现了一个包含日历图、群体行为分布地图、流量散点图、堆叠时钟图, 以及年龄直方图的可视分析交互系统.

1 相关工作

与本文工作相关的主要工作有: 轨迹数据的

可视分析, OD数据可视化和空间区域的划分.

1.1 轨迹数据的可视分析

轨迹数据[3]可以分为个体移动轨迹数据和群体移动轨迹数据. 目前国内外对群体移动行为的可视分析研究工作相对较少, 一般都关注于个体移动行为的分析, 并针对此设计了诸多应用性的可视分析系统. Al-Dohuki等设计的SematicTraj系统[5]用一种直观高效、语义丰富的手段来管理和检索出租车的移动轨迹; Wang等[6]利用出租车GPS轨迹对城市交通拥堵以及拥堵传播模式进行可视分析; Zeng等[7]针对公共交通系统研究了人们在不同时刻从某一站点出发到达另一站点所需的时间问题.

对于群体移动轨迹具体的可视分析, An-drienko等[8]结合动画以及用户自定义时间窗来动态展示物体移动的轨迹, 然而动画在展示多个物体的移动时会给用户带来认知负担和记忆负担, 且对轨迹的直接可视化只能胜任一些定义明确、操作简单、意义单薄的可视分析任务. Hoang等[9]基于区域流量来预测人群流动, 以预防大规模的件. 与本文工作联系较为密切的是Beecham等[10]的工作. 他们针对伦敦公共自行车数据, 从年龄、 性别等方面研究了对群体租车这一行为的影响因素和决定因素. 特别地, 他们基于站点流量将群体行为的租车轨迹进一步分类, 得到若干种类型的群体租车行为模式, 进而对这几种模式进行讨论和对比[11]. 虽然已有工作确实得到了不少有价值的结论, 但可视分析方法要么是基于站点, 要么是基于区域, 没有将二者有机地结合起来, 且缺乏一个针对群体行为进行高效分析的交互式可视化系统. 因此, 本文结合OD地聚集的可视化和面向群体行为的特征可视化来支持更加系统全面的可视分析任务, 设计并实现一个界面友好、高效凝练、多视图合作的可视化系统, 将群体移动的规律从区域到站点的层面直观地展现出来.

1.2 OD数据可视化

OD数据属于轨迹数据中的一种, 是由起点终点、起止时间以及一些其他附加属性所构成的轨迹数据. 例如, 卡口数据、公共自行车数据、人口迁移数据等都属于此类数据. OD数据的特点是只提供了起点和终点的位置, 但不记录具体的轨迹路径. 因此比较适合回答诸如“从站点A到站点B平均每天有多少车辆经过”等问题. 姜晓睿等[12]对出租车的OD数据进行了可视分析. 对于OD数据的

第6期

黄文达, 等: 基于OD数据的群体行为可视分析 1025

可视化, 可视化研究者们已经提出了不少方法, 主要分为3大类: 流图、OD矩阵和OD图.

流图是一种将起点和终点用直线或曲线连接起来, 并用线的宽度来编码流量大小的可视化方法. 毫无疑问, 这种方法简单明了且通俗易懂. Wang等[13]在对稀疏轨迹数据进行分析时, 用流图来比较不同链路之间流量的大小, 以及链路流量大小与该链路相邻站点的交通状态的联系. 但是, 流图只适合于单个起点的展示, 对于多个起点、 大量交叉和错综复杂的线条将引起严重的相互遮挡. 针对这一问题, 出现了各种不同的边捆绑以及边过滤技术.

OD矩阵是一个m行n列, 并用其中的小方格的颜色来编码流量大小的可视化方法. 这种方法相对于流图可扩展性更高, 但因为其丢失了地理位置信息, 往往需要和另外的地图结合起来才能发现出和地理位置相关的规律.

OD图[14]是指将整个地图分割成大小一样的方格, 然后再在每个小方格里面嵌套一个小的经过分割的整体地图的一种可视化方法. 这样, 方格A的小地图里面对应的方格B的颜色编码的就是从A到B的流量. Yang等[15]设计了OD图的另一个变种MapTrix, 并在文中用定量的方法比较MapTrix和OD图的优劣. 该方法主要是用连线将一个存放起点的地图, 一个存放终点的地图和一个OD矩阵图用直线一一对应连接起来, 在充分发挥了了OD矩阵的简洁性的同时, 又保留了地理空间位置信息.

OD数据除了包含空间属性以外, 往往还带有时间属性. 如何将这2种属性编码在一起一直给可视化研究者们带来很大的挑战. Boyandin等[16]对流图中用动画或者small multiples编码时间属性的差异做了定量对比, 同时也提出了一个较为新颖的可视化图表Flowstrates[17]来编码时间属性. 在此基础上, Zeng等[18]研究了经过某一路径点的所有OD轨迹的流量在一段时间内的变化.

本文综合考虑群体行为分析的主要需求, 从直观和易用的角度出发, 采用流图作为主要方法来编码OD数据之间的流量关系.

1.3 区域划分

区域划分的实质是按照一定的规则将地图划分成一块块区域, 然后将属于该区域的所有个体的统计信息聚集在一起, 作为一个代表整体的信息. 典型的例子就是将自行车站点聚类, 将同一个区域内所有站点的流量聚集在一起, 作为该区域

的流量.

区域划分的规则依据可以是均匀网格划分、 行政区域划分、人口密度划分、功能和活动划分等.经过均匀网格划分或行政区域划分后的地图往往可以直接在方格内用颜色来编码统计信息的大小, 形成一个被称为choroplethmap[19]的地图. 然而上述2种划分都没有考虑到人口密度的分布以及区域的功能性质. 因此, 不少学者希望利用机器学习等方法将地图上的个体聚类, 每一个类代表拥有一定功能或性质的区域. Yuan等[20]利用文本分析中的主题模型, 以及LDA算法检测人们乘车上下班中存在的轨迹模式, 并用这些模式对区域进行划分, 从而得到一个富含语义和价值的划分结果. 在此基础上, Wu等[21]同样利用主题模型对区域建模, 并从区域中提取出事件, 利用NMF将事件矩阵分解成一个模式概率矩阵和模式解释矩阵, 最后通过模式概率矩阵聚类, 将模式相同的区域聚成一个更大的区域.

与大多数区域划分算法的功能不同, 本文区域划分的目的是将群体功能相似的站点划分为一个区域, 进而对群体行为的时空分布进行分析.

2 概 述

首先介绍本文所用的数据结构, 在此基础上介绍如何从这些数据中提取出群体行为, 然后详细地给出利用提取出的群体进行区域划分的迭代双聚类算法, 并罗列出可视分析任务, 最后给出整个系统工作流程的概览.

2.1 数据结构

本文采用的是典型的OD数据. 每条记录R由起始站点Po, 起始时间To, 终止站点Pd, 终止时间Td, 统计属性A等主要字段构成. 即RPo,To,Pd,

Td,A.

除此以外, 还包括各个站点的数据, 即每个站点的经纬度和名称.

2.2 群体行为的定义

群体行为的构成需要满足3个条件: (1) 群体中的成员从同一站点出发; (2) 群体中的成员到达了同一个站点; (3) 群体中所有成员的出发时间, 到达时间均小于某一阈值. 对于数据库中存储的任意2条记录Ri和Rj, 即它们要满足关系:

1. Ri.PoRj.Po; 2. Ri.PdRj.Pd;

1026

计算机辅助设计与图形学学报 第30卷

3. |Ri.ToRj.To|t,|Ri.TdRj.Td|t. 对于获得的所有群体G, 规定群体G的一些属性:

(1) G的大小为G包含的记录的数目; (2) G的起始时间为G包含的所有记录中起始时间的最小值;

(3) G的终止时间为G包含的所有记录中终止时间的最大值;

(4) G的起始站点为G中任意一条记录的起始站点;

(5) G的终止站点为G中任意一条记录的终止站点.

值得注意的是, 通过这种方法提取出来的群体之间的成员可能互相并不认识, 也不一定是一起约好租车, 他们只是恰好满足群体出行这个特征.

2.3 站点聚类

本文希望选取一个能同时对2个或以上的加权因素进行聚类的算法思路, 从而实现将地理位置相近且群体功能相似的站点聚成一个类. 相比于传统的基于权重的相似度聚合算法, 即定义2 个站点的相似度为s(i,j)*s1(i,j)(1)*s2(i,j). 其中, α的取值为0~1, 用来控制2个因素的占比权重, 并将相似度大的站点聚合成一个类. Li等[32]提出的迭代双聚类在本文中有更好的应用场景, 其主要有优势体现在如下方面:

(1) 无需先验知识, 即权重α的设置; (2) 不需要考虑相似度定义的选取, 即应该选取余弦距离相似度还是欧氏距离相似度等;

(3) 该算法在2个因素互为相关联时, 如本文中功能因素是基于地理因素的聚类结果计算,而功能因素的聚类结果又需要地理因素去完善, 这种通过因素之间不断迭代完善结果的过程相比于一次性将2个因素加权求值的聚合算法能获得更好的聚类效果;

(4) 能够灵活地控制迭代次数来选取最优的聚类结果.

然而, 由于迭代双聚类算法涉及的参数较多,会给聚类结果的调试带来一定的困难.

综上, 本文最终采用Li等[32]的聚类算法并进行一定的调整和改善. 具体地, 在数据上, 鉴于群体行为是主要的研究对象, 本文使用了群体流量应用在该算法中; 在方法上, 除了考虑流出量外, 同时增加流入量使得功能性约束更强; 在结果上,群体功能相似且位置相近的站点被聚成了一个类,

如公园外围的一周被提取成了单独的一个类, 这是Li等的聚类结果中未展现出的有用信息.

本文算法步骤如下:

输入: 位置聚类的类个数k1, 流量矩阵聚类的类个数k2, 迭代次数m, 群体记录G, 站点经纬度

(lng, lat), 站点数目n

输出: 每个站点所属类的ID

Step1. 先利用站点位置, 即站点的经纬度将站点聚成k1个类.

Step2. 为了达到群体功能相似, 本文选择将站点的群体流出量作为依据, 利用刚刚得到的k1个类, 并规定4个时间段: 早高峰[7:00, 11:00), 白天[11:00, 16:00), 晚高峰[16:00, 21:00), 夜晚[21:00, 7:00), 那么可以得到由每个站点在这4个时间段分别到k1个类的流出量以及k1个类到每个站点的流入量,将这些数据排列成一个个大小为8k1的矩阵, 并根据这些矩阵将站点聚成k2个类.

Step3. 对于k2个类里面每一个类Ci, 假定该类共包含Ni个站点, 对这些站点按照地理位置聚成Nik1/n个类, 其中可以是向下取整也可以是向上取整, 使得

k2

Nik1/nk1. 转Step1迭代, 直到

Step3生成的k1

i1

个类和Step1生成的k1个类不再发生改变而收敛, 或迭代至设定的迭代次数m.

本文使用K-means算法进行上述2次聚类, 并令k1=50, k2=25, m=50, 聚类结果如图1所示.

图1 纽约市自行车站点聚类结果

k1是最终生成的类的个数, 用户可结合站点分布的面积大小以及先验知识来决定最终希望看到多少个类. 鉴于群体行为是主要的研究对象, 并且聚类的2个依据中, 功能相似这一聚类依据所占的比重不能太小, k2建议设置为k1的一半左右, 图

2展示了k1=50, m=50, k2=10, 40, 23, 27时的聚类结果. 若k2设置得太小, 会因为功能因素的权重不够导致类的功能性不明显; 如k2=10的聚类结果, 可以看到公园并没有聚成一圈, 而是被分成了若干个类. 倘若设置得太大, 则会因地理因素权重不够

第6期

黄文达, 等: 基于OD数据的群体行为可视分析 1027 导致类和类之间产生过度的重叠和交叉, 如k2=40的聚类结果. 观察k2=23, 25, 27的聚类结果, 没有出现较为剧烈的震荡.

(4) 总流量. 当前区域/站点的流入量, 流出量, 自流量的总和.

2.4 可视任务分析

在已有的对群体行为的可视分析研究中, Beecham等[17]通过对群体行为的时空分布进行全局观察(T1), 从宏观上回答了“where are group-

cycling journeys, when are they made”等问题, 并基于站点之间群体流动的时空属性来挖掘不同的群体行为模式. 通过分析相关文献[1-2,23-24]的任务和对群体行为分析的调研, 本文提出了从区域深入到站点的群体行为可视分析流程, 支持单点观察

=a. k210 b. k2=40

(T2)、2点观察(T3)和模式对比(T4).

T1. 全局观察

全局观察提供了群体行为的时间、 空间、 统计信息等属性的一个整体概览. 能初步回答诸如

“哪片区域群体行为较多”, “群体行为在哪几天比较活跃”等宏观、抽象的问题.

T2. 单点观察

单点观察能够基于区域或站点进行更加细致入微的观察, 它能帮助用户分析感兴趣的区域或站点在哪个时间段群体行为比较活跃, 与之流量关联较强的又分别是哪些区域或站点.

=c. k223 d. k2=27

图2 当k1=50, m=50时k2取不同值时纽约市

自行车站点聚类结果

T3. 2点观察

2点观察可以基于2个特定的区域或站点进行分析、对比. 特别是它能对2个区域或站点之间流量流动的因果关系、逻辑关系进行挖掘.

聚类后, 每个类由若干个站点组成, 对应一个具有特定群体功能性质的区域. 通过在站点中聚合记录数或在区域中聚合站点记录数, 本文规定区域/站点中的一些统计属性:

T4. 模式对比

主要通过研究和分析区域或站点在工作日和非工作日2种模式下的特征, 对这些特征进行对比, 从而发现群体行为的规律.

(1) 流入量. 从其他区域/站点流入到当前区域/站点中的流量;

(2) 流出量. 从当前区域/站点流出到其他区域/站点的流量;

2.5 系统工作流程

图3展示了整个系统的工作流程, 主要包含数

(3) 自流量. 从当前区域/站点流入自身的流量;

图3 系统工作流程概览

1028

计算机辅助设计与图形学学报 第30卷

据处理和可视化系统2部分. 在数据处理阶段, 主要完成群体记录的获取以及站点的聚类; 在可视化系统中, 视图根据其作用被归类为概览(overview)图和细节(detail)图. 概览图中的视图用于全局观察且数据不会发生改变, 而细节图中的视图用于局部观察且数据会随用户的交互做出相应的改变. 最后, 用户可以通过一系列操作实现交互式地探索自行车记录中的群体行为. 整个系统充分用了机器处理大数据的计算能力和强大的绘图能力, 又利用了人在决策和分析过程的判断能力和推理能力.

供了对区域和站点的探索; 堆叠时钟图能较好地支持工作日和周末2种模式的分析; 年龄直方图展示群体的年龄分布. 本系统的设计严格遵守了“overview first, zoom and filter, details on demand”[34]的设计准则, 使用户能够从宏观到微观对群体行为有一个从面到点的探索过程.

3.1 可视化设计 3.1.1 日历图

日历图对群体行为在时间维度上的分布给出了一个总体直观的概览, 如图4a所示. 日历图以日历为隐喻来表示时间, 通俗易懂, 每一个小方格代表一天, 每块方格的颜色编码一个类别或顺序属性. 具体地来说, 本文采用由绿色到红色, 黄色为过渡的一个渐变色带来编码群体行为的记录数目. 颜色越红, 表示当天群体记录越多; 颜色越绿,表示当天群体记录越少. 从图4a可以清楚地看到群体流量在时间维度上呈现出的一个整体规律: 周末的记录数明显多于工作日的记录数. 这与本文一开始对群体行为特征的猜测一致.

3 可视化设计与交互

根据数据和任务驱动, 本文设计了一个多视图合作的可视化交互系统, 如图4所示, 该图为在群体行为分布地图中点击区域B, 并把时间段设为周末的10:00─13:00后的状态. 其中, 群体行为分布地图、日历图、流量散点图提供了对群体行为属性在全局上的观察. 群体行为分布地图同时也提

图4 可视化系统界面总览

3.1.2 群体行为分布地图

地图具有很强的地理位置信息表达能力, 几乎是所有研究轨迹数据的可视化系统的标配. 本文设计了一个群体行为分布地图.

在已有的研究中, 自行车站点常常被编码为地图上的一个点, 用区域的边界来编码站点所属

的区域. 然而由于本文侧重研究群体行为的功能,在迭代双聚类算法中将群体流出量这一标准设置的权重相对较大, 导致最后的聚类结果不可避免地出现多处区域与区域之间的重叠与交叉的情况, 因此最后决定用区域的中心点来编码标识一个区域, 如图4c群体行为分布地图所示. 具体的来说,

第6期

黄文达, 等: 基于OD数据的群体行为可视分析 1029

本文用圆来编码区域的中心点, 圆的颜色来编码区分不同的的区域, 圆的半径大小来编码区域的总流量. 同时在地图中嵌入流图来编码流的信息, 流的大小用线的宽度编码, 流的方向由线的方向和颜色编码. 具体的来说, 流的大小和线宽成正比.

2点相连, 规定对该点来说在左侧一方的流为出流, 在右侧一方的则为入流,如图5所示. 图5中的流可以看成是站点A的出流, 也可以看成是站点B的入流.

图5 流的方向编码

群体行为分布地图支持2种模式: 区域模式和站点模式. 一开始地图处于区域模式, 地图上只会显示所有的区域, 单击某个区域会显示和此区域关联的流, 且蓝色代表入流,红色代表出流. 当通过交互将蓝色的旗子放在地图中的某个区域并将其标识为起点, 将红色的旗子放在地图上的某个区域将其标识为终点时, 地图会进入站点模式,如图6所示, 此时地图只会显示选中的2个区域的所有站点以及这些站点间的流, 其中蓝色代表起点的出流, 红色代表终点的出流. 值得一提的是,当起点终点都标识为同一个区域时, 地图会显示该区域内部站点的所有流, 流的方向不再由颜色编码, 只能由线的方向决定. 流的颜色均为蓝色.

图6 将起点终点设为区域A和B后地图进入站点模式

3.1.3 堆叠时钟图

日历时间图提供了对群体行为在时间上分布的总览, 粒度较大, 属于overview的范畴. 对于时间, 仍需要向下钻取到一个更细的层面, 同时也需要一个更加直观高效的图来研究单个区域在工作

日与周末的群体行为模式.

根据这个原则, 本文先是设计了一个圆形的堆叠图, 为了描述方便且将其称为外圆,如图4b所示. 具体来说, 每一圈代表24h, 每一层代表一天, 每一层的宽度编码流量的大小. 工作日由内到外分别对应周一至周五, 周末则对应周六到周日. 此外, 本文还设计了一个圆形的热力图嵌入其中, 称为内圆. 具体地来说, 每一格对应1h, 格子的颜色编码流入量与流出量的差. 考虑到颜色的统一, 即为了对应群体行为分布地图中蓝色代表入流, 红色代表出流, 圆形热力图中每一格越蓝代表流入得越多, 越红代表流出得越多. 这样, 外圆的整体形状以及内圆的颜色排列便提供了一种直观的群体行为模式的反映和对比.

3.1.4 流量散点图

为了提供一种辅助手段帮助用户对特殊站点的筛选, 以支持overview+detail的设计准则, 本文认为自流量与总流量的关系是值得关注的一个点.图4d所展示的是以总流量为横坐标,自流量为纵坐标的流量散点图, 用来研究2个变量之间的关联关系, 并发现和定位一些离群的异常点, 如严重偏离回归线的点, 再对这些异常点进行特殊分析.

3.1.5 年龄直方图

除了时空以外的信息, 诸如年龄、 性别、 客户类型、 收入状况、 居住地等统计信息对于群体行为的研究同样具有价值. 由于数据源的, 在本文系统中只展示了年龄信息. 直方图由于其简洁明了的特性, 常常被用来展示数据的分布, 因此本文采用直方图来展示群体年龄分布的规律. 从图4e可以看到: 年龄分布呈现出“中间多, 两头少”的正态分布的特征, 并且25~34岁年龄阶段的人占据大多数.

3.2 交 互

由于目前尚未存在一种可靠有效的可视编码方案能将时空信息、 统计信息、 关系信息紧凑地编码在同一个视图中, 因此本文采用了多视图联动、 协同合作的方法, 并运用了大量的交互手段来支持多种复杂的可视分析与探索. 以下是本系统支持的一些交互操作:

 高亮. 在流量散点图中, 当鼠标悬停在代表某个区域的点时, 地图中对应的区域中心点会高亮, 其他则变暗, 并形成“Pop out”的效果让用户在群体行为分布地图中的众多区域中心点中迅速、准确地定位.

1030

计算机辅助设计与图形学学报 第30卷

 标识. 用户可以将地图左侧中的蓝色或红色旗子放到地图中的区域中心点上来选取起点和终点, 使地图进入站点模式.

 联动. 当群体行为分布地图中的某个区域中心点被鼠标点击以后, 地图中只会显示该区域关联的入流、出流; 同时, 堆叠时钟图、年龄直方图会显示对应的区域的信息.

 时间筛选. 当用户通过地图上方工具栏中的时间控件选择时间以后, 地图中流量的大小会相应地反映在该时间段的状态.

 图层筛选. 自行车站点图层与区域中心点图层均可通过地图上方的开关按钮控制, 用户可根据需要隐藏或显示图层.

 流量筛选. 地图上方配有2个滑动条用以辅助用户筛选地图中流量高于某个阈值的流. 从而避免了流太多、相互遮挡等问题.

4 案例分析

本文采用的是纽约2016年7~9月份的自行车

数据, 约为420万条记录. 先过滤掉起始站点、 终止站点、起始时间、终止时间中存在空缺的记录, 将时间差阈值设为3 min, 从420万条自行车记录中提取了约为32万条群体记录.

针对第2.4节中提出的4个可视分析任务, 分别展示了4个案例, 对应任务T1~T4, 来说明本系统的有用性和有效性.

4.1 纽约市群体行为时空分布概览

本案例通过观察纽约市群体行为的总体时空

分布, 对所研究的数据形成一个初步、

宏观的概览. 首先通过设置流量阈值在所有流中筛选出流量较大的流, 结果如图7b所示.

在时间维度上, 通过观察日历图4a可以清楚地看到, 群体流量呈现出的一个大致的周期性规律,即周末的记录数明显多于工作日的记录数. 这与已有研究的结论吻合: 群体行为更倾向于出现在周末.

在空间维度上, 通过图7a所示热力可以看到, 4个红色的主要热点A, B, C, D和最上方的“U”型的区域, 以及中部偏黄的区域是群体行为较为密集的区域. 结合群体行为分布地图可以发现, 面积最大的红色热点A和“U”型区域对应的是公园内部大量活跃的群体行为模式, 即图7b所示模式1, 左边的红色热点B对应的自行站点位于隧道附近;

从图7b中的模式2可以发现, 与这些起始站点相关联的终点都位于河岸附近, 且距离相对较远. 因此, 推测终点位置附近设置了几个轮渡点, 人们骑车到该站点后转别的交通工具去对岸. 而最下方的2个红色热点C和D对应的行为模式3, 描述了人们骑自行车通过“Brooklyn”大桥到达对面的“Brooklyn”镇. 这些是纽约市群体租车行为的主要3类空间模式.

a. 热力图

123

b. 群体行为分布地图

图7 热力图和群体行为分布地图

4.2 公园内部群体移动模式探索

本案例通过研究单个区域的内部流量流动来探索公园内部群体移动模式的特征. 具体的探索流程如下:

首先, 通过图7a的热力图可以看到, 地图上方有一个成“U”型的区域对应公园和广场的外围. 而另一方面, 在图4d中, 一个离群的异常点分外显眼. 该点具有2个特征: 总流量最大, 自流量占了总流量的一半以上. 通过将鼠标悬浮在该点, 在群体行为分布地图中一个分布在地图右上角且半

第6期

黄文达, 等: 基于OD数据的群体行为可视分析 1031

a. 设定较大流量阈值 b. 设定较小流量阈值 c. 站点2周围存在游乐场

图8 将起点终点都设置为代表公园的区域

径最大的圆被高亮. 通过观察地图发现, 该圆对应的正是围绕曼哈顿广场和中心公园外围的“U”型区域.

接着, 进一步分析这些占了总流量一半以上的自流量在公园内部的流动模式. 当用鼠标在地图中点击该圆时, 通过图4b所示对应的堆叠时钟图, 可以看到, 周末的内圈分成了蓝-黄-红3个区间段. 结合常识和猜测, 该颜色排列很有可能对应人们进入公园—在公园里游玩—离开公园的模式. 因此将时间锁定在周末13:00—15:00这片连续的黄色中, 并将起点终点设置为该区域使地图进入站点模式; 通过拖动在地图上方的工具栏里的滑动条设定流量阈值, 筛选出大于某一阈值的流. 图

2302个群体都是由2人组成, 占总群体数量的87.8%. 因此, 在交通法规和安全条例允许下, 可以考虑增加双人自行车, 方便情侣或家人一起骑行游玩. 本案例通过研究2个区域的流量关系来寻找双座位自行车站点投放的候选站点.

从案例2可以了解到人门进入公园的时间段主要集中在周末的10:00—13:00. 接下来想进一步知道在这个时间段内, 哪个区域流入到公园的流量较多, 在这2个区域中又分别是哪些站点之间的流量较多, 原因什么?

通过将时间选择在周末10:00—13:00并在地图中点击公园所在的区域的中心点, 将筛选流入量和流出量的滑动条的阈值设为大小相等, 如图

8a和8b 分别对应设置了一个较大阈值和较小阈值后的结果.

从图8中, 可以发现公园里存在3个比较明显的内部群体移动规律:

4c所示. 发现此时公园的入流从流数目和流量大小上确实都胜过出流, 并且注意到了下方有一个区域A流进公园区域B的流量较多. 通过将A设置为起点, 公园B设为终点, 使地图进入站点模式, 并通过滑动条控件筛选出流量最多的前几条, 得到结果如图6所示.

在起点的出流中, 即图中显示的蓝色线条中,这些OD轨迹的起始点大多数集中在站点1, 终止点集中在站点3. 通过地图可以发现, 站点1周围有2个公交站, 推断出人们坐公交到此, 再骑自行车去公园; 而站点3是公园的2个入口之一. 在终点的出流中, 即图中显示的红色线条中, 这些OD轨迹的起始点相对分散, 但流量最大的前2条集中在公园的其中一个入口: 站点3; 终止点则相对集中在站点1和站点2, 通过地图可以发现站点2周围也有公交站. 根据这些有用的信息, 初步判断这

(1) 从图8b可以看到, 流量主要集中在下半部分, 从而推断出可能是因为公园太大, 大多数人骑到一半就放弃继续骑行, 选择回头.

(2) 结合图8a可以更清楚地发现, 公园下方两个入口的最大流出量均是到达站点2, 而非离入口较近的站点1. 通过如图8c所示放大地图发现, 离该站点较近的地方有2个游乐场, 进而推断出从公园入口进入的人们有很大一部分选择直奔游乐场游玩.

(3) 在公园左侧一排的站点中, 这些流的起止点更倾向于集中在公交站附近的站点, 如图8中的站点3和站点4, 这样方便人们直接坐车回家或者去别的地方.

3个站点是群体在区域A和区域B流动的重要枢纽, 可以考虑在这3个站点: Broadway & W 49 St,

4.3 增设双座位自行车站点

通过对群体租车数据的统计分析, 其中有

W 52 St & 5 Ave, Central Park S & 6 Ave分别设置

1032

计算机辅助设计与图形学学报 第30卷

多座位的自行车站点, 方便人们集体出行去公园或从公园返回到区域B. 此可视分析方法可应用于任意选中的2个类进行2点观察.

4.4 工作日和周末群体行为模式对比

本案例研究单个区域的群体行为模式在工作日和周末的差异.

在案例3的分析中, 当点击了公园正下方的区域A时, 对应显示的堆叠时钟图如图9所示.

a. 区域A工作日模式 b. 区域A周末模式

图9 区域A工作日和周末的群体行为模式.

通过观察外圈的形状以及内圈的颜色排列, 工作日和非工作日的群体行为模式存在明显的差异. 具体地来说, 工作日的外圈在6:00—9:00以及

16:00—18:00这2个区间段上有2个凸起, 暗示着流量突然增多, 周而末却没有. 并且, 工作日的内圈在6:00—9:00是蓝色, 10:00—13:00是红色,

16:00—18:00是红色, 18:00—22:00是蓝色, 呈现出蓝-红-红-蓝的颜色排列. 反观周末, 在8:00—

13:00是红色, 17:00—22:00是蓝色, 呈现出红-蓝的颜色排列.

为了探究这个差异, 先在地图中点击区域A,把时间段锁定在工作日的6:00—9:00, 并设定流量阈值. 从图10a中可以发现, 有一条很大的流量从左下方的一个区域C流入, 当把时间锁定在工作日的16:00—18:00时, 结果却恰恰相反: 图10b 有一条很大的流量流出左下方的区域C. 通过结合地图观察, 发现区域A里面存在较多的带“building”标识的建筑物, 如图10c 所示.这些带有办公性质的大楼都表明该区域有很强的工作区性质, 由此便很好地解释了工作日的内圈中的一对蓝红匹配对代表上班下班, 即人们从6:00—9:00集体骑车

(也许是在互相不认识的情况下) 去区域A上班, 然后16:00—18:00回家. 而工作日剩下的那一对红—蓝匹配对和周末的红—蓝匹配对则对应人们在区域A骑车去公园和从公园骑回来. 值得注意的是, 人们在周末8:00就开始出发去公园了, 工作日则会更晚.

4.5 讨 论

基于站点的群体行为分析只关注于局部的群体行为, 而基于区域的群体行为分析则只关注于宏观的群体行为. 本文结合两者并针对群体行为设计了一个交互式的可视分析系统, 支持用户从全局—区域—站点3个层次观察和分析群体行为, 通过相关文献的调研抽象出4个任务, 最后用4个案例来证明本系统的有用性和有效性. 然而,本文针对群体行为的可视分析工作仍有需要改进地方, 具体从以下几方面进行考虑:

AC

a. 6:00—9:00 b. 16:00—18:00

c. 区域A中存在着大量办公楼

图10 设定流量阈值后筛选出在6:00—9:00

通过本文对群体的定义所获得的群体尽管在大多数情况下都是正确的, 但不排除会有把2个不认识的人标识为同一个群体的可能. 可以考虑采用更精确的群体定义或者通过问卷调查等形式获取真实的群体数据, 得出更严谨和可靠的分析结论.

对于聚类区域的性质、功能和类型, 目前仍需要人参与进行推理和判断. 如用户想要判断某一个类的大致功能是代表一个大学城、公园还是工作区等, 此时, 用户不得不观察和分析类里面所包含的建筑物的信息来获得结论. 对于这个问题, 可以

考虑融合城市规划、

POI和微博等富有语义信息的数据进行研究, 使本系统更加智能化和自动化.

5 结 语

本文设计了一个多视图合作、协同交互的可视

第6期

黄文达, 等: 基于OD数据的群体行为可视分析 1033

化系统, 以支持从区域到站点的自顶向下的可视分析流程来研究群体行为. 首先, 从自行车记录中提取出群体行为, 基于群体流量和站点的地理位置对站点进行聚类. 在此基础上, 研究并分析了群体行为的时空分布、区域/站点和区域/站点之间流量流动关系, 进一步挖掘群体移动轨迹模式的特征, 发现群体移动轨迹模式在工作日和周末的差异.

本系统具有良好的适用性, 可以分析诸如道路卡口数据、地铁打卡数据等多种OD数据; 同时同时也具备良好的扩展性, 在数据源支持的情况下, 可以扩展支持对性别、居住地、国籍、收入等多种统计属性的分析. 本文工作还可以扩展到共享单车的群体行为分析中.

参考文献(References):

[1] Aldred R. Cycling cultures: summary of key findings and rec-ommendations[OL].[2018-06].

http://westminsterresearch.wmin.ac.uk/11194/

[2] Bonham J, Wilson A. Bicycling and the life course: the

start-stop-start experiences of women cycling[J]. International Journal of Sustainable Transportation, 2012, 6(4): 195-213

[3] Wang Zuzhao, Yuan Xiaoru. Visual analysis of trajectory data

[J]. Journal of Computer-Aided Design and Computer Graphics, 2015, 27(1): 9-25(in Chinese)

(王祖超, 袁晓如. 轨迹数据可视分析研究[J]. 计算机辅助设计与图形学学报, 2015, 27(1): 9-25)

[4] Pu Jiansu, Qu Huamin, Ni Lionel. Survey on visualization of

trajectory data[J]. Journal of Computer-Aided Design and Com puter Graphics, 2012, 24(10): 1273-1282(in Chinese)

(蒲剑苏, 屈华民, 倪明选. 移动轨迹数据的可视化[J]. 计算机辅助设计与图形学学报, 2012, 24(10): 1273-1282)

[5] Al-Dohuki S, Wu Y, Kamw F, et al. SemanticTraj: a new ap-proach to interacting with massive taxi trajectories[J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 11-20

[6] Wang Z, Lu M, Yuan X R, et al. Visual traffic jam analysis

based on trajectory data[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2159-2168

[7] Zeng W, Fu C W, Arisona S M, et al. Visualizing mobility of

public transportation system[J]. IEEE Transactions on Visuali-zation and Computer Graphics, 2014, 20(12): 1833-1842

[8] Andrienko, N, Andrienko, G. & Gatalsky, P.. Supporting visual

exploration of object movement[C] //Proceedings of the Work-ing Conference on Advanced Visual Interfaces New York: ACM Press, 2000: 217 -220

[9] Hoang M X, Zheng Y, Singh A K. FCCF: forecasting citywide

crowd flows based on big data[C] //Proceedings of the 24th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM Press, 2016: Article No. 6

[10] Beecham R, Wood J. Exploring gendered cycling behaviours

within a large-scale behavioural data-set[J]. Transportation Planning and Technology, 2014, 37(1): 83-97

[11] Beecham R, Wood J. Characterising group-cycling journeys

using interactive graphics[J]. Transportation Research Part C: Emerging Technologies, 2014, 47 (Part 2): 194-206

[12] Jiang Xiarui, Zheng Chunyi, Jiang Li, et al. Visual analysis of

large taxi origin-destination data[J]. Journal of Computer- Aid-ed Design & Computer Graphics, 2015, 27(10): 1907-1917 (in Chinese)

(姜晓睿, 郑春益, 蒋 莉, 等. 大规模出租车起止点数据可视分析[J]. 计算机辅助设计与图形学学报, 2015, 27(10): 1907-1917)

[13] Wang Z C, Ye T Z, Lu M, et al. Visual exploration of sparse

traffic trajectory data[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 1813-1822

[14] Wood J, Dykes J, Slingsby A. Visualisation of origins, destina-tions and flows with OD maps[J]. The Cartographic Journal, 2010, 47(2): 117-129

[15] Yang Y L, Dwyer T, Goodwin S, et al. Many-to-many geo-graphically-embedded flow visualisation: an evaluation[J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 411-420

[16] Boyandin I, Bertini E, Lalanne D. A qualitative study on the

exploration of temporal changes in flow maps with animation and small-multiples[J] Computer Graphics Foruma, 2012, 31(3pt2): 1005-1014

[17] Boyandin I, Bertini E, Bak P, et al. Flowstrates: An Approach

for visual exploration of temporal origin‐destination data[J] Computer Graphics Foruma, 2011, 30(3): 971-980

[18] Zeng W, Fu C W, Müller Arisona S, et al. Visualizing Way-points-Constrained Origin-Destination Patterns for Massive Transportation Data[J]. Computer Graphics Forum. 2016, 35(8): 95-107

[19] Correll M, Heer J. Surprise! Bayesian weighting for de-biasing

thematic maps[J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 651-660

[20] Yuan N J, Zheng Y, Xie X, et al. Discovering urban functional

zones using latent activity trajectories[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(3): 712-725 [21] Wu W C, Zheng Y X, Cao N, et al. MobiSeg: interactive region

segmentation using heterogeneous mobility data[C] //Proceedings of the IEEE Pacific Visualization Symposium. Los Alamitos: IEEE Computer Society Press, 2017: 91-100 [22] Li Y X, Zheng Y, Zhang H C, et al. Traffic prediction in a

bike-sharing system[C] //Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Informa-tion Systems. New York: ACM Press, 2015:Article 33

[23] J. Pucher, R. Buehler. City Cycling[M]. Cambridge: MIT Press,

2012

[24] Jacobsen P L. Safety in numbers: more walkers and bicyclists,

safer walking and bicycling[J]. Injury Prevention, 2003, 9(3): 205-209

[25] Munzner T. Visualization analysis and design[M]. New York:

CRC Press, 2014

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igbc.cn 版权所有 湘ICP备2023023988号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务