车联网车主驾驶行为实践总结

 

车联网是指通过信息传感设备,按照约定的协议,把所有车辆与互联网连接起来,进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种网络。大量数据分析表明,用户的日常驾驶行为和习惯均会影响出行安全。通过分析车联网技术获得的汽车观测数据,可以分析出用户的驾驶行为和出行习惯特征,这些特征对于汽车公司以及汽车用户都有重要的现实意义。

一部分是挖掘驾驶指标,构建用户画像。首先,基于原始数据中的 7 个有效指标构建出两大类二级指标:驾驶风格和出行习惯。其中各二级指标下又分别挖掘出 4 个和 11 个三级细化指标。其次,对于出行习惯二级指标下的 11 个三级细化指标直接编程计算得到。对于驾驶风格二级指标下的 4 个三级指标分别采用了聚类分析、区间估计、差分法分析得到。

最后,将各指标定义封装为函数,分别代入 80 个用户数据,得到 80 位用户驾驶行为画像。另一部分是基于用户画像,评判驾驶行为。首先,对于 80 个用户出行习惯的 11 个指标进行主成分分析,将 11 个指标降维成 4 个主成分因子:“用车频率”因子、“高峰-疲劳”因子、“疲劳驾驶”因子、“早-晚高峰”因子,用于判定用户的出行习惯类型。其次,对于驾驶风格 4 个指标进行聚类分析,将 80 个用户聚为四类:“安全型”、“危险型”、“稳健型”、“急躁型”,对用户进行驾驶风格类型的判定。最后,对于驾驶风格和出行习惯下的 15 个三级指标构建基于 Logistic 回归的评分卡模型,给出用户的评分来评判用户的驾驶行为,为汽车生产公司提供有效信息;通过结合不同类型用户驾驶特点,评分等级,可以及时进行产品优化,对自己的客户群体提供个性服务定制,实现汽车生产与用户需求的更好对接;同时,汽车用户可以根据自身的驾驶习惯和出行特点来向汽车公司寻求个人产品推荐(如保险种类等)。

在智能终端中,智能终端系统会结合车辆的外在环境感知,通过监测汽车当时的运行状况,包括车速、发动机转速以及车道信息等,将这些信息上传到云平台上,使平台获得汽车的真实数据,这样能够确保信息处理中心作出准确的判断,并发送服务信息。对于上传的数据,往往需要结合相应的统计方法才能进行分析。

由车载终端上传的每一份数据都带有汽车的位置和时间信息,并且很容易形成海量数据。利用大数据平台接收数据,车商的数据平台终端可以获取到相应的数据,但是收集到的数据往往处于混乱状态,仅靠收集到的数据并不能反映出有价值的信息。这时就需要基于统计方法对数据赋予相应的意义和价值。将数据价值反馈给车商,生产出有针对性的产品,实现更好的服务客户,创造出数据产品的社会价值。 在数据方面,车辆行驶数据反应的行为可以分为用户的驾驶风格和出行习惯两方面。出行习惯包括出行时间、路线、地点等信息,通过这些信息,能够很容易的分析出用户的出行目的及出行习惯。通过驾驶风格可以掌握驾驶人员的爱好以及驾驶问题。这样可以更好的结合驾驶人的兴趣和特点来推荐产品,同时对驾驶人的安全有一定的保证。

对于用户的驾驶行为,主要体现在车辆行驶状态和用户对车辆的操作状态,如驾驶过程中出现的急加速次数、急减速次数、碰撞次数和急转弯次数等,这些数据可以客观地反映出汽车用户的日常驾驶风格。驾驶风格的好坏会直接影响车主的安全。在此基础上,对于一个驾驶风格良好的驾驶员,需要更加关注车辆的保养问题,可以定期对车辆的状态进行监控反馈。对于驾驶风格较差的驾驶员来说,若其经常产生危险性的驾驶行为,会直接影响人身安全,针对此类车主可以进行相应保险业务推荐,使车主的安全得以保障。

综合车辆数据特点,根据驾驶风格和出行习惯信息,可以对用户进行分类。对汽车销售公司来说,通过分析不同类型客户特点,及时进行产品优化,对自己的客户群体提供个性化服务定制,保证自身公司业务。同时,汽车用户可以对自己的驾驶行为有充分的了解,更好的规范自己的驾驶行为,根据自己的特点来向汽车公司寻求个人产品推荐,降低驾驶安全隐患。综上,基于统计学方法进行汽车驾驶行为习惯的分析对汽车公司以及用户自身有重要意义。

目的是保障驾驶用户的出行安全,同时降低交通事故的出现频率。研究发现,通过两种方式能够有效的降低在驾驶过程中危险行为出现的频率:一是在出现驾驶危险行为时,及时提醒驾驶人,二是将驾驶过程中的不良行为记录下来,将数据信息反馈给驾驶人。驾驶过程中出现的四种不良驾驶行为:频繁变道超车、急加速行驶、开车窗高速行驶、脱挡滑行进行研究,针对于这些具有危险性的驾驶行为,分别探究其对于燃油消耗量的影响,最后得出结论:这四种驾驶行为都会增加汽车的燃油消耗量,只是增加程度有所不同。智能化汽车的概念,目的是更好的服务驾驶人和车商。

指标体系的构建过程,构建过程运用到的相应的统计方法及其算法主要内容如下:

(1)对于多辆汽车利用区间估计的方法确定划分行程的时间间隔值。

(2)采用统计方法对于车辆进行一次旅程的定义,随之进行行程划分,确定一段行程的数据。

(3)进行二、三级指标的构建,对于一些可以直接计算的三级指标,直接编程算出。有些三级指标需要进行统计推断,确定相应的阈值,利用非参数统计的分位数检验方法确定急加速、急减速区间;差分法确定一次行程中的油门踏板次数;聚类分析确定用户常用驾驶档位。

(4)通过计算得到用户的各指标数值,从而构建出用户画像,该综合画像可以精确的反映出驾驶人及其车辆的相关信息。

基于车辆数据反映出的驾驶人的“驾驶行为习惯”和“出行习惯”

1、通过统计方法基于车辆划分行程的规则,由数据角度出发,给出较为精准的定义,从而针对于每段行程对车辆进行研究。

2、构建车辆驾驶行为画像,在构建指标的过程中,采用无监督学习以及假设检验的方法从数据中制定指标,从而得到驾驶行为画像。通过驾驶行为画像可以准确的判断该人的驾驶行为模式。

3、通过聚类分析,评分卡模型等统计方法,给出驾驶人行为标签,属于何种驾驶群体,通过数据给出驾驶人身份推断等 POI 信息,同时将画像进行可视化展示。

有人这么描述特征工程:“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限而已”,这里所说的数据就是指经特征工程的构建之后得到的数据。为了最大限度的从原始数据中提取特征,此可以建立特征工程,这样可以更好的实现模型的建立以及实现算法的目的。

构建特征工程主要分成特征的提取、构建、选择三个阶段。特征构建指的是从原始数据中人工的去挖掘有含义的特征。这个过程要求在纷繁复杂的指标变量中去花时间观测并揣摩,综合考虑潜在的问题和数据的结构进行选择。另外,在进行特征构建时,通常使用属性分割和结合的方法。对于结构性的表格数据,可以组合两个或者三个不同的属性来构造出新特征,如果存在与时间相关的属性,则可以划分不同的时间窗口,得到在不同时间下同一属性的特征值,也可以把一个属性进行分解或切分。

特征提取和特征选择的目的都是从原始数据中挖掘出最有效的特征。它们之间的区别在于:特征提取强调通过特征转换的方式得到一组具有相关统计意义的特征,特征的选择是简化特征集合,利用相关统计意义进行裁定。特征选择侧重于去除原始数据中的不相关或数据冗余,精简有效特征的数量,使模型的精度得到提高,同时还能大大缩短模型的训练时间。特征提取通过进行特征转换实现特征的降维。特征选择是一个重复迭代的过程,有时可能自认为特征选择的结果很好,但在模型训练过程中发现并不理想,因此每次特征选择都要通过模型去验证选择结果的好坏,这样才能获得较好的数据去训练较优的模型。

总之,两种方法都可以减少特征维度并且降低数据冗余。特征提取有时能发现更有意义的特征属性,而特征选择的过程通常能表示出每个特征对于模型构建的重要性。

用户画像通俗来说就是为每个不同的用户“打标签”。具体含义是根据用户的属性、偏好、生活习惯和行为等信息而抽象出来的标签化模型。这种标签是通过对用户信息分析而来的特征标识。可以利用一些高度概括并且容易理解的特征为用户打标签,有助于实现对用户更直观的了解,并且可以方便计算机进行处理。用户画像就是对用户的建模,首先是明确建立画像的目标,即描述人、认识人和理解人。接着可以通过采用一些非形式化方法如文字、图像、视频等,或者采用形式化手段即使用数据的方式来建立画像。最后就是对建立起来的画像进行验证,确保其经得起推理和检验。

用户画像在各个领域的作用都十分突出,例如在互联网和电商领域起到了精准营销的作用,通过分析不同用户的潜在需求来进行有针对性的营销方式。

另外,利用数据挖掘可以对不同用户群体的数量、分布特征进行分析,构建推荐系统、搜索引擎等来提升服务的精度。同时,用户画像分析也有助于了解行业的发展动态,如人群消费习惯、消费偏好分析,不同地区的消费差异分析。

因此,从用户画像的作用可以看出,用户画像的使用场景较多,具有广泛的应用性。用户画像可以用来挖掘用户的兴趣爱好、用户群体特征,主要目的是提升营销的准确度、推荐匹配度,最终致力于提升产品的服务质量,起到增加企业利润的作用。

Kolmogorov-Smirnov (K-S)检验基于累积分布函数,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否不同。利用 K-S 检验可用来分析变量是否符合某种分布,包括均匀分布、正态分布、Possion 分布等。K-S 检验的原理在于,将数据的理论累积频率分布和观测的经验累积频率分布进行比较,求出它们的最大偏离值,然后根据给定的显著性水平去检验这个偏离值的出现是否具有偶然性。

在统计学中,参数统计推断是基于正态理论的常用方法,通常给定总体分布形式,然后去估计参数。人们的任务就是估计或检验这些参数。当原假设的分布成立时,其推断具有较高的精度。然而,在实际问题中,对总体分布的假设通常不准确,会导致参数估计的不准确,导致模型失效、作用不大。因此,非参数统计的初衷就是在不假定总体分布的情况下,尽量从数据本身获得所需要的信息。

聚类分析是一种无监督学习模式,它是一种将研究对象分为相对同质的群组的统计方法。聚类是一个数据处理的过程,将具有数据通性的归为同一类,从而形成多个具有数据通性的类簇,聚类的方法有很多,可以将其分为两类:系统聚类和动态聚类,其中系统聚类方法根据类与类之间的距离来聚类,主要分为最短、最长距离系统聚类法等;而动态聚类法中最常用的是 k-均值聚类法。 k 均值算法的基本流程如下:

1. 初始均值向量为 { 1, 2,⋯, },其中的点为从样本中随机选取的。

评分卡是在信贷场景中以分数的形式来衡量风险几率的一种手段,它表示对未来一段时间内违约、预期或失联概率的预测,通常评分越高越安全。评分卡兼具稳定性和预测性并且等价于逾期概率。评分卡开发常用的模型有逻辑回归、树结构模型或者组合模型。其中,评分卡模型通过寻找导致违约的重要因素,随之,赋予相应的权重来计算用户的信用评分。

在模型建立之前首先进行变量筛选,本文使用的方法是常用的基于信息价值(Information Value, IV)进行变量筛选的方式。在求 IV 值之前要先求出 WOE值,对于 WOE 值的求解,需要先把每个变量进行分组,针对于每个组 i,求出各组的 WOE 值:

其中, 是第 i 组的坏客户数量(bad), 是整体坏客户数量。同理, 是第 i组的好客户数量(good), 为全部好客户数量。不难看出,WOE 反映了在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异,WOE 的深刻意义为:自变量取值对于目标变量(违约概率)的影响。IV值的公式如下:

IV 值其实是 WOE 值加权求和。这个加权主要是消除掉各分组中数量差异带来的误差。如果只用 WOE 的绝对值求和,如果一些分组中,A 组数量很小,B 组数量很大,此时 B 组 的 WOE 值就很小,A 组很大,求和的 WOE 值相差也较大,显然这样不合理。最后根据每个变量 IV 值的大小排序去筛选变量,IV值越大的越要保留。

指标体系构建

原始数据是来自于 80 辆某品牌汽车的车载终端上传的近三个月驾驶行为数据,数据是每隔 1 秒记录一次。其中每辆车的数据量为 30 万-100 万条不等,总共数据量大致为六千万条。其中某辆车的部分原始数据如表 3-1 所示:

从原始数据中选取 7 个有效指标来进行二、三级指标的构建。确定的原始指标如表 3-2 所示:

行程划分

由于原始数据是来自于车载终端,每隔 1 秒记录一条数据。而当汽车熄火时,车载终端将不再上传数据,因此可通过检索每两条数据之间的时间间隔的长短,来判断汽车一次行程的开始与结束。由此可以确定每辆汽车的行程数量以及每段行程中的驾驶情况,方便进行后续的统计分析。在此将所需要确定的用来切分行程的两条数据之间的时间间隔记为 interval。

划分依据:两条数据间的时间间隔超过某一值 interval 时,为一段行程结束。 本文利用区间估计的方法来确定 interval 的值,根据样本统计量的抽样分布,去估计样本统计量对于总体参数的接近度。

第一步,设定初始切割时间,不妨用 1—500s 之间的数依次去切割行程,则每个时间间隔会划分出不同的行程数量。以 1—500s 为 x 轴,划分得到的行程数作为 y 轴,作出折线图见图 3-1。观察图 3-1 可知,行程数量在时间区间[50—450s]内趋于平稳,该平稳的线段表明:随着切割时间逐渐增大,行程数目会趋近于一个稳定的值,并且这个值接近于该辆汽车行程数的真实值。因此,可以认为这一平稳线段对应的时间取值范围[50—450s]包含所要确定的用来划分行程的 interval 值。

行程数量-时间间隔折线

第二步,分别求出每两条数据的时间间隔,筛选出介于[50,450s]之间的时间间隔数据。要确定 interval 的置信区间,首先应该明确其服从什么分布,对这些满足条件的时间间隔数据进行正态性检验,看其是否为正态分布。在此,分别采用 Q-Q 图检验和 K-S 检验法。

1.Q-Q 图:

作出 Q-Q 图如图 3-2 所示,从图 3-2 可以看出,图上的点进似的分布在直线 y=x 附近,说明这些时间间隔数据服从正态分布。

K-S 检验

为进一步明确该数据是否服从正态分布,我们对其进行 K-S 检验。将满足条件的时间间隔值进行 K-S 检验后,得到 pvalue=0.837,即比指定的显著水平(假设为 5%)大,则我们不能拒绝假设,即认为这些数据服从正态分布。

图 3-3 interval 值置信区间

二、三级指标构建

指标定义

为了从原始数据中挖掘出最有效的特征,可以将用户的驾驶行为分为两类:

驾驶风格和出行习惯。

基于车载终端记录的原始数据,利用其中的 7 个有效指标:

经度、纬度、时间、里程、车速、发动机速度、油耗。

根据这 7 个有效指标构建两大类二级指标:驾驶风格和出行习惯。 其中出行习惯二级指标下定义 11 个三级细化指标:

月出行天数、

日均出行trip 数、

日均出行里程、

平均每个 trip 里程、

早高峰出行时长、

早高峰出行里程、

晚高峰出行时长、

晚高峰出行里程、

疲劳驾驶次数、

疲劳驾驶时长、

疲劳驾驶里程。

这 11 个指标的定义见表 3-3,可以直接对原始数据通过软件编程计算得出。

驾驶风格二级指标下定义 4 个三级细化指标:

急加速次数、急减速次数、常用档位、油门踏板次数。

这 4 个指标可以综合反映出用户的不同驾驶风格。由于这 4 个指标无法直接计算,因此需要结合相应的统计方法分析计算得出,为此本章主要利用各种统计方法来进行指标的分析计算。下面首先给出各指标的定义,见表 3-3:

表 3-3 行程指标定义

急加速、急减速临界值的确定

在现实生活中,我们认为在车辆行驶过程中,急加速、急减速行为属于非常规行为。通过查阅相关文献可知,通过对行驶过程中秒级速度、加速度的数据分析,可以起到帮助驾驶员提高安全操作水平、预防安全行车事故、及时掌握驾驶心理状态的作用。

为了定义急加速、急减速的区间,以驾车号为 LLNC1AAA2EA003359 用户为例,从行车速度和时间出发,计算出该用户每天的秒级加速度,作出其加速度频数分布图如图 3-4:

图 3-4 加速度频数分布图

通过该用户的加速度频数分布图可以看出,其加速度大部分分布在(-3,3⁡m/s2之间,且加速度绝对值越大,出现的频率越低。

因此,基于统计学的思想可以做出假设,在一天中,用户的急加速、急减速行为为小概率事件,概率小于等于 0.05。由于总体分布未知,为了尽量从数据本身获得所需要的信息,在此选取非参数统计中的分位数检验的方法去估计急加速、急减速的区间。

分位数检验是基于二项检验,检验有关随机变量分位数的假设检验问题。

原假设的含义是检验的 0分位数恰好是 0。在此,本文采用分位数检验倒推 0分位点的方法,来确定恰好使检验通过时的加速度临界值。

采用逐步搜索的方法,搜索步长为 0.01,当寻找到恰好使检验通过的分位点时停止,此时的加速度的临界值即为 0分位点的值,便认为这个分位点的值为急加速、急减速的临界分位点。首先计算每辆车每天的加速度,利用该车一天的加速度数据进行检验确定加速度临界值,在进行左边检验时,确定了 80 辆车的急减速时的加速度临界值如图 3-5 所示。

图 3-5 80 辆汽车急减速时的加速度(每天)

从上图可以看出,加速度集中分布在[-3.5,-2.5⁡m/s2]的区间内。同理,由于检验的对称性,采用右边检验得到急加速临界值的区间为[2.5,3.5⁡m/s2]。由此,可以将急加速的临界值定义为 3⁡m/s2,即一旦行驶加速度超过该临界值,记为一次急加速行为。急减速行为同理。

油门踏板次数分析

作为驾驶风格二级指标中的一个重要元素,油门踏板次数能够反映出驾驶员的驾驶习惯,并且可以针对此驾驶风格给出相关建议。油门踏板次数没有直接给出,在此,利用原始数据中的耗油量这项指标来得到。

针对于某一个用户数据,首先将其耗油量数据作出折线图,从图中可以观察到耗油量存在一次次的波峰与波谷。当耗油量逐渐下降时,意味着此时正在逐渐抬起油门,当耗油量达到波谷时,意味着油门完全抬起。此后耗油量逐渐增加,意味着油门开始踩下,即出现了一次油门踩踏行为。也就是油耗波谷出现一次表示了一次踩踏油门行为的出现。因此可以计算一段行程中油耗波谷出现的次数来估计用户在一次行程中的油门踏板次数情况。

对于油耗波谷出现次数的计算,本文选择差分法。以车号为 LLNC1AAA0 EA006406 的用户为例,根据行程划分规则可以计算出该辆车共有 133 次行程, 通过截取第 130 个行程的一部分如图 3-6 所示,要计算一段行程出现波谷的次数,可以采用差分法,即:波谷的值小于其相邻两时间点的值。通过差分法计算波谷出现次数,便可估计出该用户在一次行程中的油门踏板次数。

图 3-6 第 130 个行程耗油量的一部分

对于得到的该用户在所有 133 个行程中的踏板次数数据,将其表示为频数,分布直方图如图 3-7 所示。由此,便可以通过差分法计算每个用户在每次行程中的油门踏板次数情况。

图 3-7 该车所有行程的踏板次数

常用档位

查阅文献可知,汽车车速、发动机转速、档位之间的关系是:

(1)给油越多,发动机转速越快

(2)发动机转速越快,车速越快

(3)存在挂高档而低速行驶,挂低挡而高速行驶情况

任意选两辆车 LLNC1AAA2EA003359 和 LLNC1AAA2FA003556 的数据,

分别作出反映汽车速度与发动机转速关系的散点图如图 3-8 和 3-9 所示:

图 3-10 车速-转速散点图
图 3-11 车速-转速散点图

从上图中可以看出,汽车速度与发动机转速成正比例关系,即车速越快,发动机转速越快。散点图形成明显的 6 条直线,每条直线斜率不同。因此可以研究每条直线的斜率与汽车所处档位的关系。

假设:1. 6 条直线代表 6 个档位

2. 以车速与发动机速度的比值作为斜率,判断不同斜率对应不同档位 对于某一辆汽车,通过计算车速与发动机转速的比值作为斜率。对得到的斜率值进行聚类分析,采用欧式距离。由于散点图展示的数据分为六条直线以及边缘直线外部的两部分,因此可以将结果聚成 8 类,得到聚类结果如图 3-10所示:

图 3-12 聚类分析图

根据聚类之后的结果,除去两个极端类,中间六类即为散点图中显示的六条直线,因此只研究中间六类,可以得到斜率在 0.04—0.06 之间的数据量最多,斜率在 0.005—0.01 之间的数据量最少。 将聚类结果划分为档位区间,结果如表 3-3 所示:

通过此划分方法,便可以通过求该用户车速与发动机转速的比值,计算比值落在每一斜率区间的频率。对于某一用户来说,其车速与发动机转速的比值落在哪一斜率区间的频率越大,则该区间对应的档位就是该用户在驾驶时的最常用档位。

指标计算

经过上述几个小节的指标构建及计算过程,最终可以将 15 个三级细化指标的计算方法总结如下:

由此,通过本章建立的各指标及其计算方法,在 python 软件中将各个指标计算方法封装成函数,便可以分别将 80 辆车的数据代入函数进行计算,得到80 个汽车用户的驾驶行为画像。

从原始数据中挖掘驾驶指标,构建用户驾驶行为画像。首先,基于原始数据中的 7 个有效指标构建出两大类二级指标:驾驶风格和出行习惯。其中驾驶风格包括:急加速次数、急减速次数、常用档位、油门踏板次数。出行习惯包括:月出行天数、日均出行 trip 数、日均出行里程、平均每个 trip 里程、早高峰出行时长、早高峰出行里程、晚高峰出行时长、晚高峰出行里程、疲劳驾驶次数、疲劳驾驶时长、疲劳驾驶里程。其次,对于出行习惯二级指标下的 11 个三级细化指标直接编程计算得到。对于驾驶风格二级指标下的 4 个三级指标分别采用了聚类分析、区间估计、差分法分析得到。最后,将15 个三级指标定义封装为函数,分别代入 80 个用户的驾驶数据,得到 80 位用户驾驶行为画像。

构建用户画像

通过将 80 辆汽车的数据代入第 3 章构建的指标体系,可以得到每个汽车用户的有关驾驶风格和出行习惯的指标数据,由此便得到了每个用户的画像。下表给出了前五个用户的画像如表 4-1 所示:

表 4-1 前五个用户的画像

寻找主成分

图 4-1 碎石图

图 4-1 为利用 R 软件生成的碎石图,由图可知,特征值的变化趋势在第四个主成分之后变得平稳,因此考虑选取前四个主成分。

为了更加精确的去确定主成分,下面从相关矩阵出发求解主成分。主成分总的方差的解释能力见表 4-2。

表 4-2 主成分总的方差解释能力

由表结果可以看到,第一主成分标准差为 2.09,方差贡献率为 39.69%;第二主成分标准差为1.55,累积方差贡献率为61.58%;第三主成分标准差为1.07, 累积方差贡献率达到 72%,第四主成分标准差为 0.96,累积方差贡献率已达到80.4%,因此提取前四个主成分。

主成分解释

表 4-3 主成分载荷矩阵

第二主成分的系数存在较明显差异,该主成分正向因子包含了出行频率以及高峰时段指标,说明当某一用户的该主成分的取值为正时,其会在高峰时段进行较高频率的出行;相反,该主成分负向因子包含平均出行里程以及疲劳驾驶情况指标,因此当某一用户的该主成分的取值为负时,说明其经常进行长途出行,并且容易造成疲劳驾驶。因此第二主成分主要内涵是高峰出行与疲劳驾驶的相对信息,可以称为“高峰-疲劳”因子;

第三主成分正向因子包含了月均出行天数和疲劳驾驶情况且载荷较大,负向因子主要包含平均出行里程指标,因此当某一用户的该主成分的取值为正时,其经常进行长途出行,且容易造成疲劳驾驶;因此当某一用户的该主成分的取值为负时,说明该用户不常进行疲劳驾驶,因此该主成分主要反映了用户疲劳驾驶情况,可以称为“疲劳驾驶”因子;

第四主成分在早高峰里程和早高峰时长上系数为正且具有较大载荷,在晚高峰里程和晚高峰时长上系数为负且具有较大载荷,说明该主成分反映了早、晚高峰出行情况,因此可以称其为“早-晚高峰”因子。

聚类个数确定

基于用户的驾驶风格二级指标下的 4 个三级指标:油门踏板次数、急加速次数、急减速次数、常用档位进行聚类分析,可以将不同用户进行分类,将用户划分为不同的驾驶风格群体。 首先确定聚类的个数,本文采用手肘法来确定聚类个数 k 的值。手肘法的核心思想是随着聚类个数 k 的逐渐增大,样本也会划分的越来越细,误差平方和 SSE 也会随着每个簇的聚合程度越来越高而变得越来越小。假设真实聚类数是 n,当 k<n 时,随着 k 的增大,每个簇的聚合程度增大,SSE 下降幅度也会很大;当 k 越来越接近于真实聚类数时,SSE 的下降幅度就会越来越小,并且随着k值的增大而逐渐趋于平缓,即SSE和k的关系图表现为一个手肘的形状,此时肘部对应的 k 值就是数据的真实聚类数。

如图 4-2 即为手肘图,从图中可以看出当 k>4 时,SSE 逐渐趋于平稳。显然肘部对应的 k 值为 4,因此确定聚类数为 4。

聚类分析结果

确定了聚类数量之后,接下来采用 K-means 聚类法将 80 个汽车用户的驾驶风格 4 项指标分为四类。

表 4-3 聚类均值结果

表 4-3 为聚类结果中各类的均值,将表 4-3 的结果展示为折线图如图 4-3 所示,从图中可以明显看出 4 类用户具有明显的差别:

第 1 类中可以明显看出,油门踏板、急加速、急减速次数为四类中最小的,并且档位也较高,说明该类用户驾驶风格比较老练,可以归结为“安全型”;

第 2 类中可以明显看出踩踏油门次数、急加速、急减速次数均达到了四类中的最大值,而常用档位却只有 2 挡,即行车速度不快,却频繁的踩油门和刹车,由此可以猜想该类用户为驾驶新手,因此可以将该类驾驶风格归结为“危险型”;

第 3 类中各指标均值都处于比较中等的状态,因此可以将该类驾驶风格归结为“稳健型”;

第 4 类中,急加速、急减速次数较第 3 类明显增多,常用档位也较高,可见该类用户在日常驾驶中经常爱踩油门和刹车,平时经常挂高档,行车速度比较快,因此可以将该类驾驶风格归结为“急躁型”。

聚类效果评价

为了检验聚类的效果,对于聚类分析得到的用户分类结果,分别将各类的用户数据取出,针对于每一项指标,为了进行多组数据特征的比较,分别作出各类用户的箱线图,得到的比较结果见下图:

从图中明显可以看出:

对于第 1 类用户,可以看出其急加速、急减速次数、油门踏板次数的箱线图均非常集中,并且取值较小,说明该类用户的驾驶行为非常稳定,并且常用档位也较高,说明该类用户驾驶技术熟练,因此可以判定该类用户为“安全型”用户。

相比于其他三类用户,第 2 类用户在急加速次数、踏板次数、急减速次数上均表现出很高的取值,说明该类用户经常进行急加速、急减速以及踩踏油门等操作。并且各指标的四分位差也都相当大,这说明第二类用户的数据分布很分散,间接反映出该类用户的驾驶行为非常不稳定。此外,该类用户的常用档位偏低,说明该类用户行驶速度较慢,因此可以判定该类用户为比较“危险的”新手用户。

第 3 类用户相较于第 1 类,除常用档位外,各指标取值较高,但总体比较集中稳定,常用档位较低,说明第 3 类用户为“稳健性”用户。

第 4 类用户在急加速、急减速次数以及油门踏板次数取值偏高,并且常用档位偏高,说明该类用户平时车速较快,踩刹车油门较频繁,可以判定为“急躁型”用户。

由各类用户的真实指标数据分析结果与聚类结果进行对比,可以得知本次聚类分析的效果还是非常接近于真实情况的。

基于 Logistic 回归的评分卡模型建立

确定目标变量

为了构建基于 Logistic 回归的评分卡模型,为每个用户的驾驶行为进行打分,综合考量了 15 个三级指标之后,本文选取了能够代表用户驾驶行为好坏的的 8 个指标,分别是:疲劳驾驶次数( 1)、平均疲劳驾驶时间( 2)、平均疲劳驾驶里程( 3)、每次 trip 的平均踏板次数( 4)、急加速次数( 5)、常用档位( 6)、早高峰里程( 7)、晚高峰里程( 8)。通过对于 80 个用户的这 8 个指标数据的分析来进行变量筛选和建模。 由于 80 个用户画像的数据最初没有“好坏”之分,因此,首先利用 K 均值聚类将 80 个用户分为两类,分别用 0 和 1 来代表。将聚类之后得到的结果添加为目标变量 “好坏用户”,得到初步用于建模分析的数据。将目标变量取值的分布情况进行展示如图 4-5 所示:

由图 4-5 可知,聚类结果比例为 76:4,出现了类不平衡问题。从常规认知来看来看,少数的 4 个数据可以被认为是“坏”用户,即驾驶行为不好的用户,然而,这类“坏”用户样本数量太少,那么该类所提供的信息就太少,因此这样的不平衡性对于模型训练的效果是不利的。为此,可以利用 SMOTE(Synthetic Minority Oversampling Technique)算法,对样本较少的类别进行过采样,增强类之间的平衡性。SMOTE 算法的原理就是基于欧氏距离,对随机选定的 n 个少量样本,在两个距离最近的样本点之间重新选择任意一点作为新的样本点。以此类推来得到想要达到的好坏样本的比例。在此通过 SMOTE 算法扩充样本数据,对坏样本数据进行扩充,将好坏样本比例调整为 1:1。调整之后的数据共有 152条,截取前五位用户的数据如表所示:

4(每次 trip 的平均踏板次数), 5(急加速次数),常用档位( 6)对目标变量几乎没有影响或者影响较小,因此删掉这几个变量。最后确定的建模变量分别是:疲劳驾驶次数( 1)、早高峰里程( 7)、晚高峰里程( 8)。 变量筛选完成之后就是模型的建立,通过对于过采样之后的剩下样本随机筛选出 70%的数据作为训练集来构建 Logistic 回归评分卡模型,30%的数据作为测试集进行预测。

从表 4-6 可以看出,得分为 648 分的 0 号和 7 号用户,均无出现疲劳驾驶情况,并且其很少在早高峰和晚高峰时段出行,这反映了得分较高的用户的日常驾驶和出行习惯良好,安全性较高。

另外,随着用户的疲劳驾驶次数和早、晚高峰出行里程的增加,其评分也越来越低。例如 17 号和 18 号用户的疲劳驾驶次数达到 5 次以上,早、晚高峰出行里程也很高,因此出行安全风险高,相应的评分就越低。由此可见,本评分卡模型的预测效果是符合现实情况的。

对于本评分卡模型,为了进一步检验其预测的准确性,可以通过作出 ROC曲线,比较 AUC 值的大小来判断。利用软件绘制的 ROC 曲线如图 4-7 所示,可以看到,ROC 曲线非常接近左上角的理想目标(TPR=1,FPR=0),并且 AUC 值为 0.9,这说明本评分卡模型的预测效果比较准确。

本站的图片及内容来自于网络文章,文章和图片的版权归作者作者所有。如有侵权请联系站长删除,站长不对所涉及的版权问题负法律责任及后果。【车联网车主驾驶行为实践总结】本文地址:http://www.jsdaheng.com.cn/zhishi/421650.html