第四章 实验与结论
第一节 实验环境 本实验环境:
(1)处理器: Internet Core(TM) i7-8750H @2.20GHZ
(2)操作系统:Windows 10 专业版 64 位 ( DirectX 12 )
(3)内存:8 GB
(4)相关环境:Python(3.6.3)+UltraEdit(25.00.0.68)+ PostgreSQL 11
为了验证本文改进的基于语义的商场轨迹流数据清洗模型的可行性,以2015 年某商场的真实数据作为应用案例来进行测试。数据来源真实可靠。
...........................
第五章 总结与展望
第一节 研究总结
由传感器设备和移动便携式设备产生的流数据蕴含着大量的价值信息,是分析人们的日常行为模式和应用商业行为的基础。本文使用真实环境中的商场顾客时空数据作为实验数据,改进了一种适用于流数据的清洗方法--基于语义的轨迹流数据清洗方法研究。同时针对聚类方法进行改进--基于语义的网格密度聚类算法,针对清洗完成的数据进行聚类,找出商场中的热点商家。以上研究均以实验结果证明了所改进方法的有效性。具体来说,本文的主要研究工作如下:
(1)改进了一种流数据清洗方法。传感器和移动便携式设备采集的流数据中往往存在着噪声、数据冗余等现象,在对流数据进行挖掘之前,需要通过有效的方法对流数据进行数据清洗以提高数据质量。然而,正如文中所描述的那样,
由于流数据的属性较为特殊,是实时不断、持续达到的,因此数据清洗过程往往更加困难。本文针对流数据的特点对其清洗过程进行了研究,改进了一种基于语义的轨迹流数据清洗方法,该方法主要流程包括:滑动窗口获取数据子集,提取候选停留点,提取语义停留点,获取停留点候选区,提取停留点候选区内的停留和移动。文中和使用同一份数据进行清洗的方法进行结果比较分析,验证了本方法的优越性。
(2)鉴于 DBSCAN 算法在处理大规模数据时的效率低下的问题,本文改进了一种基于语义网格密度的 SGSCAN 聚类算法,该算法将研究区域划分成网格单元,划分依据是该区域的语义停留点候选区的分布。然后通过密度阈值识别网格中的热点网格单元,从而找到热点区域。
(3)在热点区域的基础之上,给出了具体的应用场景。本文对商场顾客空间数据展开了进一步的研究,将聚类结果可视化并加以说明。
参考文献(略)