陈 丹, 褚宏伟, 吴雅琴, 胡 俊
旅游研究. 2021, 13(5): 18-31.
大数据背景下, 高维旅游数据的急剧增长使得传统聚类算法效果欠佳,而熵加权子空间算法可有效地实现高维数据聚类, 获取特征对不同类的影响, 从而提升聚类效果。 文章通过爬取同程网上的部分云南游记数据, 获取有关云南旅游的游记信息; 借助中文分词、 关键词提取、 词性识别等自然语言处理技术, 并结合百度地图 API 游记信息, 构建所需旅游数据矩阵; 基于用户—关键词矩阵, 采用熵加权子空间算法对旅游景点和作者进行聚类; 综合考虑邓恩指数和轮廓系数两个内部指标, 对聚类结果进行评价。 评价结果表明: 采用熵加权子空间算法对云南游记数据聚类时, 其集簇个数为 3 的效果最好。