文献综述
在实际社会生活中,人与人之间存在的人际关系共同构成了社交网络。随着社交网络平台的日益流行,人们多了一种社交渠道,而这其中占比最大的是青少年。青少年通过Facebook, Twitter等社交网络平台发布个人信息,这些文本数据能够反映青少年的行为、兴趣爱好,结合社交网络平台上用户的性别、年龄、好友数等信息,对于挖掘青少年细分市场具有很大的价值,通过对调查青少年的个人信息的有关数据进行统计性描述,利用平均数、标准差、中位数、频数等进行分析,以便于更好地了解青少年的普遍爱好趋势,有利于商家针对性地做出营销策略。
本课题基于文本挖掘技术,文本数据挖掘,是指从文本库中抽取对抽取人有价值的信息和知识的计算机处理技术,这种信息和知识不仅包括已经被认知的,而且还包括大量还没有被认知的,是数据挖掘从非结构化数据到结构化数据的进程。文本信息抽取是从多种渠道获取不同的原始文本,例如随机查看Facebook主页获取信息等方式,但得到的信息是海量的,非结构化的。从2007年7月的《情报科学》谌志群、张国煊的《文本挖掘与中文文本挖掘模型研究》和2008年《北京邮电大学》孙道军的《文本挖掘预处理相关基础技术分析与应用研究》中,得出对文本进行预处理,可利用词法特征提取、信息抽取、语法特征提取、概念转换、语义特征提取、文本分类等方式将信息结构化,以减少文本规模,提升文本质量;转化为文本数据集后,再对数据集进行挖掘分析;通过文本总结、文本聚类主题分析、语义关系挖掘、趋势分析、预测模型构建等方法对数据集挖掘分析后,将数据集可视化表达;最后,对文本数据集通过聚类、总结、表达式、可视化图表等方式进行分析、总结。本论文将使用一份从社交网络平台抽取的描述青少年基本信息和兴趣爱好的数据集https://www.packtpub.com/books/content/support/13251),利用数据挖掘来进行青少年市场细分。
本文主要利用K-Means聚类算法进行青少年市场细分。K-means算法是解决聚类问题的一种经典算法,具有简单快速等特点。在2018年7月的《通讯时间》中黄杨智的《基于K-means聚类方法的航空公司客户价值分析》中,了解到K-means算法的基本思想是:首先从给定的n个数据集中选择k个数据集作为初始聚类,然后依次计算其他各个数据集到这个k个类中心的欧几里得距离d,选择最小距离确定分类,接着重新计算各个类的中心点,以决定是否需要重新分类。重复以上过程,直至最后得到稳定不变的聚类结果,聚类完成。本文中将青少年的各个兴趣爱好分成不同类别进行初始聚类,再计算爱好兴趣的文本数据集到各个类别的欧几里得距离,选取最小距离确定分类的正确性,重复计算,直至最后聚类完成。
资料编号:[672247]
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。