1 背景及挖掘目标1.1 背景
在我国电子商务快速发展的背景下,基本上所有的电子商务网站都支持消费者对产品(商品、服务、卖家)的相关内容进行评分和评论。C2C 网站允许客户对卖家的服务进行评分和评论。客户可以通过互联网进行沟通,并在网络平台上发布大量的信息和评论,这已经成为互联网的一种流行形式,这必然会给互联网带来大量的信息。对于卖家来说,他们可以从评论信息中获得客户的实际需求,以提高产品质量和竞争力。另一方面,对于一些未知的体验产品,客户可以通过互联网获取产品信息,特别是对于一些未知的体验产品,客户更倾向于获得其他客户的意见和意见,以降低自己的风险。这些评论无疑是潜在买家的财富,作为决策的重要依据。对于客户来说,他们可以从他人的购买历史和评论信息中学习,更好地帮助他们制定购买决策。因此,通过利用数据挖掘技术对客户的大量评论进行分析,可以挖掘这些信息的特点,有利于提高生产商的核心竞争力。
1.2 挖掘目标本文主要针对天猫商城 OPPO 手机评论数据文本挖掘分析,数据挖掘建模目标如下:
(1)分析 OPPO 手机用户的情感倾向;
(2)从评论文本中挖掘品牌手机的优缺点;
(3)根据品牌优势提炼品牌手机的卖点。
2 分析方法和过程本次建模针对天猫商城 OPPO 手机品牌消费者的文本评论数据经过基本数据预处理、中文分词和停用词过滤后使用 ROST CM6 软件和 Python 等工具对数据进行建模和分析,实现文本评论数据的倾向性判断和隐藏信息的挖掘和分析,以获得有价值的内容。
1 是电子商务产品评论数据的情感分析过程,主要包括以下步骤:
(1)使用爬虫工具(Python/章鱼采集器),天猫商城 OPPO 收集手机评论数据;
(2)对获得的数据进行基本处理,包括数据预处理、中文分词、停用词过滤等。
(3)对评论文本数据进行预处理后,采用多种手段对评论数据进行多方面分析;
(4)从相应结果的分析中获取文本评论数据中有价值的内容。
图1 电商产品评论数据情感分析流程图3在分析之前,有必要定义数据的来源。本文需要选择两个方面:一个是手机品牌的选择,另一个是手机网络评论网站平台的选择。同时,还应遵循数据选择的两个标准:一个是代表性和方便性,其中代表性主要考虑影响。
3.1 数据选取3.1.1 手机品牌选择目前,中国有许多国内手机品牌。根据中关村在线手机排名,国内品牌 OPPO 排名第二,品牌综合评分为 96.1, 品牌份额13.7%,具体见下图 2 中关村在线手机品牌排行榜。
图2通过上图 2 数据显示,OPPO 品牌手机在中国市场树立了良好的品牌形象。因此,选择 OPPO 手机品牌作为分析对象意义重大,本文选择 OPPO 手机品牌是研究对象。
3.1.2 网站选择目前市场上销售 OPPO 手机网站很多,比如:OPPO 手机官方旗舰店、中关村在线、京东购物中心、苏宁购物中心、淘宝等,天猫购物中心是中国最大的消费者购物网站,由淘宝分离,主要由知名品牌直接旗舰店和授权商店组成,具有受众广泛、参与互动、信息量大等优势。天猫购物中心对买家的评论界面也相对成熟,不仅包括买家购买的手机产品第一次评论内容、额外的评论内容和第一次评论时间,还包括用户名称、用户级别等信息,如下图 3 所示。
图3 天猫OPPO官方旗舰店买家评论示例天猫商城的买家评论界面是开放的,每个买家对手机产品的评论格式都是规则的,使得数据采集可行方便。因此,我们最终决定选择天猫商城上的 OPPO 手机买家评论作为研究对象。
3.2 数据采集本文所需的数据包括天猫商城 OPPO 手机官方旗舰店买家评论的基本属性、买家名称、买家级别、评论内容、评论时间等。首先,根据选定的研究对象,熟悉相关背景知识,使用网络爬虫软件捕获固定数据,然后按照一定的规则或格式合并分散的数据,然后清理不合格的数据,清除错误、冗余和数据噪声,以确保数据质量。本文使用研究数据捕获的工具是章鱼收集器 V7.1.2”。
在天猫 OPPO 手机官方旗舰店OPPO搜索关键词,根据月销量从高到低排名,发现 OPPO R11 排名第一,所以选择 OPPO 手机型号累计评论数据作为基础,同时考虑到附加评论买家评论具有更高的信息内容和可靠性,从众筛选附加评论买家在线评论数据挖掘,包括第一次评论时间、第一次评论内容、附加评论内容等,收集时间为 2017年10月29日。
3.3 数据预处理在 Excel 对数据进行简单的预处理,得到评论文本数据,但文本数据中有大量的价值含量很低甚至没有价值含量,如果这些评论数据也引入单词、单词频率统计甚至情感分析,将不可避免地对分析产生很大的影响,结果的质量也必须是一个问题。然后,在使用这些文本评论数据之前,必须进行文本预处理,并删除大量这些无价值的评论数据。
文本评论数据的预处理主要是文本的重处理。
3.3.1 文本去重主要是对同一个人重复的类似评论,或系统自动回复的评论( ** 粘贴类,所以用户写评论!)等等。
import pandas as pdcomment = pd.read_csv('./oppo_t ** ll.txt',encoding='utf-8',header=None,sep=' ')comment .head()list1 = len(comment)comment1 = pd.DataFrame(comment[0].unique())list2 = len(comment1)comment.to_csv('./oppo_t ** ll_process_1.txt',index=False,header=False,encoding='utf-8')print('删除{}条评论'.for ** t(list1-list2))# 删除了256条评论4 基于语义网络的评论分析步骤如下:
(1)根据前期处理获得的文本数据进行情感倾向分析,将评论数据分为三组:正(好评)、负(差评)和中性(中评);
(2)为语义网络的(好评)和负面(差评),构建和分析语义网络
本文将引入 ROST CM6 文本挖掘软件可以快速高效地删除与所需信息无关的内容,筛选文本中的高频词汇。
图4 用户评论网络图从上图 4 可以看出,在评论样本文本中,手机、拍照、感觉、快速、服务、速度等词出现频率较高,成为整个网络的重要节点,与这些词越近,关系就越密切。进一步分析图片 4 :
(1)与手机关系最密切的评价词是满意、美、流畅、正品等。,这表明买家总体上对 OPPO 手机的评价是积极的。除了一些具体的情感评价词,还有一些词可以显示买家关注的手机产品的用途,如游戏。
(2)拍照、手感、快、服务、速度等词出现频率也很高,可作为二级词汇,代表 OPPO 手机产品的特点展现了买家心目中的 OPPO 手机的整体形象。
(3)以快字为节点,周围的速度、物流字与之形成网络语义关系,表明买家对 OPPO 手机产品发货快,物流快,评价快。
(4)从上图来看,OPPO 手机没有明显的手机问题。我们可以根据以下情感倾向进一步分析买家的负面评论,从而获得 OPPO 手机的缺点 。
5 用户情感倾向分析网络评论平台为商家和购买手机的客户提供了良好的互动平台。买家不仅可以交流购买手机后的经验和感受,还可以根据自己的观点对一些手机主题提出自己的想法和观点,表达自己的主观态度。因此,买家的评论不仅包括买家的观点、情感和态度的文本信息,还包括情感倾向的主观文本。
为了监控手机买家评论的情绪,本文将使用 ROST CM6 的情分析功能分析用户评论数据,从而判断买家评论文本的情感倾向是积极还是消极。ROST CM6 软件的情感分析功能,得出详细的情感分析结果以及三种情绪评论的分析结果和情感分析统计结果,如图 5 所示。
图5 描述统计结果,评论数据的情感倾向根据上图数据,分析的 13424 条评论样本中,积极情绪倾向的条数最多,包括 11574 条,占整体 86.22%,其中, 5153 条处于情绪高度,占总数38.39%;中性情绪相对较少,包括 952 条;负面情绪倾向的条数最少,包括 898 条,占 6.69%,其中消极情绪高度为 30 条,占所有评论 0.22%。
对手机评论的负面情绪做一个词云分析,可以得到下图 6 结果。
图6 手机评论负面情感词云图基于以上分析,本文建议 OPPO 手机商家根据买家评论的不同情感价值,为不同的买家指定不同的策略,确定买家对华为手机产品的满意度。结合 80/20 的原则,即 20% 的有效客户往往能为企业创造 80% 的利润价值。对于评论情感价值中积极情绪高的买家,商家要高度重视,维护与这些买家的关系,留住这些极其重要的买家,因为这些用户将来可能会再次购买同样的手机。同时,商家也可以根据这些客户的喜好推荐一些类似的产品。对于消极情绪高度消极的买家来说,消费偏好很可能是 OPPO 这一品牌的手机产品不符,可以忽略掉。对于处于中性情绪的买家,商家应该及时做一些策略,引导买家,使中性向积极情感转变。
如上图所示 结果所示,根据一些买家的负面情绪价值和负面评论文本,我们可以知道买家的负面反馈情绪价值是手机容易死亡、卡机、容易热、配件质量、屏幕等,对于企业,应从这方面开始,改进和调整,争取买家更积极的评论。
6 基于LDA模型主题分析LDA 虽然可以直接分析文本的主题,但文本的积极评价与消极评价混淆,由于单词粒度的影响)消极单词或程度单词等。),可能会在一个主题下产生一些令人困惑的单词。因此,文本分为两个文本:积极评价和消极评价,然后分别进行 LDA 主题分析是比较好的。
文本主要分为正面评价和负面评价ROST CM6 软件可自动生成三类:正面情绪结果、负面情绪结果和中性情绪结果。本文仅对正面情绪结果和负面情绪结果文本进行 LDA 主题分析,挖掘商品的优缺点。
图7 情感结果文本6.1 删除情感文本前缀评分由于 ROST CM6 结果还有评分前缀,需要删除评分前缀。
df1 = pd.read_csv('./oppo_t ** ll_process_积极的情感结果.txt',encoding='utf-8',header=None)df2 = pd.read_csv('./oppo_t ** ll_process_负面情绪结果.txt',encoding='utf-8',header=None)df1.head(3)# 用正则表达式修改数据oppo_t ** ll_pos= pd.DataFrame(df1[0].str.replace('.*?d ?t ',' '))oppo_t ** ll_neg = pd.DataFrame(df2[0].str.replace('.*?d ?t ',' '))oppo_t ** ll_pos.head(3)# 保存结果# oppo_t ** ll_pos.to_csv('./oppo_t ** ll_pos.txt',index=False,header=None,encoding='utf-8')# oppo_t ** ll_neg.to_csv('./oppo_t ** ll_neg.txt',index=False,header=None,encoding='utf-8')6.2 中文分词import jiebajieba.load_userdict("./newdict.txt")# 定义分词函数mycut = lambda x: ' '.join(jieba.cut(x))oppo_t ** ll_pos_cut = oppo_t ** ll_pos[0].apply(mycut)oppo_t ** ll_neg_cut = oppo_t ** ll_neg[0].apply(mycut)oppo_t ** ll_neg_cut.head()oppo_t ** ll_pos_cut.to_csv('./oppo_t ** ll_pos_cut.txt',index=False,header=None,encoding='utf-8')oppo_t ** ll_neg_cut.to_csv('./oppo_t ** ll_neg_cut.txt',index=False,header=None,encoding='utf-8')6.3 去停用词pos = pd.read_csv('./oppo_t ** ll_pos_cut.txt',encoding='utf-8',header=None)neg = pd.read_csv('./oppo_t ** ll_neg_cut.txt',encoding='utf-8',header=None)# 导入停用词stop = [line.strip() for line in open('./stop_words.txt', encoding="utf-8").readlines()]pos[1] = pos[0].apply(lambda x: x.split(' '))neg[1] = neg[0].apply(lambda x: x.split(' '))pos[2] = pos[1].apply(lambda x: [i for i in x if i not in stop])neg[2] = neg[1].apply(lambda x: [i for i in x if i not in stop])pos.head()6.4 LDA主题分析from gensim import corpora,models'''正面主题分析''' # 建立词典pos_dict = corpora.Dictionary(pos[2]) # 建立语料库pos_corpus = [pos_dict.doc2bow(i) for i in pos[2]] # LDA模型训练num_topics = 3pos_lad = models.LdaModel(pos_corpus,num_topics=num_topics,id2word=pos_dict)# 输出主题词矩阵pos_lad.print_topics(num_topics, 10)根据对 OPPO 手机好评的 3 个潜在主题的特征词提取,可以得到如下信息:
主题 1 的高频特征词,即喜欢,拍照、速度、不错、清晰、满意、充电、手感、流畅等,主要反映的是 OPPO 手机的性能各方面都让人满意;
主题 2 的高频特征词,即不错、喜欢,客服、物流、拍照等,主要反映的是 OPPO 手机的像素好,天猫商城的服务好以及物流比较快;
主题 3 的高频特征词,即不错、物流、喜欢、第二天、下单等,主要还是反映物流速度比较快。
'''负面主题分析''' # 建立词典neg_dict = corpora.Dictionary(neg[2]) # 建立语料库neg_corpus = [neg_dict.doc2bow(i) for i in neg[2]] # LDA模型训练neg_lad = models.LdaModel(neg_corpus,num_topics=num_topics,id2word=neg_dict)# 输出主题词矩阵neg_lad.print_topics(num_topics, 10)综合 OPPO 手机差评的 3 个潜在主题的特征词,可以提取得到以下特征词,即垃圾、不好、卡、主要反映出部分用户对于 OPPO 手机不太满意,手机容易出现卡顿现象。
可能由于分词获取前面正负情感结果的文本语料库不太好,对于负面情感结果的 LDA 主题并不是很聚焦,结果并不是很好。
6.5 结论和建议综合以上对主题以及其中的高频特征词进行提取可以看出,OPPO 手机的优势有以下几个方面:像素高、手感好、物流快、服务好,但相对而言,也有部分用户觉得这款手机容易死机、卡机等。
因此,用户购买此款手机的原因可以总结为以下几个方面:价格实惠、性价比好、像素高、服务态度好等。
根据对天猫商城上的 OPPO 手机的用户评价情况进行 LDA 主题分析,可以对 OPPO 手机提出以下建议。
7 总结本文利用数据挖掘的方法对手机用户在线评论进行了研究。首先,简要的介绍了利用数据挖掘技术进行手机客户网络评论研究的内容并进行了手机客户网络评论文本的采集和预处理过程;然后,从文本可视化技术角度研究了手机客户网络评论的特征,接着,利用 ROST CM6 对评论的文本进行情感分析,把非结构化的网络评论进行了量化。进一步明确了 OPPO 手机中买家评论的聚焦点、即是买家对手机的外观、服务、物流等词语的敏感程度,对于天猫卖家和 OPPO 手机商家具有十分重要的实践意义,可以指导它们进行调整产品、营销、推广策略等。
注:这是我 2017 年(大三)做的一个小项目,当时是在上“商务智能与应用软件”那门课所做的,第一次接触到数据挖掘与数据,做的比较粗糙,也删减了很多内容,衔接上如有问题的地方希望大家可以指出来呀,帮助我一起进步呀!
扫码咨询与免费使用
申请免费使用