本网站含有烟草内容,未成年人谢绝访问

在线参阅

零售户在线

微薰

手机版

您的位置:  首页 > 资讯 > 雪茄天地 > 正文

基于爬虫技术“雪茄”关注热点的社会化网络 及时空演化分析

2023年04月19日 来源:烟草在线 作者:孙锐、世华、李祥华、邰先常
A+ A

第一作者简介:

孙锐,男,云南昆明(1986~)农艺师,云南烟草公司丽江市公司古城分公司,研究方向: 市场营销、用户画像分析

1、云南烟草公司丽江市公司古城分公司

2、云南烟草公司丽江市公司

摘要:伴随中国经济高速发展人民生活水平也快速提升, 烟草作为重要支柱产业,产品结构与消费方式也在快速升级迭代。雪茄是消费方式升级中重要 的一种产品形态。本文以 “雪茄”为关键词对 2017 年-2020 年微博数据进行抓取, 通过 Jieba 分词以及 TF-IDF 关键词提取方式,借助 word2vec 将关键词进行向量表示, 融入时间维度分析微博用户对雪茄产品关注热点的时空演化,分析出社交网络中对雪茄产品、体验以及关注领域的变化。借助 SnowNLP以及 Sentiment Analysis 工具进行情感分析,反映出 2017-2020 年主要社交媒体中关于消费者对雪茄的情感走向、产品关注变化特征。

关键词:雪茄、关注热点、社会化网络、时空演化

0引言

在消费升级的演化阶段,消费者更倾向于选择有文化内涵、 高品质、可融入自我标签的商品。具备全叶型烟草的产品特征、品鉴仪式感强的雪茄, 为消费者带来品味和身份的象征。从社交媒体中了解雪茄的消费关注热点, 可了解我国目前市场的消费现状和发展趋势。杨春晓等人[1]通过构建卷烟在线评论情感辞典,进行卷烟在线评论的文本情感分析, 研究表明, 基于文本情感分析的情感倾向判断和情感指数建立能够起到动态监测消费者情感变化的作用。 金吉琼等人[2]采用文本挖掘技术对我国电子烟产品的消费者关注热点进行研究, 为烟草企业设计和优化电子烟产品提供支持。目前基于大数据对雪茄这一商品的情绪调查和分享偏好分析鲜见。

1958 年,Luhn[3]第一次开启了以词频为特征的统计标引方法, 随后关于情感分析的应用研究蓬勃发展。卓佳怡等人[4]在研究公文用户画像时, 进行了 TF-IDF算法提取关键词, 根据用户已处理的公文内容, 对处理文本进行相关性分析。曾小芹等人[5]首先运用 Selenium 爬虫抓取评论文本,通过 Jieba 分词工具对文本进行分词、词性标注及关键词词云的生成 ,再选用适用于中文文本处理的snowNLP 库对评论文本进行情感计算和结果可视化。陈兴蜀等人[6]基于分布式爬虫技术、 SnowNLP 情感分析模型以及 KMeans 文本聚类算法,对与“新冠肺炎疫情”相关话题展开舆情分析, 可视化地展现疫情事件中网络舆情的时空演化过程。

近年来关于社会网络分析的相关研究正逐步进入成熟阶段,社会网络分析方法被广泛应用到社交网络、文献计量、在线教育、舆情分析、社会资本、城市网络等领域。黎耀奇,谢礼珊[7]指出社会网络理论不是对管理学理论的批判与取代,而是一种建设性的深化与补充。 Word2Vec 是被广泛使用的词向量模型,李明超等人[8]基于自然语言处理技术,引入 Attention 机制对 Word2vec 技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。

本文从互联网媒体平台当中的信息挖掘开始,结合图片和文本情感分析平台, 发掘出检索文本当中的情感因素, 喜好因素以及品牌因素, 将情感分析与时间变化结合,获得了在一定时间刻度变化内人们对于雪茄情感变化的线上反映,最后综合人们在社交媒体上展现的基于雪茄关键词反映出来的特征, 为当下的雪茄消费环境以及消费趋势评估提供了新视角以及分析方法。

1研究方法与手段

1.1方法流程

围绕2017 年-2020 年的“雪茄”关键词原创微博数据进行抓取,将数据进行文本清洗后存入数据库,通过 Jieba 分词以及 TF-IDF 关键词提取,借助word2vec 将关键词进行向量表示, 创建雪茄关键词网络矩阵,融入时间维度分析微博用户对于雪茄产品的关注度变化情况, 得出对于雪茄产品、体验以及关注领域变化。借助 SnowNLP 以及 Sentiment Analysis 工具对微博数据进行情感分析, 将微博用户对于雪茄的情感变化与产品、体验和关注领域进行关联, 得出微

博用户 2017-2020 年关于雪茄的情感走向、产品关注变化特征, 寻求中式雪茄精准的切入点。

1.2数据采集

通过算法来优化数据爬取的方式, 使用广度优先搜索策略, 以最短路径分析深层次的资源数据,减少数据搜集成本。具体过程是首先确定少部分 URL 作为 子结点, 存储在待抓取的 URL 队列中, 然后到对应的 URL 站点下载相应的页面数据信息, 当这些 URL 被抓取成功后, 把它们放入已经抓取的 URL 队列中, 然后再抽出新的链接地址,进行页面数据挖掘。

1.3研究方法

文本聚类,TF-IDF (termfrequency–inversedocumentfrequency) 是一种用于

资讯检索文本挖掘的常用加权技术。以评估一字词对于一个文件集或一个语料中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正

比增加, 但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF 加权的各种形式 常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

2研究结果

2.1社交媒体平台上关于“雪茄”语句的情绪部分

使用 SnowNLP 将抓取得来的数据进行标记以及数值标定, 在情感词语标定的结果为-1 时,情感较为负面,在情感词语标定结果为 0 时,情感偏向于无感,情感词语标定的结果为 1 时,情感较为正面。将研究时间段(2017 年 1 月 1 日-2020 年 6 月 16 日) 按照季度进行分隔,得到正向、中立、负面的情绪所占比例,将所得到的的情感变化趋势进行图形化表现,结果如图 2 所示。

2.1.1整体情绪

在情感分析数值图中可以看出,整体接受情况较为乐观, 所有带有“雪茄” 关键词的微博条目当中,表示负面情绪的微博条目比较稳定,从 2017 年 1 月 1日-2010 年 6 月 16 日,大众的情绪表示中性的部分占 57.24%,情绪表示正面的部分占 33.01%,情绪表示负面的部分占 9.75%。从微博情绪反应来看, 目前的雪茄舆论环境较为稳定,整体偏向正面。

2.1.2情绪波动

数据呈现 2019 年第三季度有过负面情绪增长, 从 2019 年 Q2 的 11.21%增长到2019 年 Q3 的 13.31%。配合当时中立情绪以及正面情绪的下跌,说明在 2019年第三季度, 在雪茄关键词的微博舆论当中有过一次行业事件发生, 配合文本聚类方法,发现有部分负面事件引发热议,多家媒体进行跟进报道,配合 2019 年的控烟政策以及对于网络媒体当中烟草内容的控制,引发了当时情绪的短暂波动。 热度平息后, 雪茄微博舆论在下一季度归于正常。 2019 年 Q4 雪茄的负面情绪回归到 9.79%,回归均值。 从社交媒体整体舆论波动来看, 当前雪茄消费体量较小、讨论度较弱, 缺乏对雪茄消费方式的正确分享, 同时, 雪茄作为烟草制品受到舆论监督,雪茄消费更需要有正确、合理的培育。

2.2社交媒体平台上关于雪茄“味道”的关注变化

使用文本聚类方法, 将雪茄词语设置为关键词语, 从关联词语当中挑选出与味道、味道形容词相关的 67 个味道关联词, 形成味道词库。之后从味道词库当中按照时间顺序进行匹配,得到 2017 年 1 月 1 日-2020 年 6 月 16 日的味道变化。

2.2.1整体味道表示

含有雪茄关键词的社交媒体词句当中, 出现最多的词语顺序如图 3 所示。其中咖啡、威士忌、巧克力是前三位关键词。咖啡的关注热度为 7.28%,在味道的配伍性上, 咖啡与雪茄有高“味道配伍性”,在场景上有 “场景配合度”。威士忌的关注热度为 4.52%。数据显示两个关键词在关注话题中交替式出现,出现“威士忌”的场景通常不出现“咖啡”。香味的关注热度是 4.30%,  “香味”与其他具体香型描述引出对雪茄味道的认知。雪茄作为嗜好品, 味道是雪茄客在分享雪茄相关语句时最主要的属性词语, 也是消费者的关注热点维度。鉴于“咖啡”以及“威士忌”出现的频率占比和词语的特殊性, 选择用文本聚类的方式针对这两个词语进行进一步的关联性分析。具体关联性分析可反映雪茄客的消费场景以及 味道喜好度。

2.2.2“咖啡”的二级关键词分析

咖啡通常与味道的搭配词语一同出现, 带有咖啡的语句当中, 关键词呈现主要分为两个部分: 雪茄产品描述关键词以及味道描述关键词。雪茄产品描述关键词偏向于味道、尺寸、产地、口感、浓度等,味道描述词语偏向于奶油、浓郁、胡椒、巧克力、可可、混合等。这两种词语的高频出现,展现出咖啡的配伍性,无论是雪茄客在社交媒体上谈论雪茄产品的本身,或者是谈论雪茄的味道配伍,可与雪茄产生高频次的关联。数据显示也说明咖啡与雪茄有消费场景与消费热点的关联。

2.2.3“威士忌”的二级关键词分析

威士忌通常与生活当中的情感词语搭配出现, 带有威士忌的语句当中, 出现最多的是麦芽, 强调威士忌的香味属性, 其次出现的关键词仅为与生活属性关联的情感相关。带有威士忌的语句当中,出现更多的词语为:麦芽、人生、分享、旅行、酒吧、感觉、音乐、点燃、葡萄酒、搭配、口感。 当出现威士忌时, 雪茄客们更乐于谈论关于雪茄产品之外的事物, 更加在意场景, 更加在意自身的愉悦。这也显现出威士忌与咖啡决然不同的表达方式, 具体表现为在词语的描述当中咖啡与威士忌互相补充。

2.3社交媒体平台上关于雪茄“地域”的关注变化

使用文本聚类方法, 将雪茄词语设置为关键词语, 从关联词语当中挑选出与地域形容词相关的 30 个味道关联词,形成地域词库。之后从味道词库当中按照时间顺序进行匹配,得到 2017 年 1 月 1 日-2020 年 6 月 16 日的地域变化。  在所有带有雪茄关键词地狱特征的语句当中, 主要出现的地域名词以古巴、美国以及中国为主。其中的特征为:

(1) “古巴” 31.99%热度比:  “古巴”是雪茄讨论当中最常见词语。在关联词当中, 古巴处于关联词的中心地带。 与古巴优质雪茄烟叶的消费认知有一致性,说明雪茄原料与消费文化传承仍是消费的关键关注热点。

(2) “美国” 6.19%热度比:  “美国”是第二提及的词语, 与中国、上海、尼加拉瓜、北京、俄罗斯、法国组成第二梯队。在关联性当中处于外围地带, 有部分雪茄描绘词语与之关联。

(3) 中国相关地域关键词 4.83%热度比:“上海”作为一个地域关键词,频率超过“尼加拉瓜”,成为紧跟中国出现的地域关键词。 推测判断上海作为国际金融中心, 消费者对于雪茄的认知水平及消费能力较国内其他城市较好, 也显示当下雪茄消费文化受外来文化影响较大。而 “中国”这一整体地域在提及中国的语句当中, 没有出现雪茄产品品类以及香味品类的关联词语, 中国雪茄在社交媒体上的讨论还没有形成规模,处于等待开发的状态。

2.4社交媒体平台上关于雪茄语句的“生活追求”部分

使用文本聚类方法, 将雪茄词语设置为关键词语, 从关联词语当中挑选出与生活追求相关的 30 个味道关联词,形成生活追求词库。之后从生活追求词库当中按照时间顺序进行匹配, 得到 2017 年 1 月 1 日-2020 年 6 月 16 日的生活追求讨论变化。 在涉及到生活品质的讨论当中, 主要呈现出的是雪茄客在社交媒体当中对于生活品质以及生活追求方向的展示,仅以特征出现作为讨论。

雪茄产品类: 强调雪茄的手工卷制属性, 在意雪茄的型号区别, 注重雪茄的顶级品质, 强调雪茄的收藏属性, 同时也对定制版雪茄产生了浓厚的兴趣。生活追求类: 在意生活品质, 在意产品的文化, 乐于分享, 追求完美, 喜欢高雅的事务, 喜欢文玩, 经常在高档酒店出没, 喜欢顶级以及高端的东西, 追求精致, 喜欢收藏, 喜欢自己的俱乐部。职业方面: 以律师和摄影师为主, 暂没有出现其他的职业类别。

2.5社交媒体平台上关于“雪茄”语句的国产雪茄部分

使用文本聚类方法, 将雪茄词语设置为关键词语, 从关联词语当中挑选出与国产雪茄相关的 30 个味道关联词,形成国产雪茄词库。之后从国产雪茄词库当中按照时间顺序进行匹配, 得到 2017 年 1 月 1 日-2020 年 6 月 16 日的国产雪茄讨论变化。

2.5.1国产雪茄在社交媒体上的关注热度

在当前的社交媒体讨论当中, 国产雪茄出现的次数相较于雪茄的数据体量而言较弱。当前活跃在社交媒体上的雪茄客对国产雪茄的讨论较少。在国产雪茄的讨论当中,“长城”雪茄的关注度较高,其他国产雪茄品牌的关注热点脱离出0.2%的基准线。整体来看, 国产雪茄的讨论数量依然偏少, 国产雪茄社交媒体讨论还有很大的发展空间。

2.3.2.1国产雪茄讨论热度的增长趋势

从 2017 年-2020 年,国产雪茄的讨论发展当中 “长城” 品牌有较大的增长,其他的国产品牌讨论热度变化较小,均小于 1% 。“长城”之外的国产雪茄并未形成讨论, 舆论基础尚未形成。 “长城”品牌已经开始逐渐发力, 与其余国产雪茄品牌拉开较大差距,且增长趋势较好,未来发展空间较大。

3研究结论

本文采用了分布式爬虫对于在社交媒体当中带有“雪茄”关键词的原创语句进行爬取,利用关键词段去重的方式进行了初步的清洗,利用jieba 分词器进行 分词,使用 IF-TDF算法进行聚类,并且使用 word2vec 对聚类后的文本进行向量表示,后优化 SnowNLP对文本进行情感分析,最后将得到的词语分类为五个部 分, 配合上时间段的变化, 分析出雪茄客在社交媒体当中, 对于以“雪茄”为关键词里, 对于不同呈现板块的情绪变化以及关注点转移情况。研究发现的意义主要有以下几个方面:

(1) 雪茄客在社交媒体当中发布的语句类型,可以归类于以下五种:地域类、生活追求类、香型类、雪茄产品类以及国产雪茄部分。这五个部分结合分析呈现出消费者对雪茄认知的整体情绪。数据显示目前人们对于雪茄行业的情绪整体较为正面且相对比较稳定,目前的情绪利于雪茄消费市场增长及雪茄品牌的培育。

(2) 通过聚类算法的分析, 分析出目前雪茄客们对于雪茄香味的搭配上的喜好 程度, 按照高低排名分别是“咖啡”、“威士忌”以及“巧克力”。咖啡以及威士忌与雪茄具有高度的味道配伍性, 是场景搭配当中出现最多的单品; 在地域上,仍以古巴为主, 大部分的雪茄讨论都会带上古巴的地域标签, 关于中国的地域讨的国产雪茄还未形成讨论习惯,只有长城品牌被少数提及并出现一定讨论热度; 在生活品质类, 雪茄客们呈现出在意生活品质, 在意产品的文化, 乐于分享, 显现出生活品质消费场景的升级趋势; 在雪茄产品的讨论上, 更趋于关注手工雪茄,并专注于雪茄的产品细节与生活场景的匹配度特征。

(3) 通过增加时间维度进行的变化特征来看, 在香味的变化上, 咖啡的热度持续高昂表现出其与雪茄味道的强匹配度,而威士忌味道的持续增加表明对于雪茄的追捧正在逐渐往高品质化以及场景化变迁; 在地域的变化上, 古巴虽然占据很大的讨论热度比, 却已经呈现出持续下降的趋势, 消费者对于雪茄产地的兴趣已经持续减弱; 在国产雪茄讨论热度的变化上, 长城品牌的线上讨论热度正在持续发力, 其他三家品牌尚待培育; 在生活品质的讨论中,雪茄消费人群的高品质追求特征并没有随着时间而变化,一直维持在追求生活品质的特征维度。

(4) 丽江作为国际旅游城市,开放包容的消费文化与旅游文化为雪茄消费提供发展空间。随着国产雪茄当下亟待发展的产业环境,丽江为例的独有特征旅游城市具备国产雪茄品牌培育的基础条件。

[1]杨春晓,张鹤馨,黄家雯,万江平.卷烟在线评论的文本情感分析[J].中国烟草 学报,2020,26(02):92-100.   

[2]金吉琼,刘鸿,郑赛晶.基于在线评论文本挖掘技术的电子烟市场消费热点分 析[J].烟草科技,2019,52(12):106-114.

[3]LuhnHP.Theautomaticcreationofliteratureabstracts[J]. IBM Journalofresearchanddevelopment,1958,2(2):159-165.               

[4]卓佳怡,于劲松,张力文,王浩然,吴聪,张舒,宋悦.基于 TF-IDF 算法的公文用 户画像[J].办公自动化,2020,25(17):61-64.

[5] 曾小芹,余宏.基于 Python 的商品评论文本情感分析[J]. 电脑知识与技 术,2020,16(08):181-183.       

[6]陈兴蜀,常天祐,王海舟,赵志龙,张杰.基于微博数据的“新冠肺炎疫情”舆 情演化时空分析[J].四川大学学报(自然科学版),2020,57(02):409-416.      

[7]黎耀奇,谢礼珊.社会网络分析在组织管理研究中的应用与展望[J].管理学 报,2013,10(01):146-154.

[8]李明超,田丹,沈扬,JonathanShi,韩帅.融入 Attention 机制改进 Word2vec技 术 的 水 利 水 电 工 程 专 业 词 智 能 提 取 与 分 析 方 法 [J]. 水 利 学报,2020,51(07):816-826.

热文榜

红云红河集团 合力图强 和谐致远
更多

视频

更多

专题

分享到微信朋友圈×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。