在清晨,在深夜,在地铁上,在马路边,戴着耳机,听着音乐,与现实世界隔离,进入音乐世界,在音乐中获得情感的支撑或进行情绪的释放。这是现代人应对当前社交和生活环境变化做出的反应。生活节奏加快,生活压力增多,现实社交逐渐淡漠,新一代社会群体开始在虚拟社交平台中不断倾诉自己的情绪,满足自己的分享欲。
在这种背景下,“网易云”音乐平台崛起,成为当今青少年群体中使用广泛的音乐app,并衍生出网络热词“网抑云”,反映在网易云音乐评论区中负面情绪弥漫的一大特点。综合考虑到网易云平台用户基数巨大,数据量大而具备普遍适用性以及平台独有的“网抑云”特质,小组决定利用数据挖掘与文本勘探技术对网易云音乐歌曲和评论进行分析,挖掘网易云用户的情感特征。
智能手机的使用与网络的普及,满足了大众随时随地听音乐的需求。在互联网高速发展的推动下,人们的社交圈在逐渐扩大,朋友圈开始无限蔓延,音乐伴随着现代社交网络化、虚拟化的改变而发生功能转变,融入了人们的日常社交生活。人们倾向于在众多音乐平台上,例如“网易云”,构建公开的音乐社交圈。大家在这一新型社交圈里分享自己的听歌喜好,展开情感交流与对话,从而让音乐成为社交的一种新方式。
在互联网的时代下,人们的社会化需求与日俱增。我们通过电子设备更加便捷地获得社交联系,但实则却变成了现实中的孤岛,逐渐弱化在现实生活中表述自我的能力,希望通过越来越多的社交工具来远离孤独。在音乐社交圈中,网民们在共鸣的氛围中分享自己的情感,展现自己独特的个性,阅读他人分享的故事,结交新朋友,在这个圈子中获得自我的需要以及被需要的满足。
1.数据采集与预处理(Python爬取数据、数据清洗、数据预处理);
2.描述性统计分析(数据集中不同风格歌曲的热度分析和歌曲歌词的用词差异分析);
3.文本挖掘与情感分析(歌曲歌词的情感倾向和用户评论的情感倾向)。
数据采集
对网易云热歌榜(共100首,每周更新)进行人工筛选分类,将歌曲分为抒情,甜蜜,伤感,嘻哈,兴奋五类。分类标准参照网络现有的现代流行华语歌曲分类方法和网易云各类以情绪作为分类标准的歌单,根据歌曲的旋律,节奏和情感基调,由组员人工定义歌曲类别,记录歌曲ID,得到100首歌曲相关数据,进行歌曲和评论数据采集。
使用python进行自动化数据抓取,共抓取到98首歌的歌词和评论(因为爬虫过程中掉了两个),一共获取到27.5万多条评论。得到Songs_info和Comments_info数据集。
Songs_info(98x19):歌曲id,歌曲名,歌手,评论总数,歌词;
Comments_info(237055x20):用户id,用户名称,评论内容,评论时间,点赞数,歌曲id,歌曲名,歌曲类型,评论次数。
数据处理步骤
载入原始评论数据,清洗去噪,对停用词和标点符号等进行清理,进行歌词和评论词干化处理。
数据探索性分析,去除空值,去重并查看数据概况。
Jieba进行基本分词处理。
利用sonwNLP、NRC进行情感分析。做分词的情绪化使用哈工大词典sonwNLP,做情感细腻度划分使用加拿大NRC词典。
1.描述性统计分析
(1)歌曲热度
图1:歌曲分类
歌曲的分类较为均匀,伤感24;抒情21;嘻哈19;甜蜜19;兴奋15。

图2:歌曲评论数:按类别
歌曲的评论数能够表现的是一个火爆程度。可以看到抒情排在第一位,伤感,甜蜜,兴奋,嘻哈类的评论数依次递减。由此可以看出大家更倾向于对抒情伤感的歌曲做出评价,并据此猜想:抒情和伤感对情绪的感染力更强,会激起更强的倾诉欲。

图3:歌曲评论数:按曲目(TOP30)
图3是根据评论数做歌曲排序的结果,大多是大家耳熟能详的歌曲。
(2)歌词与评论
每一首歌都有它的情绪,每一句评论的文字也有背后的温度。在不同的旋律和冒出头的情绪的挑拨,我们的评论的字眼会不会受到歌词的影响?基于这种猜想,我们对五类歌曲的歌词高频词和评论关键词做了比照,并以词云图展现。

图4:甜蜜类歌词词频图

评论词频图
永远,喜欢,美好,温柔总是出现在甜蜜的歌词之中,美好的字眼给人带来的总是晴空万里,未来可期,所以希望,喜欢,加油是它的评论热词。

图5:抒情类歌词词频图

评论词频图
在抒情类的歌词中世界和回忆是主要,抒情类和甜蜜类的评论重合度较高,喜欢,希望,加油也是其主要评论字眼。

图6:兴奋类歌词词频图

评论词频图
兴奋类主要有期待,梦想和一生;而加油和高考是出现频率最多的评论词,高考对青少年是一场重要的考试没有硝烟的战争,在较为兴奋的歌曲刺激下,他们更倾向于对高考呈现出更加积极的姿态。

图7:嘻哈类歌词词频图

嘻哈类歌词词频图和评论词频图都更加生活化,歌词的“不用,看着”“老子”等,评论中的“哈哈哈”“妈妈”等出现较多,我们认为是因为嘻哈类的歌曲创作曲风较为随意,风格更加自由,贴切生活。

图8:伤感类歌词词频图

评论词频图
伤感类歌词创作多用“错过”,“爱过”,“世界”等来讲述爱里都是难过的情绪,评论里的“晚安”,“加油”,“希望”其实能够看出,多数是在晚上对伤感的歌曲进行评论,在夜晚进行情绪宣泄,当然评论中也不乏鼓励和自我安慰。
从整体来看,加油在不同种类歌曲的评论中都出现频率很高,或许因为在这样一个共享情感空间中,大家相互鼓励,传递善意和希望,也是这样的一个音乐空间平台,让我们从陌生人身上去汲取力量收获感动,然后各自在道路上负重前行。在需要时,我们汇聚在这里,相互点亮,成了一团火;而后又作满天星散去,在各自奔前程的身影最后渐行渐远。有些人会渐行渐远,有些人仍在原地。
2.情感分析
(1)歌曲歌词

图9:不同类别歌曲歌词情绪平均值

图10:歌词情绪积极TOP10

图11:歌词情绪消极TOP10
图9对不同类的歌词的情绪平均值做了对比,甜蜜;抒情;兴奋;嘻哈;伤感各个类型情绪平均值正向递减,但都超过0.5,在中性以上,几乎达到0.6左右。就算是伤感也仍然保留着积极的因素,纵然是甜蜜,也不会只甜不苦,伤感的也会有在人生至暗窥见光明的正能量。可见,一首歌曲是包含了多种情感的。
(2)歌曲评论
①时间维度
首先按时间维度对歌曲评论做情感分析,以一天24小时为划分,对评论发布阶段性,评论长度时段性,情感倾向的时段性,和热评的时间分布图做出分析。

图12:评论发布阶段性

图13:评论长度时段性
图14:情感倾向的时段性
图15:热评的时间分布
从图12-15可以看出,网易云用户的情感倾向于晚上2点和晚上5点出现情绪谷值,而热评的时间峰值主要在晚上24点(新歌发布)和下午三点(摸鱼时间)。在图12-15也可以看出大家看评论和对评论的回应主要是在深夜,晚上的评论也普遍比白天要更加长,我们认为这种规律出现的原因包括以下几点:1)白天都在工作上班没时间听歌看评论;2)深夜我们多是孤单,与白天处于群体中相比,深夜更容易产生孤独感,更加需要情感寄托;3)夜晚的悲伤氛围更加浓烈,思绪更加容易想到悲伤回忆。
②内容维度
从内容维度对歌曲评论进行分析,得到如下结果。

图16:正向倾向用户评论词频图
(平均Sentimet>0.8)

图17:负向用户词频图
(平均Sentimet<0.3)
数据显示,正向用户评论发布的平均Sentimet值大于0.8;负向用户评论平均Sentimet小于0.3,且正向评论多于纯负向评论。正向评论主要词语:喜欢,世界,傍晚,阳光;负向评论主要词语:自卑,流离,灯火通明,伤心,人生。

图18:某异常正向的用户词频图
某情绪值异常正向的用户词频图(情绪值达到0.99),其中包含很多可爱表情符号与正向的情感符号。

图19:活跃用户花痴花蜜评论词频图
活跃用户“花痴花蜜”给我们采集的98首歌贡献了一百多评论。从该用户的词频图中可以看出,他是华晨宇的粉丝,评论多可能是为自己的偶像打榜。
③重复和经典评论分析

图20:重复评论

图21:经典评论
这些重复和较为经典的评论也大多是是在时间的沉淀下的情绪。评论者将自己心底最深处的柔软敞开,诉说自己的故事,我们处在不同的现实世界,却也能在别的情绪中获得共鸣,感同身受。而悲伤的评论的热度会更高,因为我们总是容易忘记快乐,铭记苦痛。
④其他分析

图22:情绪词和热度关联表
由图22可以看出,热度较高评论更多的是较为负面,消极,悲伤的评论。

图23:评论数多的用户与其情绪值
由图23可以看出,部分用户活跃于网易云歌曲评论区,他们的情绪值平均较低,可以推知这些乐评活跃用户多是有故事的人。

图24:重复次数多的评论
很多评论都是网络热词或网络梗,如“小丑竟是我自己”等。在网易云音乐平台上存在很多复制粘贴的行为。
研究意义
从用户角度分析,可以看出,网络评论的出现极大地影响着用户的决策,当用户面临未知的选择时首先会从评论中获得感知。在线评论用户的决策的影响程度很大,它带给用户的是对事物全面的、真实的体验,从大量的评论信息中,不仅可看到用户的感受,还可以看到用户的偏好,与其他用户加强情感共鸣。
站在音乐人的角度,如果能够得到用户对某种类型歌曲的喜好程度,就可以更好地创作出与用户心有灵犀、产生共鸣的作品。而通过每首歌的评论,也可以看到用户对这首歌的理解和他们展示出的感受和联想,歌手可以通过这种形式体验到与用户产生的共鸣。创作者可以根据评论中提到的优点和缺点,为自己后续的创作带来不同的想法,迸发更多灵感,创作出更好的作品。
对网易云音乐平台来说,通过研究网易云音乐评论的规律动态和主要内容,可以帮助平台更多关注到用户需求,进行用户画像描绘,从而优化平台生态,为网易云音乐的继续发展做数据支持。
改进展望
1.歌曲分类:本研究的歌曲分类是综合了平台的分类划分与组员自己的判断标准,这种人工分类可能会在客观性上有所欠缺,在后续的改进中,考虑通过聚类将歌曲进行分类,以聚类结果给歌曲贴分类标签。
2.情绪分析信度:目前对词语的处理不够“人性化”,得出的结果并不完全准确。在后期要继续提高精度。如,根据老师建议,进行整句分词,从而解决单个分词后词语词义与整句表达情感不同的问题。
3.深入探索:本研究并没有对评论用户进行深度挖掘,做出空间维度的探索。在后续改进中考虑做情感地图,对用户的地域进行统计分析找到情感的地域分布特征。
4.研究粒度:本研究大多是统计描述,得到的信息较为碎片化,在后期中可以继续进行细致化处理,如对某一个用户的深入挖掘等,从而得到更小粒度和细致化的分析。