表情包的传播分析:形态、分布与影响因素
——基于微信群的数据挖掘
■禹卫华 张婧怡
【本文提要】本文通过数据挖掘技术获取了12个微信群内的表情符号,通过Python和R语言等统计工具分析在线社群中表情包的使用情况。研究发现,在线社群中最常用的表情符号集中在少数几种,有7种表情符号从未被人使用,连续使用3个相同表情符号的情况较常见。本文也引入“自我呈现”理论分析了表情包使用情况,阐释了这些使用习惯偏好,并进一步对其影响因素进行了探索。研究表明,社群表情包受到社群主题、参与者身份、参与者年龄等多种因素影响。
【关键词】表情包 微信群 数据挖掘 自我呈现
【中图分类号】G206
一、研究背景
从古至今,人们之间的表达与交流并不是单一的语言符号,而是语言、表情、声调、肢体、服饰、佩饰、环境等要素的总和。有研究者认为,社交内容中只有35%左右是语言符号,其余部分则是非语言符号发挥作用。①进入社交媒体时代后,用户最初在BBS上只能用纯文字表达情绪,1982年,美国卡耐基·梅隆大学的教授斯科特·法尔曼用 :-)表达笑脸,开启了社交平台非语言符号的新历程。②之后,非语言符号类型飞速发展,从文字到图片,从静态到动态,它以惊人的速度将人们现实生活中的各种情绪、情景与表情映射到社交媒体的交流中。这其中,表情包便是当前国内外社交媒体平台上非语言符号的代表。
用户在社交媒体平台上使用表情包的目的大致有以下三点:第一是精准表达自己的态度与意见;第二是对现实交流的无限模仿;第三,创造新交流礼仪。除此之外,根据戈夫曼提出的“自我呈现”理论,人们将自己希望他人看到的样子呈现出来,就像在舞台上按照剧本演出一样。③在社交媒体借用表情包来表达自己的情感、情绪和态度给了个体充分的灵活性和便捷性,使得“前台”与“后台”更容易区分,因此表情包对用户“自我呈现”的实现起到了重要的作用。
大部分学者对于表情符号的研究集中在个体的使用意愿、动机或表情的内涵层面,较少深入到社群交流的内部。这可能是由于数据挖掘的技术障碍以及从文本中提取表情符号的困难。本文试图通过数据采集与挖掘的方式突破这种限制,也属于最早通过数据挖掘分析微信群表情符号传播形态的研究之一。主要思路是:基于微信群消息记录的数据挖掘,分析微信群表情符号的特征与分布,探索影响表情符号传播形态的因素。
二、文献综述
首先,部分学者关注表情符号内涵和情绪表达。Barbieri等④比较了不同国家不同语言的用户在使用表情符号时表达含义的差异;Boia等⑤通过文本分析研究Twitter中表情符号的情绪与推文整体情绪的关系;饶广祥等⑥指出使用微信表情符号的动因与表情符号过度使用的消极影响,并从表意“丰富性”的角度来探索表情符号在人际交流中的作用;也有学者从“社会临场感”⑦分析表情符号的价值。以上研究主要以质化研究为主,研究结论在不同语境下差异较大,难以得到社交网络中表情符号整体的传播形态。其次,部分学者研究表情符号使用者的心理动机。Marilia Prada等⑧通过问卷调查用户使用表情符号的动机、频率和态度在年龄和性别上的差异;匡文波等人⑨通过问卷和半结构化访谈的方法研究了大学生在表情包使用中的心理动机,以及他们与不同对象交流过程中使用行为的差异。这些研究使用的方法主要是问卷调查和访谈法,所获取的是自我报告式的数据。Xuan Lu等⑩研究了212个国家和地区Kika Emoji Keyboard表情符号输入软件的总体使用情况,得出了不同国家用户的表情符号使用频率分布。这一研究弥补了上述研究在整体性和客观性上的局限。第三,微信群研究主要集中在结构与社会网络等。国内有学者较早通过数据挖掘对微信群进行研究,指出了微信群传播的节点、文本和社会网络方面的特征,[11]鲜有学者通过数据挖掘来研究微信群的表情包使用行为。
综上所述,(1)国外学者主要选取Twitter等开放式社交媒体平台为研究对象,对人际传播的小型社交网络鲜有研究;(2)国内学者则比较关注微信等社交媒体上表情符号的内涵和情绪表达,很少通过数据挖掘对微信群内表情符号传播形态进行研究。本文将针对上述两点研究缺失,通过数据挖掘技术探索微信群内表情符号的传播形态、分布和影响因素。研究的主要问题包括:(1)微信群内表情符号总体使用情况;(2)不同表情符号的频率分布;(3)用户使用表情符号的习惯及影响因素。
三、研究设计
1.数据获取
本文选取某高校12个兴趣类微信群组,群内的成员因为共同兴趣聚集在一起,属于半熟人社交圈范畴。微信群的数据存储于手机内存卡中,可自由导出微信群的聊天记录,群内的每个用户皆有此权限。本研究共采集了12个微信群2017年4月1日至2017年9月30日的交流记录作为分析文本,数据项包括:用户ID、时间、状态(是否接收)、类型(文本、动画表情、视频、语音、照片壁纸等)、消息内容。
2.表情符号提取
本次研究分析对象是微信自带的表情符号。由于微信自带表情显示在文本中的格式是“[表情名称]”,如:在采集到的文本中对应的格式是“[微笑]”。在微信中获取所有88种可转化为文本类型的表情符号名称后进行匹配,即可筛选出每条消息内包含的表情符号的种类和数量并进行计算。不同版本的微信自带表情不完全相同,本文根据IOS系统微信7.0.3版本中的表情符号进行匹配。
3.隐私声明与数据规范
本研究在进行数据挖掘之前已向各个微信群主声明所采集的内容完全用于学术研究,不会用于任何其他目的,也无意对个人隐私进行挖掘。
为了绝对保护群内成员的隐私,本研究进行数据分析时遵循“先匿名再计算”的原则,在呈现结果的时候也不涉及聊天记录中除表情符号外的具有明确指向性的内容,如涉及具体人名采用“A00X”代替人名,涉及具体机构名称采用“B00X”代替机构名称,“X”为数值n。
四、数据分析结果
本研究共采集到12个微信群7.6134万条消息记录,其中文本类型消息有5.0526万条。通过表情符号匹配后得到以下结果:
1.表情符号的使用情况
在5.0526万条文本类型消息中,含有微信系统自带表情符号的文本共2.1836万条,占比43.2%;12个群中共有1506人发过言,其中使用过表情符号的人数为1150人,高达76.4%。说明表情符号已成为微信群成员不可或缺的表达方式,是人们在社交空间中“自我呈现”、表达情感、重构沟通场景的重要工具。
2.不同表情符号的使用频率:少数表情被大量使用,部分表情无人问津
本研究通过表情符号出现的“个数”和“次数”两方面来分析表情包使用情况,“个数”代表每种表情符号出现的数量;“次数”代表是否出现,“出现”则记为1,“未出现”则记为0。例如:一条消息中含有如下的表情,出现个数为3,次数为1,出现个数为1,次数为1。
本研究采集到的所有聊天记录中共包含4.0625万个表情符号。从表2可见,在微信自带的88种表情符号中,少数表情符号被大量使用,而大多数表情符号使用率均较低。在所有表情符号中,使用频率前10%(前8名)的表情符号占表情符号使用总数的81.8%,分别是。使用频率最高的8个表情中,除了之外,其他表情都是现实世界中脸部表情或肢体动作的数字化呈现。其中使用率最高,共1.5701万个,占表情符号总数的38.6%,次之,出现了5429个。
腾讯发布的《2018微信数据报告》指出,不同年龄段的人群对微信表情有不同的偏好。00后最常使用,90后最爱,80后偏爱,70后使用频率最高的是。此外,年龄在55岁以上的人最爱用。[12]本文分析的微信社群是高校教职工组成的兴趣群,群成员的年龄段集中在65后及以上,有部分80后,本文分析的结果与腾讯微信数据报告基本一致。70后及以上年龄段的群体爱用的和在本研究中的使用频率分别为第一和第三,而80后比较偏爱的使用频率也很高,仅次于。由于本文研究对象在年龄方面的局限性,的使用频率并不突出,但相比其他表情符号,出现了976次,排在第八位,也属于使用较多的表情之一。
在88种表情符号中,7个表情符号无人使用。我们认为,这7个表情符号,除了以外,既不是面部表情也不是肢体动作,无法映射现实中面部或肢体的情形,容易造成表意不明确,难以引起用户的共鸣,因而没有被人使用。
从“自我呈现”的角度来看,由于职业是决定“前台”表现方式的因素之一。本文研究的群成员是高校教职员工,其职业和身份对自我呈现方式有重要的影响,这就决定了他们在社交媒体的“前台”会做出与其社会地位一致的呈现。使用频率前8名都属于比较积极的表情符号,反映出该群体在微信群交流中呈现的生活态度是积极向上、乐于称赞的,而这种积极的自我呈现方式与他们的社会地位相匹配。例如:反映的是对其他人的称赞、敬佩,而和则表达了开心的情绪。这些表情更能增进人与人之间的感情,提升群成员之间的好感,促进交流更加顺畅地进行。相反,无人使用的7个表情属性较负面,与其社会地位不符。因此,用户在使用这类表情的决策上受到他人印象、社群规则、人际关系等多种因素的掣肘,不会轻易使用。
3.使用表情符号的数量分布:“一次使用1个表情符号”和“连续使用3个相同表情符号”的数量最多。
本研究统计了用户在一条消息中连续发送相同表情符号的个数,发现“一次使用1个表情符号”的情况居多,值得注意的是,除了“一次使用1个表情”以外,“连续使用3个相同表情符号(以下简称‘连续使用3个’)”的情况明显多于其他情况,如。如果说,人们“一次使用1个表情包”是生活常态,那么,为什么“连续使用2个()”和“连续使用3个”的顺序是颠倒的呢?也就是说,为什么用户偏爱“连续使用3个”,而不是2个,这一问题值得进一步研究。
4.表情符号与文本关联分析
本研究在“关联特征挖掘”算法的基础上建立了表情符号关联分析算法。“关联特征挖掘算法”使用了“文档–特征矩阵”,矩阵中的每个值为“每个特征的频率除以该特征在每个文档中频率的和”。[13]在本文中即“每个表情符号的频率除以该表情符号在每条消息记录中频率的和”。
设消息记录集D中有m条消息记录,n个文本类型的词汇和k个表情符号,D={d1 , d2 ,…dj ,…dm },dj表示消息记录集中第 j 条消息记录;特征集 W= {w1 ,w2 ,…wi ,…wn},其中,wi表示特征集中第i个词汇;表情集E= {e1 ,e2 ,…ep ,…en}其中,ep表示表情集中第p个表情符号。设 fjp是表情符号ep在消息记录dj中的频率,Fji是词汇wi在消息记录dj中的频率(1 ≤ p ≤ k , 1 ≤ j ≤ m,1≤i≤n)。定义表情符号ep在消息记录dj中规范化频率值 αjp为:
经过规范化处理后,建立“消息记录-表情符号矩阵”。矩阵中某个词或表情符号与目标表情符号同时出现的概率即为关联系数。
将所有聊天记录中的文本进行分词并在词库中添加表情符号,为避免内容相同的聊天记录或一条聊天记录中相同表情符号被重复计算的干扰,本研究去除了聊天记录中的重复项,并对每一条聊天记录中出现多次的表情进行去重。
将使用频率前十名的表情符号作为目标表情符号,本研究找到了与之关联度最高且关联系数大于0.05的词或表情符号(表4 表4见本期第41页)。由于[偷笑]和[调皮]两个表情没有关联系数大于0.05的表情符号或词汇,因此不显示在表中。
从表情符号关联分析的结果来看,有以下几个特征:
(1)表意相近的表情符号之间出现互相关联。例如[强]和[玫瑰]这两个表情符号的关联度较高,而这两个表情符号都表示称赞和鼓励等积极情绪,而[抱拳]和[握手]都表示认同、尊敬等含义,这两个表情符号也存在互相关联的关系。
(2)与某表情符号关联度较高的词汇聚集于同一话题。例如,与[玫瑰]这一表情符号关联系数较高的词汇有谢谢、感谢、节日快乐等,这些词汇都处于相互祝福的这一话题之中,说明群成员在节日祝福及表达感谢时更倾向于使用[玫瑰]这一表情。
(3)特定群体会有使用某一表情的偏好。例如[呲牙]这一表情符号关联系数较高的词汇有“栽种”、“手植”等,这些都与种植有关。回到原始数据中,研究发现该表情主要聚集于一个与种花相关的微信群中。
五、用户表情符号使用习惯的影响因素
根据表情符号在12个微信社群中的总体情况,本研究发现用户有以下几个表情符号使用习惯:(1)常用的表情符号集中于少数几种,呈现幂律分布;(2)除了一次只发1个表情以外,“连续使用3个”的情况较多。基于以上两个发现,本研究对影响这两种表情符号使用习惯的因素进行了探究。
1.影响表情符号常用性的因素
表情符号常用性表示每种表情符号出现的次数,在所采集的所有聊天记录中,出现次数越多的表情常用性越高。
(1)易用性
以往的许多关于用户使用意愿的研究都将“感知易用性”(perceived ease of use)[14]作为变量,“感知易用性”对用户的使用意愿有显著预测作用。由于本文并非通过问卷获取数据,因此本研究将“感知易用性”转变为“易用性”,并猜想:表情符号易用性越高,用户花费在寻找表情符号上的时间和精力越少,可能会更愿意使用。表情符号“易用性”主要跟表情符号所处位置相关。
微信自带的88种表情符号在页面上被分成5页,本研究认为用户使用所处页面位置越靠前的表情符号时,需要花费在翻页上的时间越少,易用性越高。研究将微信表情符号根据其所处页面进行了从1到5的编码,所处页数越靠前,编码越大,代表易用性越强,即第一页的表情编码为5,第五页的表情编码为1。
经过检验,易用性与表情符号的常用性相关性不显著(p=0.644),说明表情符号的位置不会影响用户的使用意愿(表5 表5见本期第42页)。
(2)表意积极性
不难看出,用户使用频率较高的几个表情都表达了较为积极的情绪,例如使用率最高的 可以表示“称赞”、“鼓励”、“佩服”等积极的含义,而没有人使用过的7个表情表意则比较负面,例如 和 都含有一定的嘲讽和辱骂的意思。因此本研究猜测微信社群中表意积极的表情符号更加常用。
本研究对微信自带的88个表情符号进行编码来测量其表意积极性。表达积极情绪的记为1,中性记为0,消极记为-1。让2名编码员背对背编码,并对其编码结果进行了内部一致性检验,检验结果符合信度要求(表6 表6见本期第42页)。
将表意积极性与常用性进行皮尔逊相关性检验,发现表情符号的表意积极性与常用性显著正相关(p<0.05),说明微信社群的成员更常使用表达积极含义的表情符号(表7 表7见本期第42页)。
由于表情符号是社交媒体中自我呈现的方式之一,因此“表意积极性与常用性正相关”说明微信群的成员希望将积极的自我呈现给群内的其他人。有学者通过实证研究发现,社交网站中积极的自我呈现能够带来积极情绪,从而获得更多社会支持。[15]这一结论一定程度上解释了这一现象。相比表意消极的表情符号,积极的表情符号能够带来积极情绪。而微信群内积极的自我呈现方式除了表达积极的情绪之外,更重要的目的是寻求其他人的支持和认同。
2.影响“连续使用3个相同表情符号”的因素
(1)表意积极性
经过检验,表意积极性与常用性显著正相关,也就是说人们倾向于使用更积极的表情符号。由于使用多个表情比1个表情所传达的情绪更加强烈,本研究认为社群成员更倾向于放大自己的积极情绪,弱化消极情绪,使用积极的表情时“连续使用3个”的可能性更大。
本研究将某一表情符号在所有聊天记录中“连续使用3个”的次数与出现总次数的比值作为该表情符号“连续使用3个”的概率,并与表意积极性这一变量进行皮尔逊相关性检验,结果如下(表8 表8见本期第42页):
经过检验,表情符号的表意积极性和“连续使用3个”的概率显著正相关(p<0.05)。说明当群成员通过表情符号来传达自己积极的情感时,他们更倾向于连续使用3个相同的表情来放大自己的情感。反之,群成员并不愿意放大消极情绪,因此表意积极性低的符号“连续使用3个”的情况则较少。
上文已经证实,越常用的表情符号表意积极性越强,说明用户希望通过“积极自我呈现”在群内其他成员的心中留下积极乐观的心理印象。当这种印象产生后,用户则通过各种方式不断将其放大,达到强化“自我呈现”的目的。
(2)个体活跃度
已有的微信群研究发现,少数个体活跃度较高的用户在微信群的聊天中生产着大量内容,出现了微信群沟通不平衡的状况。[16]基于此,本研究推测,微信群中也存在个体表达情绪不平衡的现象。个体活跃度高的成员更倾向于表达强烈的情绪,因此会更多地“连续使用3个”。
个体活跃度用“发言总次数”来表示,“连续使用3个”的意愿通过个体连续使用3个相同表情符号的次数占发表情总次数的比例来表示。将个体活跃度与“连续使用3个”的意愿进行相关性检验,结果如下(表9 表9见本期第43页):
检验结果表明,个体活跃度与“连续使用3个”的意愿相关性不显著,这与本研究之前的猜测不符合,说明是否“连续使用3个”与个体活跃度无关。这一结论出现的原因可能是个体活跃度较高的用户在群内生产较多聊天内容的同时也生产了较多的表情符号,其使用的表情符号种类可能相比活跃度低的用户更丰富,其中可能也包含了更多不常用的表情符号。
六、结论与讨论
本文通过数据挖掘分析了微信群中表情符号的特征和传播形态。不仅发现了微信群表情符号的使用情况、使用频率和群成员的使用习惯,还初步探索了常用表情符号的影响因素以及影响群成员“连续使用3个相同表情符号”的因素,并用“自我呈现”理论进行解释。研究表明,表情符号的常用性与表意积极性显著正相关,同时表意积极性也正向影响到用户“连续使用3个相同的表情符号”,而个体活跃度与是否“连续使用3个相同表情符号”则没有显著相关性。
由于本研究选取的微信群是高校教职工的兴趣群,其在年龄的分布上具有一定的局限性。70后、80后偏多,而年轻群体较少。年轻群体的微信表情符号使用习惯与特征是否与本文研究的群体相似,还有待进一步研究。此外,本研究选取的微信社群属于半熟人社交圈,因此研究结论是否适用于其他社交群体(如陌生人社群或熟人社交圈)还需进一步研究。■
①Samovar, LarryRichard &Nemi: Understanding Intercultural Communication[M]. Wadsworth Publishing Co.1981.
②胡远珍:《网络社交中表情符号的表达与象征意义分析》,《湖北大学学报(哲学社会科学版)》2017年第6期
③[美]戈夫曼:《日常生活中的自我呈现》第3-5页,北京大学出版社2008年版
④BarbieriFrancesco ; Kruszewski, German ; RonzanoFrancesco ; SaggionHoracio:How Cosmopolitan Are Emojis?: Exploring Emojis Usage and Meaning over Different Languages with Distributional Semantics. Proceedings of the 2016 ACM on multimedia conference. 01 October 2016: 531-535.
⑤M. Boia, B. Faltings, C.-C. Musatand P. Pu: A:) is worth a thousand words: How people attach sentiment to emoticons and words in tweets. Social Computing (SocialCom)2013 International Conference. 2013: 345–350.
⑥饶广祥、魏清露:《“趣我”与浅平化:网络表情符号的传播与反思》,《福建师范大学学报(哲学社会科学版)》2018年第2期
⑦代涛涛、佐斌、郭敏仪:《网络表情符号使用对热情和能力感知的影响:社会临场感的中介作用》,《中国临床心理学杂志》2018年第3期
⑧Prada, Marília ; RodriguesDavid L. ; GarridoMargarida V. ; LopesDiniz ; Cavalheiro, Bernardo ; Gaspar, Rui: Motivesfrequency and attitudes toward emoji and emoticon use. Telematics and InformaticsOctober 2018: 1925-1934.
⑨匡文波、邱水梅:《大学生的微信表情使用行为研究》,《国际新闻界》2017年第12期
⑩Lu Xuan ; Ai Wei ; Liu Xuanzhe ; Li Qian ; Wang Ning ; Huang Gang ; Mei Qiaozhu: Learning from the Ubiquitous Language: an Empirical Analysis of Emoji Usage of Smartphone Users. Proceedings of the 2016 ACM International Joint Conference on pervasive and ubiquitous computing. 12 September 2016: 770-780.
[11][16]禹卫华:《微信群的传播分析:节点、文本与社交网络——以三个校园微信群为例》,《新闻记者》2016年第10期
[12]腾讯公司:《2018微信数据报告》2019年
[13]张彪、刘贵全:《基于关联分析的文本分类特征选择算法》,《计算机工程》2010年第22期
[14]Davis F D: Perceived usefulness, perceived ease of useand user acceptance of information technology. 198913(3):319-340.
[15]牛更枫、鲍娜、周宗奎等:《社交网站中的自我呈现对生活满意度的影响:积极情绪和社会支持的作用》,《心理发展与教育》2015年第5期
禹卫华系上海交通大学媒体与传播学院副教授,张婧怡系上海交通大学媒体与传播学院硕士生。