社交媒体全文本分析法刍议
■禹卫华
【本文提要】本文从抽样方法难以应对社交媒体海量数据的现实问题切入,比较了社交媒体全文本分析法与传统抽样方法之间的特点,探讨了二者在流程上的差异以及社交媒体全文本分析法的优势,并初步提出了社交媒体全文本分析法的概念与操作流程,也指出了这种分析方法的适用范围与使用限制,为今后类似的研究提供了一个可供参考的框架。
【关键词】全文本 内容分析法 社交媒体
【中图分类号】G206
微信公众号上的流行语分布、微博事件中的用户情绪形态、推特平台上的上海形象、脸书上的中国形象等四个课题属于传播学内容分析法的范畴,研究者如基于抽样的研究流程对上述四个课题展开内容分析的话,研究结果往往会出现明显偏差。这是因为社交媒体样本边际难以确定,采用抽样的方法往往带来挂一漏万的尴尬,而且常用的统计软件根本无法应付千万级的非结构化海量数据,这也是近年来一些内容抽样研究陷入困境的一个原因。
技术发展不仅带来内容生产的进步,也孕育了更有效的方法,尽管海量数据让研究者无从下手,但采集社交媒体数据所需要的开源代码可公开获得,研究对象的开放接口可以接入数据,分析代码越来越模块化等等,这些又为内容分析法提供了新手段,获取社交媒体全文本并进行计算已不再困难。
一、从抽样到全体:社交媒体全文本分析法的逻辑起点
传统媒体兴盛时代,有关全文本的研究也曾零星出现过,但限于当时的技术条件,研究者很少专门分析某类媒体的全文本内容,因为在传统技术条件下,研究者若完成全文本分析任务需要花费大量时间与资源,个体或者小型的研究团队根本难以支撑。一般情况下,研究者会选择某一个小切口对内容进行抽样分析,从而提高研究效率。随着技术的发展,以网络采集代码(网络爬虫)为基础的采集工具不断更新,效率不断提升,原来看似不可能的全文本获取工作如今变得相对简单。
1.数据技术实现了社交媒体的全文本采集,内容抽样的必要性在降低
在社交媒体时代,数据采集技术有了很大提高,采集与分析技术日臻成熟,研究者可通过数据抓包的形式对微博、微信公众号、推特、脸书等社交媒体平台进行数据采集,只要被采集方对接口不进行限制,数据采集方可获取被采集对象的全部数字化内容,这些数据类别丰富,既有文本内容也有社交关系,足以满足复杂的内容分析需求。社交媒体数据采集技术的进步使传统内容分析法依托的抽样方法的效用大大下降,数据自动采集代码在很多情况下可代替研究人员完成绝大多数的数据采集工作。
2.社交媒体文本的数字化特点使传统内容编码效用下降
传统内容分析法的基础工作之一是对文本进行编码,为了能够对文本内容进行量化分析,研究者需要给每个变量赋值以方便后续研究内容的展开,比如对报纸内容的分析,就要对版面位置、图片大小、版面大小等进行赋值。
在社交媒体环境下,文本呈现形态就是数字化、可计算的,因此社交媒体内容分析所需的编码工作量大大下降,以微信公众号的图文内容为例,微信公众号在发布内容时就已根据手机屏幕将文章顺序分配好了,这意味着研究者在分析这些内容时,不再需要对页面重要性排序。除了文本顺序,文本内容扩散的研究也可实现,如果研究者希望分析某一条社交媒体文本被转发的路径,可通过设定本条消息的URL,将所有相关的转发内容与评论内容完整采集下来,并通过一定的可视化工具呈现,这种处理方式在传统媒体时代几乎是不可能实现的。
3.海量数据使常用的统计分析工具面临挑战一般来讲,传统统计软件能够处理的数据都是结构化的,即可以用二维表结构来逻辑表达实现的数据。而社交媒体产生的数据本身就包括两种,一种是结构化数据,另一种是非结构化数据。面对非结构化数据,传统的统计软件则无能为力。结构化数据与非结构化数据的存储与处理差异也很大,除了处理海量文本常用的Python、R语言等工具,研究者还需要根据实际需求开发相应的分析代码。以往那种一种专业统计软件包打天下的局面很难再现了。
二、社交媒体全文本分析法的界定
1.全文本分析法的界定与形态
社交媒体全文本分析法是一种基于采集与算法工具对社交媒体上的传播内容进行完整、系统和定量描述的研究方法。属于内容分析法的一种。
有研究者已经完成了一些社交媒体的全文本类型的分析,包括社交媒体形象、社交媒体的语言趋势等等,但对这类研究至今没有一种统一的说法,本文结合新闻传播学科的特点,尝试对这类研究进行界定,并划定这种方法的适用范围(表1 表1见本期第87页)。
全文本分析法所涉及数据类型因社交媒体形态的变化而有所变化,主要包括三个部分,一是文本部分(文字、图像、视频);二是社交关系数据;三是传播效果数据。以微博为例,获取的全文本数据包括原创内容、转发内容、图像、视频等等;社交关系数据包括粉丝、关注、性别、经纬度等;传播效果包括转发数、评论数、点赞数等。此分类同样适用于推特与脸书的文本结构。
2.社交媒体全文本分析法的特点
第一,文本的完整性。全文本分析法与以往内容分析方法的差异就在于其文本完整性。数据采集代码遵循“所见即所得”的原则,在被采集方开放数据的范围内对给定的字段进行采集,在未受到反采集手段影响的情况下,可获取全文本。通过网络采集工具获得的全文本是确定的,出现缺漏现象是罕见的。
第二,文本与社交关系、传播效果数据的结合。数据采集工具在采集数据时已经将文本与社交关系、传播效果的数据全部获取,从而解决了传统媒体时代文本与传播效果割裂的问题,如报纸内容与阅读量是完全分开的。研究者在拿到文本数据的同时,也拿到了与文本内容匹配的社交关系与传播效果数据。以微信公众号的内容为例,每一篇微信公众号发出的全部文本、阅读量、点赞量等变量在定义采集字段时就已被绑定在一起了。
第三,分析更加自动化。内容分析所依托的关键词与关键词情感赋值都有完整的分词库,这也让编码员从庞杂的赋值过程中解脱出来。在分析过程中,研究者需将分词代码嵌入采集工具从而实现采集数据与分词工作同步进行。
三、社交媒体全文本分析法的流程、路径与科学表述
全文本分析法的流程具有一些传统内容分析方法的逻辑,也体现了社交媒体环境下大数据的特点,主要表现在三个方面:分析流程、路径与科学表述。
1.分析流程:数据采集——数据挖掘——可视化
全文本分析方法遵循数据采集与计算的基本流程,即“数据采集——数据挖掘——可视化”。首先是数据采集。通过数据采集获取用于分析的全文本。其次是数据挖掘,文本数据挖掘的维度有很多,分为词频、情感、趋势等几个方面,每个维度都有相关的分析工具支撑。需要指出的是,尽管前文已述编码工作强度下降,但对一些特殊文本的分词聚类的分析还是需要二次分词编码,当前对文本的深入分析还做不到完全的人工智能,依然需要研究者智慧的辅助。第三,适度的可视化。原始的海量数据不易于阅读者深入了解变量之间的关系,需要将其可视化,可选择的可视化形式很多,包括热区、时空分布、传播路线图、传播影响扩散图等等。
2.社交媒体全文本的分析路径
如前所述,对社交媒体全文本挖掘的价值在于三个方面:文本本身、文本与社交关系、文本与传播效果。基于此,全文本分析法常用的分析路径包括以下五个方面:
(1)特征分析:全文本与时间、人群的交叉分析;标题与全文的分词聚类。
(2)情感分析:全文本的情感赋值与分析。
(3)关系分析:文本与社交变量、传播变量之间的关系。
(4)时空分析:文本与社会网络结合,构建文本扩散路径与影响节点。
(5)趋势分析:结合历时数据探讨文本的流变分析。
3.全文本分析法对数据品质的表述
全文本分析法不再采用抽样方法,因此有关数据品质的表达方式也产生了变化,文本总量与数据完整率两种表述方式或许更能适应全文本的需求。
(1)文本总量。全文本分析强调文本总量的概念,研究需要列出共获得的文本总量,即实际获得的所有文本的数量。比如《上海发布》微信公众号从2014年9月30日至2015年10月1日,共有文章2019篇。
(2)数据完整率。虽然研究者每次都可拿到全部文本,但在实际操作中采集软件可能会遇到对方反爬虫技术的限制,最终呈现在研究者面前的数据偶尔会有些许误差,这种现象不能回避,问题在于多少才是能够容忍的完整率,这需要后续深入研究。
另外,全文本分析法依然沿用信度效度的概念。全文本分析法在采集技术上发生了变化,但在语义识别与情感赋值方面,依然需要人工介入,机器在这个层面尚不能代替人工对语义与情感的理解。
四、社交媒体全文本分析法的适用范围与限制
1.适用范围
全文本分析法也有一定的使用范围和主题,以下所列内容为可能的研究主题:对某个单独或者某一类文本的综合研究。比如对《上海发布》的微博、微信公众号全文本研究;也可以对某类账号进行整体研究,比如全国政务微信公众号研究等等。对某种单一变量的分析。比如全国日报类公众号的标题的整体特色、全国财经类公众号全文的分词聚类、某一条微博所有评论的分析、对某一条微博所有转发者评论内容的研究等等。某一文本或者账号的社交扩散分析。比如社交媒体研究中的文本扩散与社交关系研究,一条微博转发扩散节点对比研究;还可对某一类情绪、某一类人物、区域的形象进行研究,等等。
2.使用限制
全文本分析方法是对传统内容分析方法的一种补充,它突破了对抽样方法的依赖,减少了编码强度,提升了计算效率,但在目前的技术条件下,社交媒体全文本分析法也不能解决所有社交媒体文本的研究问题,还存在一系列使用限制。主要有以下四个方面:
(1)对视频内容的智能识别并无太大的进步。
(2)社交媒体平台的数据接口还有一些限制。
(3)图片自动识别技术有待提高。
(4)语义的识别与倾向性判别依然需要人工辅助。
结 语
社交媒体,顾名思义,有社交,又有媒体。对于社交来说,目前已有较完整的方法,即社会网络分析法,这种方法主要探讨网络上各个节点之间链接与互动关系,相关研究内容已有很多。然而,对社交媒体内容来讲,虽然研究者已经采取了全新的方法和流程分析社交媒体内容,但迄今为止,还未在研究方法上进行整合分析。本文基于近两年来已完成的近百份社交媒体全文本分析报告,综合各方专家意见尝试用社交媒体全文本分析法这一说法概括社交媒体时代的内容分析形态,希望通过对社交媒体全文本分析法的界定和分类使社交媒体的内容研究边界更加明晰,为后续相关研究提供一个参考框架。■
注释:
①[美]瑞夫:《内容分析法:媒介信息量化研究技巧》,清华大学出版社2010年版
②[美]罗素:《社交网站的数据挖掘与分析》,机械工业出版社2015年版
③[美]麦金尼:《利用Python进行数据分析》,机械工业出版社2014年版
④赵荣英、许丽敏:《文献计量学发展演进与研究前沿的知识图谱探析》,载《中国图书馆学报》2010年第5期
禹卫华/上海交通大学媒体与设计学院副教授。
本文为国家哲学社会科学课题《微博客舆情监测与主动引导机制研究》(11CXW034)成果。