打开算法分发的“黑箱”
——基于今日头条新闻推送的量化研究
■王茜
【本文提要】算法分发逐渐成为网络新闻主要的分发方式。本文以算法分发模式的先行者——今日头条为研究对象,运用内容分析法考察了算法自动化选择和衡量新闻价值客体的标准。通过分析77位用户的8000多条新闻推送,本文指出,今日头条算法价值观念主要包括四个要素:场景、内容、用户偏好和平台优先级。这些标准内嵌于代码编写与设计之中。
【关键词】算法 新闻客户端 画像 信息茧房
【中图分类号】G206
一、研究缘起
中国互联网络信息中心(CNNIC)在第38次报告中指出,基于用户兴趣的“算法分发”逐渐成为网络新闻主要的分发方式。①随着算法渗透用户的媒介消费日益加深,作为算法分发模式先行者的聚合新闻客户端今日头条受到业界和学界瞩目。截至2016年10月底,今日头条已经累计有6亿的激活用户,1.4亿活跃用户,每天每个用户平均使用76分钟。②
今日头条称其“没有采编人员,不生产内容,没有立场和价值观,运转核心是一套由代码搭建而成的算法”。③由算法驱动的个性化资讯分发暗含这样的逻辑,“你是谁”决定了“推荐给你什么内容”,这一决策的制定过程是在“黑箱”中进行的。用户的个人信息和数据成为输入信号,源源不断地被收集、储存、分析,并影响随后的信息消费。
新闻价值观念是指新闻主体用来选择和衡量新闻价值客体的标准。④“编辑分发”模式,新闻价值观念主要体现在新闻从业人员的实践(如新闻筛选、排序、版面设计)或新闻机构的内部规范之中;而“算法分发”模式,新闻价值观念则内嵌于代码的设计和编写之中。记者、编辑等传统把关人在进行信息筛选时所遵守的职业规范和新闻伦理并不约束算法工程师或程序员,而后者所从事的工作则深刻影响着新闻生产、分发和消费。据此,本文提出算法价值观念这一概念,将其界定为“算法用来自动化选择和衡量新闻价值客体的标准,这一标准往往内嵌于代码编写与设计之中”。本文以今日头条为研究对象,试图揭开算法运作的神秘面纱,从而更好地把握“编辑分发”向“算法分发”中出现的问题,并为已有研究提供新视野和新路径。
二、文献综述
在讨论算法分发之前,首先需要厘清:什么是算法?学者给出了这样的定义:“算法是为了解决问题而输入机器的一系列指令。” ⑤从广义上讲,算法是一种编码程序,通过特定的运算把输入数据转化为输出结果。有学者做了形象的比喻:如果我们把数据比作食材,那么算法就是食谱;只有遵循食谱所设立的步骤和指令,按照要求筛选和搭配食材,才能做出指定口味的菜肴。⑥从这个角度看,按照指令做出来的是垃圾食品还是营养均衡的菜肴,算法发挥着重要作用。
在大数据时代,庞大的数据带给算法巨大的权力。英国文化研究专家斯科特·拉什(Scott Lash)强调:“在一个媒体和代码无处不在的社会,权力越来越存在于算法之中”。⑦受此启发,大卫·比尔(David Beer)提出了“算法的权力”(power through the algorithm)概念,认为它体现在两个方面:第一,在于算法发挥的功能,包括分类、过滤、搜索、优先、推荐、判定;第二,算法这一概念本身具有文化内涵,即基于算法的决策常常被认为是理性、中立、高效、值得信赖的。⑧也有学者对此提出不同看法,认为算法本身并不具有社会权力,而是算法联合(algorithmic associations)在发挥作用。算法运作过程中会和“规则、人、过程、关系”等相互作用,因此要特别考虑算法的情境性(situatedness)。⑨人与非人因素的交织、相互作用正是“行动者网络理论”(actor-network theory)的核心思想。学者姜红和鲁曼使用这一理论,指出算法、专业新闻机构和用户这些行动者共同编织着一张传播之网。⑩
无论是算法自身,还是算法联合,都深刻影响着新闻业。迈克尔·德维托(Michael DeVito)考察了Facebook的算法运作机制,通过对其公开发布的专利、新闻稿、博客等进行内容分析,德维托概括出九大算法价值要素:朋友关系、用户公开表达的兴趣、用户先前的参与、用户含蓄表达的偏好、发布时间、平台优先级、页面关系、用户的负面表达、内容本身的质量。[11]这些要素和编辑分发主要依赖的新闻价值要素存在显著差异,而有关这些差异及其影响的讨论在国内学界较为缺乏。
目前国内学界有关算法分发的文献以质化研究居多,少量量化研究主要以个人观察为主,容易受主观因素的影响。[12]为了弥补量化研究的不足,本文采用内容分析法来考察内嵌于今日头条代码编写与设计中的算法价值观念。具体而言,本文力图探讨的问题是:
RQ1:今日头条的算法用来自动化选择和衡量新闻价值客体的标准是什么?包含哪些要素?
RQ2:算法分发会造成信息窄化吗?如是,窄化到什么程度?
三、研究设计
(一)对今日头条公开材料的内容分析
笔者首先搜集了今日头条创始人张一鸣的公开演讲、传统媒体采访、期刊文章,以及今日头条官方宣传片等公开材料。经分析,笔者发现今日头条算法分发模式主要在一篇文章和两次公开演讲中得到了详细阐释。
在《机器替代编辑?》一文中,张一鸣介绍了今日头条的推荐机制:“当用户绑定微博登录后的5秒钟之内,系统会为用户建立起一个DNA兴趣图谱。这个图谱类似于一个数学模型,主要根据用户SNS账号上的标签、关注人群、好友、评论/转发、收藏等数据,以及用户的手机、位置、使用时间等数据提取而来。” [13]2015年1月,张一鸣在极客公园创新大会上发表主旨演讲,指出今日头条主要使用有关用户的以下数据来进行信息推荐:动作特征(包括点击、停留、滑动、评论、分享)、环境特征(包括GPS定位、是在Wifi环境还是3G环境、是否为节假日等)和社交特征(例如微博的关注关系,历史上发的微博)。[14]2016年11月,张一鸣在第三届世界互联网大会上表示,人工智能在今日头条个性化推荐里的三个关键之处是个性化、泛化和数据积累。其中,泛化是指把一个人的推荐泛化到其他有共同特质的人身上。[15](二)对用户新闻推送的内容分析
尽管今日头条声称其没有价值观,然而出现在用户手机通知栏的每一次主动新闻推送(push)都是某种算法价值观念指导下的产物。因此,除了对今日头条公开材料进行内容分析之外,笔者也试图考察算法优先为用户推荐了哪些信息。
笔者召集了两个班级共90名郑州大学学生进行为期三周的新闻推送记录。参与者需要使用各自的社交账号登录今日头条客户端,记录以下内容:今日头条2017年4月10日至30日期间每日推送的新闻标题、时段、新闻发生地点。与此同时,参与者需要提供年龄、性别、社交账号类型(QQ、微博、微信)、手机型号、兴趣标签等信息。之所以选择大学生参与,是因为笔者能够对该群体进行统一协调,有助于减少记录过程中出现的差错。此外,该群体年龄相仿、专业相同,具有一些共同特质。如果他们的新闻推送存在显著差异,更能够体现出今日头条新闻推荐的个性化程度。
四、数据结果及分析
经核实,13位参与者的新闻推送记录出现缺项、事实性错误等问题,被排除在分析之外。最终,笔者分析了77位参与者共8637条新闻推送,其中男生12人,女生65人。这些新闻中,有的被推送给多人,有的仅仅推送给单个人,覆盖率(单条新闻出现的频次除以总人数)有所不同。删除掉重复项后共得到1894条新闻。如(图1 图1见本期第9页)所示,888条新闻被推送给单个人,今日头条新闻推送的个性化程度较高。这些新闻推送涵盖了时政、国际、军事、社会、娱乐、生活服务、科技、台湾、财经、体育、游戏等类型。此外,一些非新闻类资讯也出现在推送之列,后文将作具体分析。
(一)今日头条算法价值观念四要素
在内容分析的基础之上,笔者总结出今日头条算法价值观念的四要素:场景、内容、用户偏好和平台优先级。
1.场景
移动传播的本质是基于场景的服务,即对场景(情境)的感知及信息(服务)适配。[16]在本文中,场景因素主要表现为本地新闻的高覆盖率。如表1所示,覆盖率50%以上的新闻中,本地新闻占一半以上。“洛阳原书记被控收受1.48亿”这条新闻被推送给52名参与者,覆盖率最高。
接近性是新闻价值五要素之一,而LBS(基于地理位置的服务)、物联网等技术为更精准的信息适配提供了技术支持。今日头条推送了九条有关郑州大学的新闻,其中“郑州大学校运会开幕式大观”“郑大与郑州舰签订双拥协议”,以及“郑大校内柳絮纷飞”的覆盖率分别达到48.05%、42.86%和33.77%。此外,42位参与者曾在晚间收到今日头条推出的“夜宵”新闻,即一组当天发生的要闻集锦。这也是根据场景因素,即用户的作息习惯,而进行的算法分发。
2.内容
尽管今日头条声称其没有价值观,然而,本文研究发现,具有重要性、冲突性以及流行度的内容更容易通过算法筛选过程并进入用户视野。
媒体人吴晨光曾介绍新闻客户端的推送规则:“当新闻足够重大时,可从不同的角度Push多条,形成持续关注度”。[17]重要性是新闻推送的准则之一。在为期三周的时间里,参与者收到最多的新闻类型是军事新闻(28.63%)。笔者把所有军事新闻标题导入“清博词频统计工具”,导出结果显示“朝鲜”一词出现频次最高。在记录期间,朝鲜核问题、萨德问题是国际社会关注的热点议题,今日头条对各方回应、事件发展动态进行了持续推送。
参与者收到的社会新闻(27.67%)排名第二,其次是时政新闻(13.59%)。笔者分别统计了这两类新闻标题的词频。如(图2、图3 图2、图3见本期第11页)所示,有关凶杀、强奸、车祸的社会新闻,以及有关官员落马、贪污腐败的时政新闻更易得到今日头条算法的推荐。这些新闻都具有较强的冲突性,包括人与人之间的冲突、官员落马前后形成的反差等,易吸引人眼球。
娱乐新闻(10.76%)占比排在第四位,余下的新闻类型占比均在10%以下。如(表1 表1见本期第10页)所示,今日头条为50%以上的参与者接连推送了“白百何出轨”事件。在为期三周的时间里,每位参与者平均收到5条有关该事件的新闻推送,最高者收到12条相关推送。由此可见,具有流行度的新闻也会得到今日头条的优先推荐。这一发现与杰姆斯·韦伯斯特 (James G. Webster)的研究结果相符,即搜索引擎、社交网络、协同过滤系统等在进行信息推荐时都倾向于把“流行度”(popularity)作为消费指南。[18]3.用户偏好
“你关心的,才是头条”这一广告语显现了今日头条对用户偏好的注重。受尼尔·瑟曼(Neil Thurman)研究的启发,本文把用户偏好分为两种类型:第一种是用户主动表达的偏好(explicit preference),包括点赞、评论、收藏、关注、转发、搜索、屏蔽。第二种是指用户含蓄表现出的偏好(implicit preference),主要是指媒介组织通过搜集和分析用户数据而推导出的偏好。[19]这些数据包括用户的注册信息、社交账号、GPS定位、IP地址、使用的手机型号等等。分析结果显示,今日头条给每位男生平均推送了18.38条体育新闻,给女生则推送了1.53条。由此可见,性别等人口统计学特征也被用于推测用户偏好。
值得指出的是,将于2018年5月在欧盟正式实施的《一般数据保护条例》(General Data Protection Regulation,简称GDPR)第22条规定:“数据主体应该拥有以下权利,即不受仅仅基于自动化处理(包括画像)所做出决策的制约,如果该决策会为他或她带来法律后果或其他显著影响。” [20]本文认为,今日头条所进行的画像显著影响了用户的信息消费。GDPR条例第4条对“画像”(Profiling)进行了明确定义:“指任何通过自动化方式处理个人数据的活动,该活动服务于评估个人的特定方面,或者专门分析及预测个人的特定方面,包括工作表现、经济状况、位置、健康状况、个人偏好、可信赖度或行为表现等。” [21]在本研究中,参与者收到的新闻推送在很大程度上反映了今日头条算法对“用户特定方面”的评估,包括位置、个人偏好、性别等。
今日头条有多了解我们呢?曾经有研究者分析了5.8万名志愿者Facebook上的点“赞”,据此推测出了一系列高度隐私的个人特质,包括性取向、种族、政治观点、个性特征、智力情况、快乐程度、上瘾物的使用、父母离异、年龄和性别。[22]可以预见的是,随着物联网、人脸识别等技术的快速发展,算法将积累越来越多的用户数据,变得越来越“智能”。与此相伴随的是“谁来约束算法”的问题。
4.平台优先级
德维托分析指出,平台优先级(Platform priorities)是影响Facebook信息流呈现的因素之一,例如Facebook会在用户信息流中优先呈现自己平台上的视频而非YouTube上的视频。[23]分析发现,平台优先级也是今日头条算法价值观念的要素之一。
如前所述,今日头条把一些非新闻类资讯也推送给了用户,共有47条。这些资讯涵盖了以下类型:头条问答(例如“为什么说千万不要一个人吃海底捞?”)、图片(例如“老照片:30年前的河南嵩山少林寺”)、短视频(例如 “找些废品,在家动动手,这么高大上的东西你也可以拥有”)、人物故事(例如“数学天才18岁被保送北大,三次创业三次成功,连追女友都是算概率”)。这些非新闻类资讯均来源于今日头条的自媒体平台——头条号。
张一鸣曾表示:“传统媒体是把观点告诉别人,今日头条是提供实用信息,比如给养猪专业户提供更好的养猪信息,告诉强直性脊柱炎病人如何治疗。传统媒体是传递价值观,我们只是让有益的信息到达个体。” [24]作为一家商业公司,今日头条的运转核心——“一套由代码搭建而成的算法”——会受到公司整体战略布局的导向和影响,并优先推荐本平台生产的内容,无论内容本身是不是传统意义上的新闻。
最后,本文试图勾勒出一幅关于今日头条算法价值观念的图景(表2 表2见本期第12页)。上述分析和讨论回答了RQ1。
(二)千人千面:没有两个人收到完全相同的新闻推送
RQ2关注信息窄化问题。通过对77名参与者收到的新闻推送进行内容分析发现,今日头条采用的算法分发做到了“千人千面”,没有两个人收到完全相同的新闻推送。那么,对个性化的强调和推崇会造成信息窄化吗?在本文中,笔者将信息窄化界定为:单一类型新闻推送占比超过50%。如表3所示,11名参与者的新闻推送存在窄化现象。以A同学为例。他是今日头条的老用户,无论是动作特征还是社交特征都表明他对NBA感兴趣。将A同学收到的新闻推送标题导入“清博词频统计工具”,结果显示,出现频次最高的名词分别是火箭(12次)、骑士(10次)、威少(9次)、季后赛(9次)和快船(8次),全部和NBA有关。
由于每天新闻推送过多有打扰用户之嫌,因此强调某些新闻类型的同时,其他类型会相应弱化。据统计,在为期三周的时间里,49位参与者从未接收到体育新闻推送,14位参与者从未接收到有关台湾地区的新闻,32位参与者从未接收到科技新闻推送,16位参与者从未收到财经新闻推送。这一现象值得关注,因为CNNIC报告显示,在手机推送时才关注新闻的网民占比为26.7%。[25]今日头条有1.4亿活跃用户,这意味着大约3000万用户的新闻消费依赖手机推送。在此,手机推送发挥了“界面代理人”(interface agent)的角色,行使信息筛选权力。该过程直接影响用户的信息消费,然而已有研究显示,大多数用户并不了解个性化算法的运作机制。[26]面对这种信息不对等,即算法积累了大量有关用户的数据,而用户对此毫不知情,提高用户算法素养变得重要且必要。
五、结语
综观近年来国内网络新闻市场的变化,媒体平台对个性化新闻推荐和算法分发愈加重视。随着把关权力从人工编辑向智能算法让渡,传统的新闻价值观念已经不能很好地解释当前业界的新动态和新趋势。在此背景之下,本文提出算法价值观念这一概念,并概括出四大构成要素:场景、内容、用户偏好和平台优先级。此外,本文讨论了信息窄化问题,发现14%的参与者收到的单一新闻类型占比超过50%。笔者继而强调了提高用户算法素养的必要性。
本文尚存一些不足。首先,由于样本量较小,推导出的算法价值构成要素可能存在偏差。例如,内容的流行性有可能仅仅针对90后群体,而非适用于所有年龄层的用户。其次,本文的结论主要依赖于对今日头条算法分发的考察,未把其他聚合类新闻客户端(例如天天快报、一点资讯)纳入讨论范围。面对激烈的市场竞争,各个聚合类新闻客户端所进行的代码设计和优化将趋于开放还是趋于封闭?不同客户端遵循的算法价值观念有何异同?这些有待于在进一步的研究中改进。
张一鸣曾在多个场合提到今日头条的发展目标,“帮用户更好地发现信息” [27] “让信息和人更快匹配” [28] “增加信息的吞吐量和分发效率” [29]……叶夫根尼·莫罗佐夫指出了这种“解决方案主义”的不足:“这些新过滤器可能会更快、更廉价和更有效率,但速度、成本和效率,与这些过滤器和算法在我们生活中扮演的公民角色只有浅表的联系。不对其进行应有的严密伦理审查,我们就有可能犯解决方案主义的错误,为不太重要的问题的改进欢呼雀跃,而对更重要问题的严重恶化却完全忽视。” [30]需要我们重视的“严重恶化问题”包括画像对用户隐私的侵犯、算法偏见和歧视、算法短视、人文价值的缺失等等。因此,在拥抱算法这一“热”趋势的同时要进行“冷”思考,考虑算法分发对用户信息消费及公共领域的实际影响,并提高算法运作的透明性和社会责任感。■
①中国互联网信息中心:《中国互联网络发展状况统计报告》第29页,2016年7月
②[15][29]张一鸣,世界互联网大会主题演讲,2016年11月17日
③关于头条:http://www.toutiao.com/about/
④杨保军:《新闻价值观念与新闻价值创造》,《国际新闻界》2003年第3期
⑤Andrew Goffey, “Algorithm,” in Matthew Fuller, eds.Software Studies: A LexiconCambridgeMA: MIT Press2008pp.16.
⑥Willson, Michele. 2017. “Algorithms (and the) Everyday.” InformationCommunication & Society 20 (1): 137–50.
⑦LashScott. 2007. “Power after Hegemony:Cultural Studies in Mutation?” Theory, Culture & Society 24 (3): 55–78.
⑧BeerDavid. 2009. “Power through the Algorithm? Participatory Web Cultures and the Technological Unconscious.” New Media & Society 11 (6): 985–1002.
⑨Neyland, Daniel, and Norma M?llers. 2017. “Algorithmic IF…THEN Rules and the Conditions and Consequences of Power.” InformationCommunication & Society 20 (1): 45–62.
⑩姜红、鲁曼:《重塑“媒介”:行动者网络中的新闻“算法”》,《新闻记者》,2017年第4期
[11][23]DeVito, Michael A. 2017. “From Editors to Algorithms.” Digital Journalism 5 (6): 753–73.
[12]王茜:《论个性化信息推荐系统的运作逻辑及影响》,《郑州大学学报(哲学社会科学版)》,2017年第1期
[13]张一鸣:《机器替代编辑?》,《传媒评论》2014年第3期
[14]张一鸣:《机器学习能带来更有趣的世界吗?》,极客公园创新大会主旨演讲,2015年1月17日
[16]彭兰:《场景:移动时代媒体的新要素》,《新闻记者》 2015年第3期
[17]吴晨光:《超越门户:搜狐新媒体操作手册》第48页,2015年版
[18]Webster, James G. 2011.“The Duality of Media: A Structurational Theory of Public Attention.” Communication Theory 21 (1): 43–66.
[19]Thurman, Neil. 2011. “Making ‘The Daily Me’: Technology, Economics and Habit in the Mainstream Assimilation of Personalized News.” Journalism: Theory, Practice & Criticism 12 (4): 395–415.
[20][21]Regulation (EU) 2016/679 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation) [2016] OJ L119/1.
[22]KosinskiMichal, David Stillwelland Thore Graepel. 2013. “Private Traits and Attributes Are Predictable from Digital Records of Human Behavior.” Proceedings of the National Academy of Sciences of the United States of America 110 (15): 5802–5.
[24][28]张一鸣、谢鹏:《文科生爱自由,理科生爱效率》,《南方周末》2015年8月11日
[25]中国互联网信息中心:《2016 年中国互联网新闻市场研究报告》第2页,2017年
[26]PowersElia. 2017. “My News Feed Is Filtered?” Digital Journalism, February, 1–21.
[27]汪再兴、陈文希:《张一鸣:禁区闯入者》,《博客天下》2014年第166期
[30][白俄罗斯] 叶夫根尼·莫罗佐夫:《技术至死:数字化生存的阴暗面》,电子工业出版社2014年版
王茜/郑州大学新闻与传播学院讲师。本文为郑州大学青年教师科研启动基金项目成果。本文初稿曾参与浙江大学国际前沿传播理论与研究方法高级研修班论文工作坊,并在此基础上修改而成。