搜索引擎中的新闻呈现:从新闻等级到千人千搜
■方师师
【本文提要】本文以谷歌搜索引擎中的新闻呈现为例,讨论影响用户搜索引擎使用的技术要素与社会机制。谷歌通过新闻等级体系建立起了网页间的静态秩序,新闻媒体主动采用搜索引擎优化技术配合技术呈现,而基于用户使用惯习和社交关系的搜索算法则带来了千人千搜。搜索引擎的社会意义在于,其在海量的信息环境下重新定义了真相,通过主动反馈用户搜索结果进行“有文化依据的组织形式重构”,促进了一种新的“混合价值”的生成,既结合了传统的社会与文化目标又提供了新的机制。但搜索引擎建立起来的知识-社会秩序并没有带来更高的知识水平,而是具有一种“膨胀的知识感”。
【关键词】搜索引擎 新闻等级 搜索引擎优化 千人千搜 社会意义
【中图分类号】G210
搜索引擎(Search Engine)是一些最常被访问的在线网站,①人们通过搜索引擎服务来寻找有关时事、健康、产品、政府服务、自然灾害、新邻居、未来雇员等信息,从严肃的政治新闻到世俗的娱乐八卦,涉及多种主题。搜索引擎被认为是利用信息环境的规律性快速而简便地处理复杂情况的一种方案:通过预估满足用户信息需求的概率来对搜索结果进行排序,从而减少搜索者的认知努力和时间成本。②世界上最为著名的搜索引擎有谷歌、必应(Bing)、雅虎和百度等,最近一些社交媒体和移动应用也开始入场搜索,③比如脸书的社交媒体搜索、④微信的会话聊天搜索框和“搜一搜”、⑤微博搜索、⑥输入法搜索⑦等。
搜索引擎处于互联网经济的核心,每天引导着数十亿的互联网用户访问位于搜索结果页面顶部的网站。作为互联网的入口和导流口,搜索引擎持续不断且影响深远地塑造着人们接触信息的方式和效果。以谷歌为例,作为世界上最为普及的搜索引擎,截至2018年第一季度,谷歌占据了美国63.5%⑧和全球近90%⑨的搜索市场份额。在谷歌上,每秒有6.3万次搜索,一天可以达到55亿次,⑩全年至少有2万亿次。[11]2014年,大约一半美国人是通过搜索引擎获取消息的,[12]谷歌是美国最受认可的新闻网站的主切入点。[13]2017年,牛津路透新闻研究所发布的《数字新闻报告》显示,世界范围内有65%的用户愿意通过“非直接”的途径获取新闻,其中排名第一的是搜索引擎(25%),其次是社交媒体(23%)。[14]搜索引擎如此重要地决定着用户的上网信息接触,但其本身的运作机制却较少被关注。2012年美国皮尤研究中心的调查显示,73%的搜索引擎使用者认为,“大多数用搜索引擎得到的信息是真实且准确的”。[15]2007年一项眼动追踪实验结果显示,大学生用户对谷歌依据查询的真实相关性(true relevance to the query)对结果进行的排名能力深信不疑,并强烈偏向于排位较高的链接,即使该内容与搜索关键词相关性较低。[16]2015年一篇关于搜索引擎操纵效应(search engine manipulation effect, SEME)的研究对来自美国和印度的4500名参与者进行的五项双盲随机实验显示,谷歌可能存在搜索引擎操纵行为,其带有偏向的搜索算法可以很容易地改变摇摆选民超过20%的投票偏好,在某些群体中这一改变甚至可以达到80%,但几乎没人知道他们正在被操纵。[17]另外,受益于搜索引擎提供的便捷服务,用户会过度信任搜索结果,这种误导性的信任会加剧信息的非均衡分发,[18]形成“信息茧房”和“过滤泡”,推动错误信息的传播。
搜索引擎中的结果呈现集中体现了互联网公司与网页/内容生产者围绕网络结构和用户使用展开的最为广泛的斗争。当前新闻业正经历第三次浪潮,平台型媒体崛起,算法主导在线内容审查,产品设计潜藏价值观,信息的社会化生产带来多重事实。[19]尽管网络技术为新闻业未来的发展提供了令人期待的可能,但这是一种“双重可能”:一端是更为广泛的信息传播的民主化和去中心化,另一端则是以牺牲公共利益为代价的被特殊利益殖民化。一个颇为棘手的问题是:在新闻业逐渐走向开放的过程中,传统新闻业赖以为生的“基于事实基础上的现实建构”正面临着全面的挑战,[20]这其中也包含来自像谷歌这样的互联网公司所形塑的新的“知识权威”。搜索引擎作为一种将内容、用户兴趣和传播环境连接并完成闭环的技术手段,建构的是另外一种“社会学知识”(sociological knowledge)。知识社会学认为,秩序与知识是一体两面的,改变知识就是改变秩序。“社会学知识回旋进出于社会生活领域,并作为该过程的一个部分,重构其自身及该领域的社会生活”。[21]那么人们通过搜索引擎获取的知识,是否也构成了一种新的知识-社会秩序?
目前关于搜索引擎的社会影响研究主要涉及政治、社会、经济和文化四大面向,主要是从政治、法律和经济的制度视角,信息行为的实证研究以及社会、文化与哲学的伦理反思三个维度切入。[22]讨论的问题涵盖搜索引擎的使用者研究,使用目的研究,使用技能分布,是否所有计算机媒体内容都有相同的机会被列入工具结果列表中,能否明确它们是被操纵等等,[23]也有较少的研究关注搜索引擎的“非技术”问题,比如运行它们的公司或依赖它们的用户等。而对于搜索引擎偏见(search engine bias)、搜索依赖、搜索引擎操纵效应、“过滤泡”等问题的后续研究也发现,搜索引擎对人们生活中诸多关键决定都具有重大影响,但其社会影响形式却是隐形的,讨论这个问题需要有较高的准入条件。考虑到资料来源的丰富程度和信息搜索的透明程度,本文以谷歌搜索引擎中对新闻的呈现为例,从批判算法研究(critical algorithm studyCAS)中对于搜索引擎的研究视角入手,采用混合研究的方法,综合谷歌算法专利、搜索引擎排名因素调查等内容,尝试讨论三个问题:
第一,搜索引擎中的新闻呈现,受到哪些要素的影响?其核心的技术机制是什么?
第二,搜索引擎的产品设计价值是什么?存在着怎样的技术-社会互动?
第三,搜索引擎如何重新定义真相?对于知识-社会秩序具有怎样的影响?又建构了怎样的社会意义?
一、网页排名算法中的新闻等级体系
采用搜索引擎进行信息检索的过程主要通过三方进行:网页作者、搜索引擎以及搜索用户。网页作者将他们的网页与其他网页进行适当链接,这种链接结构被流行的搜索引擎算法捕捉并对相关的网页进行排名。用户根据他们对搜索引擎的任务和功能的理解,输入各种关键字和布尔命令,然后评估由搜索引擎返回的结果,以决定是否选择返回的结果或重新构造查询。[24]搜索引擎充当了信息中介,把控信息在搜索过程中的流动。
对于网页搜索的衡量通常会引入两个主要的指标特征:可检索性(retrievability)与可见性(visibility)。由于网页显示具有有限性,因此大量的页面和站点并不会因为可被检索就一定可被见,但大量主导性的研究假设依然认为,可检索性将无可避免地转化为可见性。也有研究认为这两者之间存在比较大的区别:比如谷歌的排名算法PageRank,主要是采用页面的链接度量来帮助了解页面的质量和相关性,[25]但这样的算法只是建立了一个“丰富的螺旋”,只有少数站点占据了顶级序列。[26]在谷歌的排名算法中,与新闻排名关系最为密切的是一个叫做“用于改进新闻文章分级的系统和方法”(systems and methods for improving the ranking of news articles)的算法专利,该专利详细说明了谷歌对新闻文章的排名指标以及相关算法。[27]虽然谷歌在问询电子邮件中回复“专利申请不代表产品实际操作”,但普遍意义上认为,专利可以表征谷歌的在线内容排名遵循的是何种逻辑,哪些指标决定了什么样的新闻可以被放在谷歌产品的显著位置。
首先,谷歌认为对于新闻文章的分级是必要的。这一观念的出发点看似简单,实际上简明扼要地说明了排名的重要性与必要性。通过分级和排名,谷歌为互联网上的每个节点建立了自己的专有价值体系,这是全球第一个具有共同智慧的系统。[28]而用户在使用搜索引擎的时候,将一个或多个感兴趣的关键词输入搜索框中,就是试图在这一系统中定位已发布的与该主题相关的文章的新闻源价值位置。搜索引擎定位了与期望主题相关的新闻文章的各个站点,从而产生成百上千或者更多的点击分级列表,每个点击都可能与涉及这个或多个搜索项的网页页面相对应。尽管分级列表中的每个点击可能涉及相关主题,但与这些点击相关联的新闻源可能都具有不同的质量。因此,需要系统和方法来衡量新闻文章的质量和新闻源的质量。
其次,谷歌通过多种指标衡量新闻文章质量。在这项专利中,谷歌提到运用13项度量指标来对其他网站的新闻文章内容进行排名。依据谷歌自身对于衡量指标的逻辑,内容要素和新闻源的相关要素等度量指标可以分为两大类,即内容质量和新闻源质量。(表1 表1见本期第48页)
第三,谷歌采用多种算法评估新闻源等级。谷歌的PageRank排名算法还部分基于确定的一种或多种度量值来计算新闻源的质量值,即新闻源等级。对于新闻内容的排名,不仅需要衡量信息本身,还需要衡量信息源的数量和质量,PageRank排名算法就是试图将这种判断加以量化和可操作化。网页上的度量值瞬息变化,但其新闻来源则相对固定,通过对新闻源等级的评定,排名算法可以更快地计算出高质量内容的来源,已经确定的新闻源等级可以存储在服务器上,以备需要时调用。
对于新闻源等级的确定有单一指标和组合算法两种方式。比如在单一指标方面,可以通过原创文章数或原创句子数来衡量新闻来源的质量;用“故事规模得分”确定某机构一周、一个月或更长时间内撰写原创文章的重要性;通过衡量新闻源发布重大事件报道的速度来确定突发新闻得分;通过故事提及的人物数量来衡量新闻机构尤其是尚未受到广泛关注的媒体制作的品质、原创内容的能力等。包括内容质量在内的13种度量指标都可以被组合起来计算新闻源的等级分数。例如,每种度量可以乘以相应的因子,产生的值可以总计得出新闻源的源等级值;或者每种度量可以归入0到1的范围内,所产生的值经过加总得出最终的度量值;还可以计算新闻源的各种度量平均值等。
哥伦比亚大学新闻学院谢瑞睿教授(Sree Sreenivasan)认为,技术世界有很多不透明之处,此项专利申请可以让人了解像谷歌这样的公司是如何选择在线内容并对其排名的。他指出,谷歌用来判断新闻来源质量的某些指标,跟编辑用来确定出版物是否值得信任的标准是一致的。[29]这些标准关注信息内容在基本事实层面准确与否(包括是否可以核实,是否经过交叉对照,是否可以重复验证等),消息源的资质(包括信源的可信度、透明度、权威性、机构属性等),尽可能区分事实与观点并平衡不同观点等,这些构成了传统媒体赖以存在并支撑其职业体系与专业度的基石。
2018年3月,当时处于假新闻、后真相漩涡中的脸书正面临严重的信任危机,脸书为此更新了算法,大规模减少了来自第三方机构推送给用户的内容和流量,而第三方机构很多都是媒体,由此引发了媒体机构对于脸书的强烈不满。与之相反,谷歌却在此时推出了“谷歌新闻倡议”(The Google News Initiative)项目,称要为“新闻业构建一个更加强劲的未来”。[30]这个未来包括:鼓励优质新闻,稳定媒体收入,保持数字新闻生态系统开放,采用新技术提供新机会,合作共赢。谷歌声称会在三年内投资3亿美元支持在线优质内容生产,扶持高等级的新闻源成长,为记者提供更好的数据工具和工作机会。谷歌通过对于这些标准和惯例的借鉴与采纳,在一定程度上既顺应了已有的信息传播格局,同时又将其组合进了自身对于互联网塑形的传播实践中,而这对于谷歌逐渐建立起自身的信息内容秩序并且树立文化权威具有重要意义。
二、利用算法规则进行的“搜索引擎优化”
谷歌对于新闻文章和新闻源等级的排名算法设定了媒体网站相对静态的链接排序,但这一序列并非恒定,更不是不可改变的。除了谷歌本身对于算法的实时调整,新闻机构同样可以利用这套算法规则,主动提供符合算法口味的网页链接和内容。根据科技公司Parse.ly的统计,截至2017年底,谷歌为新闻网站引入的流量占到总流量的26%。[31]对于新闻网站来说,只要搜索引擎可以持续为网站带来大规模流量或仍然是主要流量导入口,那么搜索结果页面上的可见性和高排名就至关重要。[32]通过对搜索排名算法仔细研究和进行逆向工程,将机构网站的链接提升到特定搜索条件的顶部,这将大大有助于为自家网站导流。这一技术称为搜索引擎优化(Search Engine Optimization, SEO),现在已经发展成为一个价值数十亿美元的产业,根据新美国智库2018年的报告,目前网站在优化原生搜索结果上的投入是其购买搜索广告开销的3倍。[33]SEO构成了搜索引擎营销(Search Engine MarketingSEM)的一部分,它定义了如何通过构建链接和编写内容来增加网站搜索相关性的各个步骤。[34]在Search Engine Land等网站上,用户和机构可以轻松找到各种指导培训手册,也可以下载和编写相关程序。而作为在线营销领域最前沿也是最具影响力的活动之一,基于SEO的内容营销正在成为新闻业界公开的运营策略。
1.SEO策略成为媒体网站引流增粉利器。互联网经济中,用户意味着流量,流量代表广告。由于谷歌是众多互联网用户的入口,通过SEO提升自家网站在谷歌搜索引擎结果页面(Search Engine Result Page, SERP)上的排名,继而引入更多流量已经成为众多网络出版商痴迷的方法。比如Demand Media可以通过软件查看搜索引擎的结果,然后结合脸书和推特上的活动创建头条新闻,指派职业作家投其所好创作内容。《纽约时报》 曾撰文批评《赫芬顿邮报》的内容SEO是“诱导读者”:《赫芬顿邮报》的工作人员日夜轮班监测网站流量,通过“实时流量分析系统”找出在网络上快速传播的内容,进行测评后根据结果调整自己网站的内容。根据Hitwiese网站的流量统计,《赫芬顿邮报》有35%的流量来自谷歌搜索引擎,相比之下CNN只有20%。[35]《基督教科学箴言报》网络版在采用了SEO策略之后,每月的页面访问量从300万飙升至2500万。[36]2.新闻生产开始围绕SEO要素重新整合。对于媒体来说,SEO在过去几年中作为新兴的生产规范进入新闻编辑室,对新闻工作流程产生直接的影响,也给媒体从业人员带来了新挑战。SEO重新定向和定义了新闻的制作流程,内容生产开始围绕点击率、流量和SEO的各个要素整合,之前“上不了台面”的SEO策划人,而今已经成为最受尊敬的SEO出版人。[37]2008年7月,英国的《每日邮报》任命了一名SEO经理,《卫报》在同年成立了搜索引擎优化团队。2009年BBC在了解了SEO的价值后,设立了专业的SEO记者岗位并开始实施“双标题系统”:记者需要为头版写一个31-33字的短标题,同时为故事页面和搜索引擎再写一个可以有55个字符的长标题,目的就是为了在标题中添加更多关键词以容易被搜索到。[38]而《赫芬顿邮报》将这个策略做到了极致:在《赫芬顿邮报》网站上,一篇文章或一段视频下会有十几到几十个关键词或者标签,这些词语可能只是略有不同,颠倒一些词序,单复数差别等,但这样做的目的是试图通过标签把所有可能的搜索词都囊括其中,确保用户在搜索时都能成为《赫芬顿邮报》的流量来源。
3.“社交信号”成为媒体积极的SEO策略。按照谷歌的说法,“创建引人注目且有用的内容可能比任何其他因素更能影响网页链接的排名”。[39]然而平台媒体的崛起使得社交媒体被建构为共享和消费新闻的空间,积极的社交媒体战略已成为媒体行业的必需品。随着互联网的发展,搜索引擎变得更加智能化,可以将社交内容纳入其搜索结果并使用社交网络。2010年,谷歌和必应都承认使用社交信号来帮助提升搜索结果排名,比如Google+平台、有效的脸书个人资料页面、推特的实时数据查询等。将平台媒体的信号集成到可搜索的索引中,社交信号成为值得关注的“链接建设”新指标。[40]因此,为了提高内容的可检索性与可见性,记者也改变了制作和发布新闻故事的方式,比如通过社交媒体创建自然链接等,这可以引入更多的流量,也可以让社交媒体和搜索引擎优化效应叠加,一起帮助网站整体提升有机搜索的排名。[41]记者在社交媒体上呈现、互动、曝光的内容越多,搜索引擎爬虫就越会注意到这些内容,并对其进行分类,优先呈现。[42]对于SEO产业来说,该行业中的大多数工具和策略都是正当且公开的,主要的搜索引擎大都提供信息或者指南以协助站点进行优化。[43]但也有被称为“黑帽搜索引擎优化”(Black-hat SEO)的技术,旨在欺骗搜索引擎算法,干扰正常网站排名。这种技术包括垃圾索引(spamdexing)、斗篷网站(cloaking)、门页(doorway pages)、付费链接(paid link)、链接农场(link farm)等多种方法。垃圾索引是通过骗术和滥用搜索算法推销毫不相关的、主要是商业目的的网页;斗篷网站是指网站采用两种不同版本的网页来达到排名最优化效果,一个版本给搜索引擎看,一个版本给人看,借此欺骗搜索引擎;门页通常是指使用软件自动生成大量包含关键词的网页,然后从这些网页做自动跳转到指定网页的操作;而付费链接是付费要求其他网站提供“友情链接”,借此伪装高信任度的网站来欺骗搜索引擎;链接农场则是故意在一些低质量、与自己内容无关的网站上获取大量链接,藉以提高网站排名的方式。
此外,还有一种方式是通过大规模的用户搜索行为操纵新闻周期中几个小时的搜索结果,以此来“伪造”新闻事件,直到网页被纠正过来。2016年6月9日下午,谷歌旗下YouTube网站上知名播客Sourcefed的一条视频被迅速传播。该条视频显示,谷歌搜索的自动提示输入功能涉嫌人为操纵结果,会屏蔽很多关于希拉里的负面消息。[44]但不久,该视频的内容被多个消息源证伪,因为谷歌的自动提示输入算法可以智能屏蔽一些不良的搜索词,并且该搜索只针对已经发生的事情,不针对预期或预测事件。而Sourcefed所采用的方法可以看作是通过采用“输入-输出”的可见性原则反向建构谷歌自动输入算法黑箱的一种尝试。这一事件的吊诡之处在于,本来对于希拉里的负面搜索并没有成为热词,但是由于该视频的介入,导致大量用户在谷歌的搜索引擎中进行了类似搜索,大量的用户行为再次返回到搜索的再评估循环中,最终出现某些搜索请求成为了自动提示的输入词,用户通过自身对于搜索结果的反应“参与”并“成就”了这一新闻事件。
媒体对于搜索引擎优化的使用、依赖甚至在某种程度上的滥用,可以看作是媒体网站和搜索引擎在流量驱动模式下对于触达、卷入、黏住、诱导用户媒介使用的一种“共谋”。搜索引擎优化可以显著提高媒体网站的可见度、浏览量、转发量等指标,而搜索引擎也可以间接接触和留住更多用户。随着社交媒体平台的兴起,信息资讯、社交需求、流量变现、商业植入等都可以通过搜索引擎优化进一步组合起来。虽然搜索引擎一直在打击黑帽搜索引擎优化,但这依然是一场“猫鼠游戏”,搜索引擎并不想完全封禁网站的搜索引擎优化操作,只要不太过分,这是一笔双赢的生意。
三、基于用户使用和社交关系的“千人千搜”
2018年8月初,有消息称谷歌正在研发一款符合中国法律规定的搜索引擎“龙飞”(Dragonfly)。[45]8月17日BBC报道称,数百名谷歌员工写信表示不满,认为该项目引发了“亟待处理的道德和伦理问题”,并要求谷歌公司使该项目更加透明化。[46]之后谷歌CEO桑德尔·皮查(Sundar Pichai)公开回应称,“会谨慎对待在中国市场推出搜索产品”的决定。[47]消息一出,有网民尝试使用谷歌和百度就特定关键词进行搜索比较。虽然两大搜索引擎得到的结果确实大相径庭,但这其实不能支持有网民得出的“百度比谷歌更如何如何”的结论,因为目前谷歌的搜索引擎已经进入到了“千人千搜”模式。
一般情况下多数人认为,在输入同一个搜索词后,大家在谷歌上看到的搜索结果都是一样的。但是在2009年12月4日,谷歌的官方博客发出了一则很少有人注意的简短文章,按照研究搜索引擎的博主丹尼·苏利文(Danny Sullivan)的说法,谷歌这篇博文简直是天大的消息,是“搜索引擎史上最大的变革”。因为从这一天起,“人人都有了个性化的搜索”。[48]这一变革后的谷歌搜索引擎,采用了57种信号(signals),比如用户登录的地理位置、使用的浏览器、以前用过的搜索词等来判断用户的身份,揣摩用户喜欢的网站。即使用户注销掉账户,谷歌仍能预测用户的需求并调整搜索结果,以显示用户最有可能点击的网页。
可以说,通过谷歌搜索引擎进行的每一次关键词搜索,得到的结果都是谷歌算法针对你个人建议的最佳网页,而别人输入同样的搜索词,得到的结果可能截然不同。《过滤泡》的作者依赖·帕里泽(Eli Pariser)在他的书中分享过这样一个案例:2010年春天,“深水地平线”(Deepwater Horizon)钻井平台发生事故,残留的油井持续外泄原油,对墨西哥湾造成了环境污染,帕里泽请他的两位朋友搜索“英国石油公司”(BP)一词。这两位朋友有许多相似之处,都是白人女性,都受过教育,思想左倾,住在美国东北部,但两人的搜索结果却不太相同:其中一位看见的是新闻,搜索结果的第一页列出了和原油外泄相关的新闻链接;而另一位的搜索结果却是投资信息,第一页只有公司广告,对原油外泄事件只字未提。[49]除了采用信号来预测和判断用户的搜索需求之外,随着社交媒体的出现,谷歌搜索引擎还进一步整合用户的社交关系进行结果计算。2014年,谷歌网站垃圾邮件前负责人麦特·库茨(Matt Cutts)发布了一段视频,解释了谷歌如何不依赖“那些明天可能不存在的信号”进行搜索排名。[50]但是这一说法被认为比较牵强,因为麦特所谓的“社交信号”,仅仅是指脸书的点赞数,或者推特的粉丝数等,但是诸如页面数、页面内容等依然会被纳入算法。2018年,根据Ramdani和Taylor通过仅次于谷歌的第二大实时排名的SEO平台aHrefs的数据抓取发现,社交网络开始以更大的规模出现在搜索引擎中,而社交活动与搜索排名之间存在正相关关系。[51]在谷歌被引用最多的个性化搜索专利“基于个人信息降级的个性化搜索:系统与方法”(System and Method for Demoting Personalized Search Results Based on Personal Information)中,列出了个性化搜索再评估、用户画像生成、定义流行度矩阵、用户多重行为画像、共现(co-occurrence)关系表、候选搜索结果确认等多个流程,用户的个人信息、使用惯习、搜索历史与搜索请求、搜索结果、搜索评估、搜索确认等环节相关联,最终生成了基于用户自身使用习惯的搜索结果。[52]每隔两年,专注搜索引擎优化的市场调研公司Moz就会对谷歌进行一次排名要素研究,以确定页面和网站的哪些属性与谷歌的排名关联度最高。调研发现,页面权限、社交信号、排名算法与搜索结果高度相关。[53]另一项Giomelakis和Veglis的研究表明,通过对标题、元描述、图片优化、SEO友好链接、交换链接、网站速度、PageRank算法、用户卷入、关键词标签、网站年龄、社交媒体等要素的优化,谷歌搜索引擎正在从传统排名要素转向更深层次的以质量内容和社交信号为要素的排名。[54]“千人千搜”对用户使用惯习和社交关系进行分析,给出的个性化的搜索结果具有很强的针对性,也更具封闭性。伦敦国王学院媒体、传播与权力研究中心主任马丁·摩尔(Martin Moore)认为,搜索结果对于政治观点具有重要影响,但我们并没有意识到我们正在使用的搜索结果,都是针对我们个人而言的。按照谷歌的说法,它的使命是“组织世界的信息并使其普遍可用和有用”,谷歌的搜索引擎可以完全理解你的意思并回馈给你想要的结果。我们访问的信息越多,我们提取的要点越快,我们的效率就越高。但Hindman等人的研究发现,虽然网站流量和网站流行度之间的相关性确实是由算法的效率决定的,但实际上网页反映用户搜索意图的程度很难被衡量,可检索性和可见性仅代表搜索过程中的一部分,此外还有第三个方面——即用户如何对待搜索引擎返回的结果。[55]用户通过谷歌最新的个性化搜索算法得到的搜索结果,也许只是一个人的版本,但如果用户对此一无所知,他会认为所有人的搜索结果和他都是一样的,不假思索的信任会形成搜索引擎依赖,还会在一定范围固守某一观念拒绝相信其他不同观点,进而形成信息茧房和观念极化。搜索引擎在这个过程中既过滤了信息,又封装了信息,更为重要的是,这种模式具有很强的隐蔽性,常常难以被发觉。
四、设计中的价值:搜索引擎的技术-社会互动
用户通过搜索引擎进行关键词搜索,搜索引擎向用户呈现结果和内容,但什么样的内容可以进入到搜索列表中,[56]以何种方式显示,幕后的决策过程是什么[57]考虑到搜索引擎强大的社会影响力,这些构成了对搜索引擎问题的核心关切。相比其他一些互联网公司,谷歌一直对其自身的价值观非常自信:从最初的“不做恶”(Don’t be evil)到“做正确的事”(Do the right thing),虽然中间受到过质疑,但其创始人仍不断强调该准则“绝不会和利益冲突,并需要客观且不带偏见”。但2018年,谷歌却悄悄地把这条从行为准则中移除了。[58]2008年,尼古拉斯·卡尔(Nicholas Carr)在其著名的专栏文章《浅薄》中指出,以谷歌为代表的科技公司,实际上是将社会泰勒主义(Social Taylorism)成功地移植到了互联网上,人类的认知被碎片化和原子化后去适应效率和自动化的需要。在这个过程中,我们失去了长时间深度思考的能力,也许未来“碎片化”就是人类的信息方式,但其后果可能是,我们自身退化成了“人工智能”。[59]就搜索引擎的社会意义而言,主要表现为以下几个方面:
首先,搜索引擎在海量的信息环境下重新定义了“真相”。孙玮认为,“以真相的定义而言,大众媒介时代,专业化的媒介机构是主要的定义者,在赛博人时代,不仅仅是定义者增多了,而且定义方式以及关系格局变化了,真相的定义成为一个动态连续、多个主体的拼贴过程”。[60]搜索引擎依靠可检索性(retrievability)与可见性(visibility)两个指标,重构了网络结构,将信息内容和用户需求方便快捷地匹配起来。但是这个匹配方案本身也形塑了用户的信息接收秩序,新闻内容的重要程度被呈现的“位置”所取代,“真相”被重新定义:“今日的‘真相’,已经是由谷歌搜索排名最靠前的结果来定义的了。” [61]其次,搜索引擎不是被动地反映用户的关键词搜索结果,而是进行了“有文化依据的组织形式重构”,进而建构其文化权威。搜索引擎可以方便地呈现搜索结果是有条件的,除了对于既有文化资源的征用之外,还高度依赖政治环境、经济利益、技术因素和用户使用,但是用户其实并不熟悉搜索引擎是如何“找到”他们正在寻找的东西的。2018年的一项研究表明,让学生和专业的事实核查人员来检查谷歌搜索引擎结果页面中不熟悉的新闻来源时,学生在评估在线内容的可信度方面并不是特别熟练。[62]但当用户因为信任谷歌而不追问其算法机制时,这种信任对于互联网的结构形态[63](比如网页评级、用户流量)、网络社会的文化样式(比如搜索引擎文化[64])以及现实社会的行为模式(比如选举投票)等就存在巨大的潜在影响,用户对结果深信不疑,谷歌搜索就是“真理”。
第三,在新传播环境中,互联网公司促进了一种新的“混合价值”模式,它结合了传统的社会与文化目标,但提供了新的机制。谷歌一方面从传统媒体的生产模式中汲取养料,同时在新传播环境下又将自身的利益和价值观内嵌进去,它试图建构的就是一种混合的价值观:它借用传统媒体对于内容和信源的衡量标准,同时加入以技术和算法为特征的“去人为操作”和去政治化的要素,强调用户的使用是为了满足其自身内在需求,从而顺理成章地完成了市场化的经济利益诉求。在这个过程中,传统媒体的客观性和专业主义作为一种“背书底色”,成为互联网公司业务开展的基础和正当性来源;技术和算法高度依赖处理器算力和大规模数据,天生趋向于资源和权力的集中;用户兴趣被即刻满足,不断投入更多的时间、金钱和数据,由此完成了推荐内容、用户兴趣和传播环境的匹配闭环。
第四,搜索引擎重塑了知识-社会秩序,但是带来了“膨胀的知识感”。从2009年开始,一系列对于人工智能参与知识生产的研究表明,知识创新依靠的不仅是对知识点的重新组合,更是对于既有知识的批判式反思。包括搜索引擎在内的一系列计算机技术,基于对知识系统化和逻辑化的表达与推理,通过结构性的组织方式与逻辑规则,将一系列要素组合与串联起来,以实现系统的目的要求。[65]这种形态的知识生产是一种基于知识库和规则事实逻辑的“集体知识系统”,[66]是集搜集、处理、生成、匹配、推荐为一体的某种“实在的对象”,而其生产出的知识是一种“计算知识”,[67]目标并不是诉诸本体意义上真正的知识内容是什么,而是追求一种形式化的表现方式。这种知识体系并不指向“实在”,而是指向集体知识的构建过程,[68]并在社会交往过程中不断膨胀。2015年,Fisher等人的研究发现,与阅读书籍、和专家交谈相比,通过搜索引擎获得的知识让人更有一种“膨胀的知识感”(inflated sense of knowledge)——“通过互联网搜索,你知道的和你认为你知道的之间的界限变得越来越模糊”,而即使这一过程中并没有找到完整的答案,大脑磁共振的图像表明,人们依旧会认为他们知道了更多。[69]与此同时,新的“阅读”形式正在逐渐出现:用户会在浏览和搜索上花费更多的时间,倾向于使用关键词定位、一次性阅读、非线性阅读和选择性阅读,但对于事物的持续关注度在降低,更加不容易进行深度阅读和集中阅读,与控制组相比也没有呈现出更高的知识水平。[70]
五、结语
搜索引擎可以看作是通过算法和自动化的方式,让机器代替人给出决策方案。当前,这种形式的应用正变得越来越普及和广泛,比如个性化的内容推荐、精准定向的广告、大数据辅助医疗、电子商务导购、自动驾驶等等。但在这个过程中,“算法是有很多问题,但还是比人强”的思路,使得越来越多本来需要依靠人类自身的讨论、辩论、思考、反思给出决策判断的任务,被转交给算法来执行。我们敢于承认“人是靠不住的”,但对算法却抱有不切实际的期待,希望它真能够实现绝对的客观中立、正确无误和去价值观。算法是一种技术,但归根结底依然是一种“人造物”,它不同于物理意义上“物质”,而是一种社会机制,更类似于法律法规或政治制度这样的“社会造物”,因此从根本上无法排除人的影响,而就目前情况来看,其能够将伦理、道德、价值观“逻辑化”的能力依然还非常有限。
对于这个问题,有学者认为需要采用以下方式进行反思和规制:伦敦国王学院媒体、传播与权力研究中心主任马丁·摩尔(Martin Moore)认为,算法无处不在,但与我们类似,它们漏洞频出,而且这些漏洞是系统性的结构漏洞,在所难免。我们需要知道,人工智能并不知道它们“真正”在做什么,我们越是依赖,当其出现问题时,我们就会越惊讶。[71]伦敦政治经济学院助理教授达米恩·坦比尼(Damien Tambini)认为,谷歌和脸书都具有基于高级算法的编辑功能,虽然他们说机器不是编辑,但这明显是“机器化了的编辑功能”。对这些系统需要进行常规的聆讯以保证算法可信度(algorithmic accountability),而每个公司都需要有发言人与社会保持常规性的沟通,说明和促进算法的可信程度。[72]马里兰大学法律教授弗兰克·帕斯夸莱(Frank Pasquale)呼吁科技公司应该更加开放更加透明。“对于我们的数据是如何被挖掘、使用、反过来再来影响我们的,这些都在完全黑暗的环境中进行的,无人知道”。[73]而西北大学计算机教授大卫·拉泽尔(David Lazer)认为,那些采用了算法技术,或者在不久的将来还有人工智能神经系统的公司、政府和机构,有义务推进算法透明度的提升,并且告知我们这些算法将会如何影响我们的现实生活。[74]新美国智库“数字权力评级”项目的负责人瑞贝卡·麦金农(Rebecca Mackinnon)认为,在网络世界里有四种建构者:程序员(programmer)、运营官(executive)、编辑(editor)和设计师(designer),通过设计提高认识是一个有希望的方向。比如可以在搜索的结果页面上通过向用户提供关于结果如何排名的简短说明来完成,或者通过可视化网站促进入站和出站链接之间的关系。就像在社交网络分析中一样,用户可以查看处于中心和周边的网站,通过追踪网站之间的联系或血统,或者根据其与其他网站和出处的相似性来判断网站的偏好与相关性。但是,这需要在维护搜索界面的简单性和添加说明信息内容之间,进行精巧的设计平衡。■
①http://scripts.ranking.com/data/report_domain.aspx
②Pan, B.HembrookeH.Joachims, T.Lorigo, L.GayG.& Granka, L. (2007). In google we trust: Users’ decisions on rank, position, and relevance.Journal of computer-mediated communication12(3)801-823.
③2016年Facebook宣布其日搜索量已经达到20亿次,比2015增长了33%;从2017年开始,微信一直在低调更新其搜索功能,最新的iOS客户端同时引入了两个搜索入口,一个是会话聊天界面上方的搜索框,一个是发现下面的“搜一搜”。除了接入类型更加丰富的结果和内容之外,微信还对于搜索结果按照类型进行了分类,包括公众号、朋友圈、文章、百科、小说、音乐、小程序、表情、问答、视频共10类;微博搜索已经成为衡量社交声望的重要标准之一;输入法搜索在通过AI升级和丰富语义联想功能的同时,更是在分享和应用导流方面不断创新。艾瑞数据显示,搜狗输入法的移动搜索份额在2017年底扩大至18.2%,巩固了其中国第二大搜索引擎的地位。
④HutchinsonA. (2016November). Why Search will be a Focus for Facebook in 2017 (and How it Will Impact Marketers). Retrieved from http://www.socialmediatoday.com/social-business/why-search-will-be-focus-facebook-2017-and-how-it-will-impact-marketers.
⑤黄有璨:《微信搜索大变身!野心终于浮出水面的腾讯与微信》, 36氪2018年4月17日,检索于https://36kr.com/p/5129598.html
⑥微博搜索:http://s.weibo.com/
⑦《新浪财经对话王小川:以长跑的心态看待搜狗运营》,新浪财经2018年4月12日,检索于http://finance.sina.com.cn/stock/usstock/c/2018-04-12/doc-ifyzeyqa9136010.shtml
⑧Share of search queries handled by leading U.S. search engine providers as of April 2018. Retrieved from https://www.statista.com/statistics/267161/market-share-of-search-engines-in-the-united-states/
⑨Worldwide desktop market share of leading search engines from January 2010 to April 2018. Retrieved from https://www.statista.com/statistics/216573/worldwide-market-share-of-search-engines/
⑩CadwalladrC. (2016). Google, democracy and the truth about internet search. Retrieved from https://www.theguardian.com/technology/2016/dec/04/google-democracy-truth-internet-search-facebook
[11]SullivanD. (2016May). Google now handles at least 2 trillion searches per year. Retrieved from https://searchengineland.com/google-now-handles-2-999-trillion-searches-per-year-250247
[12]American Press Institute. (2014). The Personal News Cycle: How Americans choose to get their news. The research was conducted by the Media Insight Project–American Press Institute and the Associated Press-NORC Center for Public Affairs Research. Retrieved from http://www.americanpressinstitute.org/publications/reports/surveyresearch/how-americans-get-news/
[13]OlmsteadK.Mitchell, A.& Rosenstiel, T. (2011). Navigating News Online: Where People Go, How They Get There and What Lures Them Away. Pew Research Center’s Project for Excellence in Journalism. Retrieved from http://www.journalism.org/2011/05/09/navigating-news-online/
[14]NewmanN.Fletcher, R.Kalogeropoulos, A.Levy, D. A.& NielsenR. K. (2017). Reuters Institute digital news report 2017.Report of the Reuters Institute for the Study of Journalism. Retrieved from https://reutersinstitute.politics.ox.ac.uk/sites/default/files/Digital%20News%20Report%202017%20web_0.pdf
[15]http://www.pewinternet.org/2012/03/09/search-engine-use-2012/
[16]Pan, B.HembrookeH.Joachims, T.Lorigo, L.GayG.& Granka, L. (2007). In google we trust: Users’ decisions on rank, position, and relevance.Journal of computer-mediated communication12(3)801-823.
[17]Epstein, R.& RobertsonR. E. (2015). The search engine manipulation effect (SEME) and its possible impact on the outcomes of elections. Proceedings of the National Academy of Sciences, 112(33)E4512-E4521.
[18]Introna, L. D.& Nissenbaum, H. (2000). Shaping the Web: Why the politics of search engines matters.The information society16(3)169-185.
[19]BellE. J.Owen, T.BrownP. D.HaukaC.& RashidianN. (2017). The platform press: How Silicon Valley reengineered journalism.
[20]於红梅、潘忠党:《 近眺异邦:批判地审视西方关于“后真相”的学术话语》,《新闻与传播研究》2018年第8期
[21]Giddens, A. (1991).Modernity and self-identity: Self and society in the late modern age. Stanford university presspp15-16.
[22]Spink, A.& Jansen, B. J. (2006).Web search: Public searching of the Web(Vol. 6). Springer Science & Business Media.
[23]Hargittai, E. (2007). The social, politicaleconomic, and cultural dimensions of search engines: An introduction.Journal of Computer‐Mediated Communication12(3)769-777.
[24]BrinS.& Page, L. (1998). The anatomy of a large-scale hypertextual web search engine.Computer networks and ISDN systems30(1-7)107-117.
[25]PandeyS.RoyS.Olston, C.ChoJ.& ChakrabartiS. (2005August). Shuffling a stacked deck: the case for partially randomized ranking of search engine results. In Proceedings of the 31st international conference on Very large data bases(pp. 781-792). VLDB Endowment.
[26]Hindman, M.Tsioutsiouliklis, K.& JohnsonJ. A. (2003April). Googlearchy: How a few heavily-linked sites dominate politics on the web. In annual meeting of the Midwest Political Science Association(Vol. 4pp. 1-33).
[27]最近的一次专利版本专利号为CN101826115B,更新于2016年8月17日,参见:Query processing with adaptation to user needs using ranking . (2016). Retrieved from https://patents.google.com/patent/CN101826115B/zh?q=systems&q=methods&q=improving&q=ranking+news+articles。
[28]Pasquinelli, M. (2009). Google’s PageRank Algorithm: A Diagram of the Cognitive Capitalism and the Rentier of the Common Intellect. In: Konrad Becker and Felix Stalder (eds)Deep Search: The Politics of Search Beyond Google, London: Transaction Publishers.
[29]An inside look at Google’s news-ranking algorithm. (Feb 212013). Retrieved from https://www.computerworld.com/article/2495365/business-intelligence/an-inside-look-at-google-s-news-ranking-algorithm.html
[30]Building a stronger future for journalism. (March 222018). Retrieved from https://newsinitiative.withgoogle.com/
[31]External referrals in the Parse.ly networkhttps://www.parse.ly/resources/data-stuies/referrer-dashboard/
[32]GiomelakisD.& Veglis, A. (2015). Employing search engine optimization techniques in online news articles.Studies in Media and Communication3(1)22-33.
[33]Ghosh, D.& ScottB. (2018).# digitaldeceit: The Technologies Behind Precision Propaganda on the Internet. New America.
[34]Potts, K. (2007). Web Design and Marketing Solutions for Business Websites, New York: Apress.
[35]MillerC. (Oct 102011). Search Engine Optimization to Lure Readers. Retrieved from https://www.nytimes.com/2011/02/11/business/media/11search.html
[36]GrovesJ.& BrownC. (2011April). Stopping the presses: A longitudinal case study of the Christian Science Monitor transition from print daily to web always. In International Symposium on Online Journalism(Vol. 1No. 2pp. 86-128).
[37]Content Strategy for Publishers w/ Former New York Times SEOs. (July 312018). Retrieved from https://www.siegemedia.com/seo/content-strategy-for-publishers.
[38]DickM. (2011). Search Engine Optimisation in UK News Production. Journalism Practice, 5(4)462-477.
[39]Google. (2010). Search Engine Optimization Starter Guide. Retrieved from http://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.co.jp/ja/jp/intl/en/webmasters/do cs/search-engine-optimization-starter-guide.pdf
[40]FrascoS. (2013). 6Reasons Social Media Is Critical To Your SEO.Search Engine Watch.
[41]PicardR. (2009). BlogsTweets, Social Media and the News Business. Nieman Reports63(3)10-12. Retrieved from http://www.nieman.harvard.edu/reports/article/101884/Blogs-Tweets-Social-Media-and-the-News-Business.aspx
[42]Ehrlich, S. (2013). SEO Best Practices: The Impact of Social Media on Search Engine Optimization. Bulldog reporter. Retrieved from http://www.bulldogreporter.com/dailydog/article/thought-leaders/seo-best-practices-the-impact-of-social-media-on -search-engine-opti
[43]比如谷歌网站站长:https://www.google.com/webmasters/ #modal_active=none; 雅虎账户协助页面:https://help.yahoo.com/kb/account; 必应网站管理员工具:https://www.bing.com/toolbox/webmaster/等
[44]https://www.youtube.com/watch?v=PFxFRqNmXKg
[45]21CTO. (August 22018). Google或重返中国,Google云将在中国大陆联营. Retrieved from http://www.52im.net/portal.php?mod=view&aid=324.
[46]Google employees criticise ‘censored China search engine’. (August 172018). Retrieved from https://www.bbc.com/news/business-45216554.
[47]Google CEO to employees: We’re ‘not close’ to launching search in China. (August 172018). Retrieved from https://money.cnn.com/2018/08/17/technology/google-in-china/index.html
[48]Google Official Blog. (December 42009). Personalized Search for everyone. Retrieved from https://googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html
[49]Pariser, E. (2011).?The filter bubble: What the Internet is hiding from you. Penguin UK, p2.
[50]Are pages from social media sites ranked differently (Jan 222014). Retrieved from https://www.youtube.com/watch?v=udqtSM-6QbQ.
[51]Ramdani, Z. & Taylor, E. (May 102018). Does Social Media Impact SEO? We Ran an Experiment to Find Out. Retrieved from https://blog.hootsuite.com/social-media-seo-experiment/.
[52]Horling, B. C.& ZamirO. E. (2010).?U.S. Patent No. 7827170. Washington, DC: U.S. Patent and Trademark Office.
[53]PetersM. (2013). 2013 Search Engine Ranking Factors (Moz’s study). Retrieved from http://moz.com/blog/ranking-factors-2013
[54]GiomelakisD.& Veglis, A. (2016). Investigating search engine optimization factors in media websites: the case of Greece.Digital Journalism,4(3)379-400.
[55]Hindman, M.Tsioutsiouliklis, K.& JohnsonJ. A. (2003April). Googlearchy: How a few heavily-linked sites dominate politics on the web. In annual meeting of the Midwest Political Science Association(Vol. 4pp. 1-33).
[56]ZittrainJ.& EdelmanB. (2002). Localized Google search result exclusions.Berkman Center for Internet & Society at Harvard Law School,26.
[57]Introna, L. D.& Nissenbaum, H. (2000). Shaping the Web: Why the politics of search engines matters.The information society16(3)169-185.
[58]CongerK. (May 182018). Google Removes ‘Don’t Be Evil’ Clause from Its Code of Conduct. Retrieved from https://gizmodo.com/google-removes-nearly-all-mentions-of-dont-be-evil-from-1826153393
[59]CarrN. (2008). Is Google Making US Stupid? Retrieved from https://www.theatlantic.com/magazine/archive/2008/07/is-google-making-us-stupid/306868/
[60]孙玮:《赛博人:后人类时代的媒介融合》,《新闻记者》2018年第6期
[61]尤瓦尔·赫拉利:《今日简史:人类命运大议题》第50页,林俊宏译,中信出版社2018年版
[62]Lurie, E.& Mustafaraj, E. (2018May). Investigating the Effects of Google’s Search Engine Result Page in Evaluating the Credibility of Online News Sources. In Proceedings of the 10th ACM Conference on Web Science (pp. 107-116). ACM.
[63]Lewandowski, D. (2017). Is Google Responsible for Providing Fair and Unbiased Results?. In The Responsibilities of Online Service Providers(pp. 61-77). Springer, Cham.
[64]Jarrett, K.Hillis, K.& PetitM. (2012).?Google and the Culture of Search. Routledge.
[65]Davis, R.Shrobe, H.& SzolovitsP. (1993). What is a knowledge representation?.AI magazine,14(1)17.
[66]GruberT. (2008). Collective knowledge systems: Where the social web meets the semantic web.Web semantics: scienceservices and agents on the World Wide Web6(1)4-13.
[67]方师师、郑亚楠:《计算知识:知识表示与推理视角下人工智能参与知识生产的逻辑与意义》,《新闻与写作》待刊稿
[68]FeilkeH. (1996). Sprache als soziale Gestalt: Ausdruck, Pragung und die Ordnung der sprachlichen Typik1.Aufl. Auflage. Frankfurt am Main: Suhrkamp.
[69]FisherM.GodduM. K.& Keil, F. C. (2015). Searching for explanations: How the Internet inflates estimates of internal knowledge.Journal of Experimental Psychology: General144(3)674.
[70]Liu, Z. (2005). Reading behavior in the digital environment: Changes in reading behavior over the past ten years.Journal of documentation61(6)700-712.
[71]AlbrightJ. (2016October 20). Algorithms might be everywhere, but like us, they’re deeply flawed. Retrieved from http://theconversation.com/algorithms-might-be-everywhere-but-like-us-theyre-deeply-flawed-66838.
[72]Tambini, D.& MooreM. (2018). Digital dominance: the power of Google, Amazon, Facebook, and Apple.
[73]PasqualeF. (2015).The black box society: The secret algorithms that control money and information. Harvard University Press.
[74]AlbrightJ. (2016October 20). Algorithms might be everywhere, but like us, they’re deeply flawed. Retrieved from http://theconversation.com/algorithms-might-be-everywhere-but-like-us-theyre-deeply-flawed-66838.
方师师系上海社会科学院新闻研究所助理研究员,复旦大学传播与国家治理研究中心研究员。本文为上海社会科学院院内招标课题“人类命运共同体视阈下基于平台的信息传播秩序构建研究”、2015年度国家社科基金青年项目(项目号:15CXW002)阶段性成果。作者感谢深场实验室(DeepField Lab)的支持。