上一期
下一期
目录
  • 16页
  • 17页
  • 18页
  • 19页
  • 20页
  • 21页
  • 22页
  • 23页
  • 24页
  • 25页
  • 26页
  • 27页
放大 缩小 默认 上一篇 下一篇
算法失误会影响用户的使用意愿吗?
——基于事实核查算法的实验研究
■刘国强 张思雨
  【本文提要】本文基于事实核查算法开展研究,探究曾经的算法表现与所核查信息的模态能否影响人们对事实核查结果的可信度判断。本文采用实验法进行验证(N=225),将算法既往表现(不告知算法失误VS告知算法失误)与内容呈现模态(文本VS视频)作为实验的两组刺激进行探索。实验结果显示,在被告知算法既往的失误后,人们倾向于降低对算法结果的认同程度,但知晓算法失误却不能显著影响人们对算法系统的信任。当事实核查算法存在时,内容呈现模态不能显著影响人们对信息可信度的判断。因而,研究以信任累积与机器启发式作为上述发现的解释进路,阐释人们同新型技术交互时决策采纳与功能弃用的内在原因。本研究捕捉了人们面对算法故障后的行为表现与后续的使用意愿,有助于解蔽算法故障后人们的种种心理。
  【关键词】算法失误 算法 机器启发式 算法信任 事实核查
  【中图分类号】G206
  
一、引言
  算法能够快速地将人们的行为与喜好分类,作为引诱着个体的“陷阱”促逼他们形成了经验世界的特定视角(Seaver, 2019),创造并维持着人际新型交流方式与社会公共生活的信息基底。但是任何算法都会失误,并且算法以多种方式持续地报错、失败与出故障,Amoore(2020: 111)甚至将算法失误视为“算法的内在本质”。负面经历要比正面经历更能施加深刻的影响(Tversky & Kahneman, 1981)。既往研究注重考察“客观”与“公正”特质的算法对于人类决策系统的影响(Logg et al.,2019;Sundar & Kim, 2019),疏漏了知晓算法故障后人们的心理认知以及人机间的协商过程与采纳结果。
  本文将聚焦曾经的算法失误对于人们当下决策结果所产生的影响。具体而言,我们将以事实核查算法为例,调查当人们被告知算法失误的过往后,他们是否仍然会认同算法运行的结果,以及算法失误对他们未来使用意愿的潜在影响。质言之,当人们知道事实核查算法曾经的失误后,他们是否还愿意以及在多大程度上相信事实核查算法给出的真假判断。
  一方面,既有文献指出,当人们面对算法时,他们往往采用“机器启发式”的边缘路径(Sundar & Kim, 2019),即人们在机器是公正与无误的认知偏见下不假思索地接受机器运行的结果;另一方面,一些研究发现,人们更倾向于相信以视频形式呈现的假新闻(Powell et al., 2015)。因此,我们将以算法既往表现(不告知算法失误VS告知算法失误)与内容呈现模态(文本VS视频)作为研究自变量,探究上述因素对事实核查算法结果认同程度的影响。通过聚焦算法失误这一现象,本研究的贡献首先在于捕捉了人们面对算法故障后的行为表现与后续的采纳意愿,这有助于我们廓清人机交互时复杂的心理状态。同时,研究对信任这一概念在当今技术条件下进行了语境化阐释,后续研究可将算法信任作为理论工具以进一步修正、完善乃至见之于现实。第二,研究以事实核查算法为例开展,具有现实意义。在虚假信息日益泛滥的今天,对事实核查算法判断失误与人们使用意愿之间的关系探究亦有助于事实核查算法的日后改进与完善。
  
二、文献与假设
  (一)失误的算法
  本文选择以事实核查算法为例开展有关算法失误的研究。自动化事实核查(Automated Fact -Checking)是一种基于算法的核查工具,自动化事实核查能够在极短时间内处理多个信息文本,其被广泛用在Facebook、Twitter等平台的事实核查实践中(Cotter et al., 2022)。
  本文主要介绍三种自动化事实核查工具的运行逻辑。第一种是基于匹配逻辑的事实核查算法,即通过比对言论是否存在于已经被证实的文本库来进行核查。第二种是基于信源的事实核查算法,算法从发布者是否为机器人、既往是否发布过虚假信息、是否采用自动文本生成器等多个维度综合判断信息的准确程度,例如Botometer就通过判断某推特账号为机器人的可能性来推断此账号所发布言论的可信性。第三种是基于关系的事实核查算法,此类算法藉由检索社交平台、媒体网站中是否存在多个互相支持的言论来判别真假(张超,2022)。
  相关研究发现相较于由人类组建的核查网站与核查团队,人们会认为自动化事实核查工具更加公平以及不存在党派间的偏见(Wojcieszak et al., 2021)。然而,既有事实核查算法的运行逻辑却均存在着内生性缺陷,极易导致判断失误的情形出现。基于匹配逻辑的事实核查算法依靠业已验证的文本库进行判断,然而文本库的封闭性与文本的有限性共同阻碍了匹配逻辑算法的高效运行(Graves & Lucas, 2016)。基于信源逻辑的事实核查算法,则会存在一定的误判风险,因为其假设所有由机器生成的文本均为虚假(张超,2022)。基于关系逻辑的事实核查在缺少支持相同观点的其他文本时,很可能会将一个真实的陈述判别为假(Ciampaglia et al., 2015)。除此之外,部分虚假信息文本中包含着复杂的语句结构、道德概念以及对事实的局部陈述,这在无形中又提高了算法对信息进行自然语言处理(NLP)的难度。Zeng等人(2021)将事实核查算法所面临的挑战概括为适用领域过窄(常用于政治领域)、训练集数据过少、数据不平衡以及模型自然语言处理能力较弱等方面。总结而言,事实核查算法的准确度并不总能令人满意,在日常运行中极有可能出现错误、失误与故障。
  同时既有研究指出,人们并不总是对算法决策的结果完全认同,人们是否接受算法决策结果取决于多种因素(Dietvorst et al., 2015),诸如Rader等人(2018)发现,算法系统的透明度,即人们是否知晓算法的运行逻辑能够影响人们对于算法决策的信任与接受程度。除此,当算法持续地出故障或未能达到人们的期待时(Dietvorst et al., 2015;Highhouse, 2008),人们可能会萌生对算法的负面情绪,甚至会逐步产生算法厌恶(algorithm aversion),直至最终停用算法(Dzindolet et al., 2002)。例如,Dietvorst等人(2015, 2018)发现当算法系统持续出错之时,人们会拒绝继续使用算法进行决策,但如果当人们不知道算法曾经的失误时,人们将仍然选择采用算法进行决策。Leyer和Schneider(2019)则指出,人们对于算法错误的包容度要远远低于对于人类错误的包容度。
  与此同时,既有研究表明,在社交媒体上给用户发布的信息标注“有争议”、“虚假”的标签时,用户会显著降低对此类信息的信任程度,即使这类信息是真实的(Clayton et al., 2020)。Horne等人(2020)发现,当AI认为某则新闻来源或者新闻内容是真实的时候,人们往往会选择相信AI的决策。但部分研究也指明,事实核查信息的性质、个人的偏见、信息发布媒体等因素也会影响人们对信息的可信度判断(Oeldorf-Hirsch et al., 2020),Brandtzaeg等人(2018)通过深度访谈与内容分析法发现,社交媒体用户对事实核查同时抱有肯定与否定的矛盾情绪。通过上述文献的爬梳,本文想要探究,当人们得知事实核查算法存在失误的历史后,他们对于算法决策的认同程度还一如既往吗?由此,本文提出以下假设:
  H1:相较于没有观察到算法失误的个体,被告知算法失误历史的个体会降低对算法结果的认同程度。
  (二)算法说服机制:机器启发式的启动效应
  在处理信息时,由于人脑的容量有限,人们不可能对每件事情均深思熟虑(Sherman & Corty, 1984)。精细加工可能性模型(Elaboration Likelihood Model, ELM)指出,人们对于信息的处理存在着两条路线,分别是中枢路径与边缘路径(Petty & Cacioppo, 1983)。当人们有着处理信息的动机与能力之时,人们对信息的卷入度提高,他们往往会对信息进行细致处理,对于事件本身的关注要超越对外部浅显表征的关注(Pierro et al., 2004),即中枢路径。反之,当缺乏动机或者能力时,人们将处于低卷入度,往往会通过使用直观浅层的启发式线索进行判断(Metzger et al., 2010),即边缘路径。
  在本文的研究语境下,当人们与机器进行交互时,经常使用“机器启发式”(machine heuristic)的边缘路径。“机器启发式”是指当人们通过各种线索注意到他们正在与机器进行交互时,他们会将既往对于机器的刻板印象应用到此次的信息处理中,以帮助他们快速地做出决定(Sundar & Kim, 2019),人们对于机器的刻板印象包括“客观”、“准确”、“毫无偏见”等。例如,Adam(2005)发现人们更愿意将隐私透露给机器而不是人类,因为人们倾向于认为机器有着更低的出错率以及更加准确。Jones-Jang和Park(2023)将人们采用“机器启发式”边缘路径进行决策的原因归结于透明性的缺失以及媒体对机器的再现。他们认为对于普通个体而言,机器被视为在“黑箱”中运行,个体所能观测到的仅仅是交互界面,不可能知晓机器的运行逻辑。因此,在缺少直接经验的情况下,人们唯有藉由媒体营造的外在表征建构他们对于机器的看法。因此,人们对于算法的最初感知是将其视为客观与准确的存在。同时,在“机器启发式”的边缘路径下,人们可能萌生“自动化偏见”(automation bias)心理。自动化偏见是指人们过度相信算法等机器的决策,并将机器决策视为完美无缺的一种心理状态。研究发现,在政治传播语境下,人们倾向于认为AI要比人类更加公正(Wojcieszak et al., 2021),然而事实上,由于AI所使用训练集的天然劣势导致AI所生成的信息与进行的决策同样存在着诸多缺陷(Hsu, 2020)。
  综合上述文献回顾,我们想要探究人们对于算法的信任是否会随着算法失误的出现而减少,以及算法失误的既往表现对个体“机器启发式”认知路径的影响,因而我们提出如下假设:
  H2:当人们观察到事实核查算法失误之后,他们会倾向降低对于算法的信任。
  H3:算法信任降低时,人们对算法结果的认同程度也会随之降低。
  (三)信息形态的说服机制:现场感启发式的启动效应
  新旧媒体交替之时,关于哪种媒介形态更加能够使人信以为真成为传播学领域中重要的研究问题。既有研究呈现出矛盾的图景,譬如有研究发现,报纸要比电视更加可信,因为报纸要比电视更能够精确地反映事件(Carter & Greenberg, 1965;Wilson & Howard, 1978),但亦有研究发现,电视更能够激起人们的现场感知(perceived realism),因而人们对于电视的信任程度更高(Westley & Severin, 1964; Gaziano & Mcgrath, 1986)。Powell等(2015)认为不同模态的信息形态有着不同的偏向,文本形态的信息帮助读者意识到问题的定义与道德评价(Entman, 1993),视觉形态的信息则包含着指向性符号(例如:专家的在场)、符号学特征(例如:展示专家的在场时故意采用正面近景的摄影角度)等(Powell et al., 2019)。文本形态信息通过对事件的描述性话语间接影响人们的态度,视觉形态信息则通过更为直观的画面展现影响人们的态度与情感(Powell et al., 2015)。
  在哪种内容模态更为可信这一话题上,学界虽未达成一致,但有研究却发现多模态的呈现方式相较于单独模态的呈现方式更能以通过唤起人们现场感的方式说服受众(Yadav et al., 2011),现场感可被理解为在多大程度上此事可能在现实生活发生。Sundar(2008)认为多模态信息会通过引起受众“现场感启发式”(realism heuristic)的边缘路径影响受众。Sundar指出,因为多模态形式信息较文本或者声音信息同受众所经历的现实世界更加相像,因此受众会倾向于认为多模态信息展现的事件是更有可能在现实世界发生的事实。所以,当受众加工信息的精力与动机有限时,他们往往便通过信息模态进行快速处理,即“这条信息以视频形式呈现了,那么就一定是真实发生了”。Powell等人(2015)发现,观看多模态信息的受众要比观看文本形式的受众更易于对假新闻信以为真。Sundar(2021)同时发现人们对于视频信息的处理更加直接与浅层,所以相较于文本信息,他们更有可能将视频类虚假信息视为真实,并将其分享给亲人与好友。
  聚焦于事实核查与信息模态这一领域,主要存在两个方面的研究,一方面是探索事实核查呈现形式对核查效果的影响研究,这一类研究考察事实核查呈现模态、文本长度和符号表征对说服效果所能产生的不同影响。Amazeen等人(2018)发现如果某则事实核查中包含对所核查信息进行真实性打分的图像符号,那么这则事实核查就更能够说服读者。Figl(2023)则发现不同事实核查警示符号会对说服效果产生差异化影响。事实核查与信息模态领域的另一方面研究关注事实核查对多模态信息的影响,Hameleers等人(2020)发现事实核查对文本信息与多模态信息的影响并不存在显著差异。
  然而上述研究是针对涵盖多元行动主体(媒体机构、核查算法等)的事实核查整体进行研究,却少有关注到事实核查算法这一单一主体对于人们真实性感知的影响。所以,本文想要探究,当人们观察到算法失误的过往后,不同信息模态是否会影响他们对于算法结果的认同程度,以视频形式呈现的信息相较于文本形态的信息是否对人们产生了更大的影响力。质言之,提出以下研究假设:
  H4:当人们观察到事实核查算法失误后,相较于文本信息,人们更容易相信以视频形式呈现的信息。
  综上,本研究的概念模型如(图1 图1见本期第20页)所示。
  
三、研究方法
  (一)参与者
  本研究采用在线实验的方式验证假说,实验为2(既往表现:不告知算法失误VS告知)×2(内容模态:文字VS视频)的组间试验。其中算法既往表现与信息呈现形式为自变量,人们对于算法结果的认同程度为因变量。
  实验首先招募了277名线上参与者,后剔除没有通过注意力检测以及曾经浏览过为测量因变量所用新闻的被试,最终共包含225名被试。经过G*power软件测算,在统计效力为0.95的情况下,实验所需的最少样本量为210名,本研究达到了最低样本量的要求。实验参与者被随机划分到4个实验组之一,研究后通过进行单因素方差检验、独立样本T检验等分析发现,组别间被试在人口学特征与社交媒体使用方面并不具有显著性差异(性别维度,p=0.978;教育维度,P=0.829;年龄维度,P=0.419;社交媒体使用,p=0.732),说明实验事前随机化成功。
  (二)研究设计
  在同意参与研究后,被试者首先完成了一系列基准调查,测量他们的信息获取偏好与算法基础知识。之后,实验向被试者介绍了一款用于微博平台名为“查明真相”的虚构的事实核查算法。为进一步加深被试者对算法的了解,实验展示了使用“查明真相”事实核查算法判断信息可信度的四个既往案例截图。实验所用的四个案例均选自专业媒体机构于2023年5月所发布的新闻(四个案例分别是:世界卫生组织宣布新冠不再构成突发公共事件、巴厘岛情侣死亡事件中女性死者身份为大学生、英王查尔斯三世加冕、全红婵陈芋汐夺冠)。本文选取微博作为研究背景,其一是由于微博平台兼顾文本与视频两种信息呈现形态,符合本文的研究假设;其二是由于本文所虚构的“查明真相”事实核查算法改编自用于判断推特账号可信度的“Bot Sentinel”事实核查工具,为更贴近算法原型,故将研究背景设为与推特平台功能相似的微博。
  在告知算法既往失误的实验组中,研究告知被试者“查明真相”算法近一个月内失误的历史,且明确第一个案例为“查明真相”算法判断错误的案例。对照组不告知算法的既往表现(图2 图2见本期第21页),且所展示的四个案例均为算法判断正确的案例。
  为保证实验刺激的有效,“查明真相”事实核查算法的介绍页面与既往案例的展示页面均设置了最少浏览时间。在浏览完毕后,被试者进而被告知他们需要判断一条微博的可信程度。这条微博所述内容选自中国互联网联合辟谣平台的一条虚假信息,这条微博被事实核查算法判断为真。被试者随机以文本形式或者视频形式浏览这条微博。为保证视频呈现形式与文本呈现形式的区别仅仅在于模态,视频组别中的微博文字是对所发生事件的简明概括,文字组别中的内容是对视频所呈现画面的描述性话语(图3 图3见本期第21页)。实验考虑到了媒体公信力对人们真实感知可能产生的影响,因而选取了没有媒体机构标识的用户作为微博的发布者。被试者在浏览微博与算法判断的结果后需要完成一份调查问卷,调查包括被试者对于这条微博的可信度判断、对此事件的现实感判断,与对事实核查算法信任程度等一系列问题。
  (三)变量测量
  1.算法结果的认同程度
  当被试者认同事实核查算法所给出的判断时,他们便会认为微博内容极为可信。因此,本研究将被试者对于微博内容的可信度感知作为衡量被试者对算法结果认同程度的变量。通过观察告知算法失误历史与不告知算法失误历史两组别间对于微博真实性判断的差异,我们便可以验证研究假设1是否成立,即算法曾经的失误是否会影响人们对于算法结果的认同,若两组间真实判断差异显著,则假设1成立。本文对于内容可信度的量表改编自Soh等人(2009)的研究。被试者在浏览完文本或者视频后,将回答下述两个题项,以此测量他们对微博的可信度判断:“你在多大程度上认为这条新闻是可以被相信的(1=完全不可信,7=非常可信)”与“你在多大程度上认为这条新闻是真实的(1=非常不真实,7=非常真实)” (α=0.768)。
  2.算法信任
  本文参考Molina和Sundar(2022)的既往研究,将算法信任分为态度信任与行为信任两个维度,均通过李克特7点量表进行测量。为了测量态度信任,被试者被问及“你认为在多大程度上事实核查算法是准确的(1=十分不准确,7=非常准确)”与“你认为在多大程度上事实核查算法的结果是正确的(1=非常不正确,7=非常正确)”;为了测量行为信任,被试者被问及“你在多大程度上愿意在生活中运用事实核查算法(1=非常不愿意,7=非常愿意)”与“你在多大程度上愿意将事实核查算法推荐给你的亲戚与朋友” (1=非常不愿意,7=非常愿意)(α=0.737)。
  3.现场感
  本文采用由Baos等人(2000)发明的量表判断人们在虚拟环境中的现场感判断,量表的题目根据本文的语境进行修改。通过以下两个题项进行测量:“关于刚刚通过微博看到的事件,对我而言是完全可能在现实中发生的”(1=非常不同意,7=非常同意),“这条微博对于事件的描述是非常自然的,和现实并无二致”(1=非常不同意,7=非常同意)(α=0.766)。
  4.分享意愿
  在阅读完算法核查算法对于微博真假的判定后,被试者被问及“你有多大程度会将此条微博转发给他人”(1=完全不可能,7=非常可能)。
  
四、假设检验
  (一)操纵检验
  本研究采用操纵后检验的方式检查对算法既往表现的操纵效果。对照组与实验组在对“查明真相”核查算法的介绍浏览完毕后,被要求作答“算法总是正确的,你在多大程度上同意”(1=完全不同意,7=非常同意)这一问题。操作检验结果显示,较于未告知算法失误历史的对照组,被告知算法失误历史的组别更倾向于认为算法有可能出错(M未告知=5.667,SD=0.919;M告知=3.72,SD=1.579;F(1,223)=128.467, p < 0.001),这表明实验操纵成功。
  (二)初步分析:相关性检验
  在对假设与研究问题进行分析之前,本文首先采用皮尔森(Pearson)相关分析测量了变量之间的相关关系。我们将未告知算法失误历史编码为1,告知算法失误历史编码为2,以文本模态呈现编码为1,以视频模态呈现编码为2,分析结果如表1所示。
  通过皮尔森相关分析,我们发现告知算法既往表现与个体对事实核查算法结果认同程度与算法信任之间均存在相关关系。同时,我们也发现算法信任程度与个体对于算法结果的认同、现场感存在着正相关关系,这表明算法信任可能同其他变量存在着中介或者调节关系。
  (三)算法失误对算法结果认同的影响
  本文运用单因素方差进行分析,数据表明当被试者知晓事实核查算法曾经的失误后,他们倾向于认为此条微博的可信度较低,质言之,相较于未告知算法失误历史的对照组而言,实验组倾向降低对算法判断结果的认同程度(M未告知=5.592, SD=0.853;M告知=5.095, SD=1.192;F(1, 223)=13.014, p < 0.001)。因此,研究假设H1被证实。此外,当被试者知道事实核查算法失误的历史后,他们明显降低了有关这条微博的分享意愿(M未告知=5.281,SD=1.577;M告知=4.784,SD=1.697;F(1, 223)=5.180,p=0.024 < 0.05)。然而,需要指出的是,即使在被试者知晓算法失误的历史后,他们仍然在整体上接受了算法给出的意见,即被试者仍然相信算法对于微博真假的判断,但认同程度要低于没有观察到算法失误的对照组。
  (四)信息模态对于算法结果认同程度的影响
  为检验信息模态对于算法结果认同程度的影响,本文首先采用单因素方差进行分析。结果表示,无论被试者是否知晓算法失误的历史,信息模态都不能显著影响被试者对于算法结果的认同程度(告知算法失误历史组别中,M文本=4.917, SD=1.182;M视频=5.230, SD=1.191;F(1, 223)=1.9, p=0.171 > 0.05;未告知算法失误历史的对照组别中,M文本=5.525, SD=0.672;M视频=5.664, SD=1.014;F(1, 223)=0.745,p=0.39 > 0.05)。
  在描述性分析的基础上,我们进而采用双因素方差分析,考察算法既往表现与信息模态两个变量对算法结果认同程度的影响。结果显示,算法既往表现对于算法结果的认同程度具有显著的主效应(F(1, 223)=14.201,p < 0.001, η2=0.06),信息形式与算法失误并不具有显著的交互效应(F(1,223)=0.402, p =0.527, η2=0.002)。基于上述分析,H4不被支持,在存在事实核查工具时,内容的呈现方式不能显著影响个体对于算法结果的认同程度。
  (五)算法信任对算法结果认同的影响
  我们首先对告知算法失误历史与未告知算法失误历史组别之间的算法信任进行单因素方差分析,结果发现,告知算法失误的历史不能显著影响被试对于事实核查算法的信任(M未告知=5.443, SD=0.851;M告知=5.219,SD=0.939;F(1, 223)=3.539,p=0.061>0.05)。这说明,观察到算法失误的历史并不意味着降低对于算法的信任程度,H2不被支持。
  进而,我们运用一元线性回归分析检验了算法信任对算法结果认同程度的影响。标准化回归系数β=0.367,回归系数的显著性检验结果为t=5.883 p < 0.001,算法信任与算法结果认同程度之间的方程模型为y = 3.041+0.432x,表明算法信任对结果认同程度有着显著的正向影响,即当被试者对算法的信任程度更高时,他们会更倾向于认同算法运行的结果,因此H3成立。
  (六)现场感的中介效应
  多模态信息往往被视为是引发“现场感启发式”边缘路径的原因,在既往研究中,Sundar等人(2021)发现现场感是信息呈现形态与个体真实感知之间的中介变量,但本文研究发现,当存在事实核查工具之时,信息模态并不能显著影响被试者的现实感知(M文本=5.383,SD=1.013;M视频=5.275,SD=1.174;F(1, 223)=0.538,p=0.464 > 0.05)。甚至与之相反,我们发现了“算法信任→现场感→算法结果认同”的中介路径。我们使用SPSS中的 Process插件,以Bootstrap的方式进行中介变量检验,样本量选择5000,设置95%的置信区间,选择模型4。
  结果显示(表2 表2见本期第23页),算法信任对于算法结果认同程度的总效应为0.432,直接效应是0.274,间接效应为0.158,区间[0.0781, 0.2509],不包含0。这说明了,个体对于算法的信任程度越高,就越可能认为此事件是真实发生的,便越认同算法的结果。算法信任替代了信息模态成为人们“现场感启发式”的启动原因,人们判断事情在现实生活中发生的可能性不再基于内容呈现形式,而是基于他们对于算法的信任程度。
  
五、结论与讨论
  (一)结论
  本研究采用了2×2双因素组间实验,旨在研究算法既往表现与信息呈现模态两个变量能否对算法结果的认同程度产生影响。研究发现(图4 图4见本期第24页),当被告知算法既往的错误后,人们倾向于降低对于算法结果的认同程度,但在整体上仍接受算法的判断。同时,当事实核查算法工具存在时,信息呈现模态不能显著影响被试者对于内容的可信度判断。值得注意的是,本文发现告知算法失误历史不能显著影响个体的算法信任。此外,当个体越信任算法时,他们便会认为此事越有可能在现实生活中发生,从而认为此事是真实的,现场感中介了算法信任与算法结果认同,这一发现同既往研究的结论不同(Hancock et al., 2020)。
  (二)讨论
  1.算法失误不会影响算法信任?——基于信任累积的解释进路
  Dietvorst等人(2015)发现当个体注意到算法系统失误时,他们会迅速对算法系统失去信任,进而选择弃用算法。然而,本研究发现了一个同上述研究与普遍认知相反的研究结论,当人们被告知算法失误的历史后,他们虽然会降低对于算法结果的认同程度,但是并不会显著影响人们对于算法的信任程度。
  我们试图从“信任”视角切入,对此现象提供一个可能的解释进路。山岸俊男区分了“确信”、“轻信”与“信任”这三个易于含混的概念:确信是个体在完全掌握他者信息情况下的理性选择,轻信是对于他者无理由的盲目乐观,信任则是基于积极搜集信息条件下对于他者的一种“偏见”(Yamagishi & Yamagishi, 1994: 136)。因此,信任应被视为在风险在场时对于他者行为的乐观期待(Barber, 1983: 9)。信任是基于信息搜集基础上的一种抉择,刘梦岳(2023)认为信任不是一次性的过程,受信者的合作会进一步加强信任者的信任程度,信任不断累积。当双方合作的次数足够多时,即使受信者欺骗了信任者,不能满足信任者的期待,过去成功合作的经历可能又会导致下一次的合作行为(Kurzban et al., 2008),上述现象可以被理解为信任累积。虽然,以上信任主体的讨论是聚焦于人与组织,但从拉图尔等人的视域出发,以行动者的角色同样看待物与人的存在(Callon, 1986),能够让我们在技术愈发智能化的当下更好地理解人机之间的交互。
  因而,将信任的视角应用于人与算法交互的语境下,我们可以将人对于算法的信任亦视为一个基于信息搜集的抉择过程。如果当人们最初同机器算法进行交互时便遭受挫折,他们进而会丧失对于受信者的信任,慎重地抉择是否进行下一次的合作。然而,当双方存在着合作的历史,在既有信任积累的条件下,一次的合作失误并不会影响人们对于算法整体效用性的信任,人们所面临的风险远小于初次合作时的风险。这也就解释了本研究“意料之外”的发现,研究虽然告知了被试者算法曾经失误的历史,但是少数失败的历史不能撼动用户对于算法的信任(研究设定了算法在1235次判断中存在875次判断正确)。这一发现加深了对人机交互行为与心理的理解,从“信任”角度阐释了人们对于新型技术采纳、运用与弃用的内在原因。
  2.信息模态失灵?——基于机器启发式的解释进路
  研究同时得出了另一个看似与既往研究“矛盾”的发现,即当存在事实核查算法时,内容呈现形式不能显著影响用户的真实判断过程。精细加工可能性模型指出,当个体不存在处理信息的动机与能力时,他们往往采用边缘路径(Petty & Cacioppo, 1983)。通过研究的分析发现,信息模态对于被试算法结果的认同程度没有显著影响。这也就表明,对于用户而言,相较于信息模态,算法是效用度更高的边缘路径,即使在得知算法失误的历史后,个体仍然倾向于采纳算法的意见。这说明当人们同时面对着多个线索时,他们并不会综合考虑所有线索,而是会选择在个体视角下效用度更高的解释路径。因此,这就阐明了现场感作为算法信任与结果认同程度两者间中介变量的合理性,当个体对算法的信任程度越高时,他就越会将算法视为效用高的处理路径,因此便就越可能认为此事件在现实生活中可能发生。
  (三)研究缺陷与未来展望
  本研究仍存在着一些缺陷和不足:第一,人们的既有立场可能也会影响说服效果(宫贺等,2022)。被试对于算法抱有的既有立场,可能会影响其对于算法结果的认同程度。未来的研究者可以考虑对比刺激前后算法立场的变化来完善研究。第二,本研究基于事实核查算法开展研究,这也就内在地预示着研究结论对其他算法类型的可推广性仍需受到进一步的检验。同时,本文对于信息呈现方式的处理上,仅仅选择了文本与视频两种方式,但是在实际中,存在着更多样的呈现方式。未来研究可以探讨临场感更强的直播形式对事实核查算法的影响。第三,本文对于算法失误历史的操纵以告知的方式实现,尽管研究采取了将算法失误次数加粗与案例呈现的方式,但是个体以第一视角经历的算法失误可能会比单纯的告知方式产生更大的影响,未来的研究可以考虑从人们自身经历的失误设计实验。第四,本文实验采用招募被试的方式,没有按照中国人口统计结果去配额抽样,研究的外在效度可能不尽如人意。未来的研究者可以对抽样方式予以改进,以此提高研究结论的可推广性。■
  
参考文献:
宫贺,徐莹,黄苗红(2022)。新冠疫情中科普网红的说服机制与反思:基于精细加工可能性模型的两组实验研究。《国际新闻界》,44(5),110-133。
刘梦岳(2023)。信任何以实现?——人际互动中的风险渐进与信息积累。《社会学评论》,11(1),192-213。
张超(2022)。自动化事实核查的算法逻辑、内生性风险及其规避。《中州学刊》,(2),166-172。
AdamA. (2005). Delegating and Distributing Morality: Can We Inscribe Privacy Protection in a Machine? Ethics and Information Technology, 7(4)233-242.
Amazeen, M. A.ThorsonE.Muddiman, L.& Graves, L. (2018). Correcting political and consumer misperceptions: The effectiveness and effects of rating scale versus contextual correction formats. Journalism & Mass Communication Quarterly95(1)28-48.
AmooreL. (2020). Cloud ethics: Algorithms and the attributes of ourselves and others. Duke University Press.
Banos, R. M.BotellaC.Garcia-PalaciosA.VillaH.Perpia, C.& Alcaiz, M. (2000). Presence and reality judgment in virtual environments: A unitary construct? CyberPsychology & Behavior, 3327-335.
BarberBernard. (1983). The Logic and Limits of Trust. New Jersey: Rutgers University Press.
BrandtzaegP. B.Flstad, A.& Chaparro Domínguez, M. (2018). How Journalists and Social Media Users Perceive Online Fact-Checking and Verification Services. Journalism Practice, 12(9)1109-1129.
Callon M. (1986). The Sociology of an Actor-Network: The Case of the Electric Vehicle. In Callon M.Law J and Rip A. Mapping the Dynamics of Science and Technology: Sociology of Science in the Real World. London: Palgrave Macmillan19-34.
CarterR. F.& GreenbergB. S. (1965). Newspapers or television: Which do you believe? Journalism & Mass Communication Quarterly42 (1)29-34.
CiampagliaG. L.ShiralkarP.RochaL. M.Bollen, J.MenczerF.& Flammini, A. (2015). Computational Fact Checking from Knowledge Networks. PLOS ONE10(6).
Clayton, K.BlairS.BusamJ. A.Forstner, S.Glance, J.GreenG.Kawata, A.KovvuriA.Martin, J.Morgan, E.Sandhu, M.Sang, R.Scholz-BrightR.WelchA. T.WolffA. G.Zhou, A.& NyhanB. (2020). Real Solutions for Fake News? Measuring the Effectiveness of General Warnings and Fact-Check Tags in Reducing Belief in False Stories on Social Media. Political Behavior, 42(4)1073-1095. Communication 43(4): 51-58.
CotterK.DeCook, J. R.& Kanthawala, S. (2022). Fact-Checking the Crisis: COVID-19Infodemics, and the Platformization of Truth. Social Media + Society.
Dietvorst, B. J.SimmonsJ. P.& Massey, C. (2015). Algorithm aversion: People erroneously avoid algorithms after seeing them err. Journal of Experimental Psychology. General144(1)114-126.
Dietvorst, B. J.SimmonsJ. P.& Massey, C. (2018). Overcoming Algorithm Aversion: People Will Use Imperfect Algorithms If They Can (Even Slightly) Modify Them. Management Science64(3)1155-1170.
Dzindolet, M. T.Pierce, L. G.Beck, H. P.Dawe, L. A.(2002). The perceived utility of human and automated aids in a visual detection task. Human Factors4479-94.
EntmanR. M. (1993). Framing: Toward clarification of a fractured paradigm. Journal of Communication4351-58.
FiglK.KielingS.& RemusU. (2023). Do symbol and device matter? The effects of symbol choice of fake news flags and device on human interaction with fake news on social media platforms. Computers in Human Behavior, 144107704.
Gaziano, C.& McGrathK. (1986). Measuring the Concept of Credibility. Journalism Quarterly63(3)451-462.
GravesLucas (2016). Deciding What’s True: The Rise of Political Fact-Checking in American Journalism. New York: Columbia University Press.
Hameleers MPowell TE, Van Der Meer TG, et al. (2020). A picture paints a thousand lies? The effects and mechanisms of multimodal disinformation and rebuttals disseminated via social media. Political Communication 37(2): 281-301.
Hancock, J. T.Naaman, M.& Levy, K. (2020). AI-Mediated Communication: Definition, Research Agenda, and Ethical Considerations. Journal of Computer-Mediated Communication25(1)89-100.
Highhouse, S. (2008). Stubborn reliance on intuition and subjectivity in employee selection. Industrial and Organizational Psychology: Perspectives on Science and Practice, 1333-342.
Horne, B. D.Nevo, D.AdaliS.ManikondaL.& ArringtonC. (2020). Tailoring heuristics and timing AI interventions for supporting news veracity assessments. Computers in Human Behavior Reports2100043.
Hsu, J. (2020). Can AI hiring systems be made antiracist? Makers and users of AI-assisted recruiting software reexamine the tools’ development and how they’re used - [News]. IEEE Spectrum, 57(9)9-11.
Jones-JangS. M.& Park, Y. J. (2023). How do people react to AI failure? Automation bias, algorithmic aversion, and perceived controllability. Journal of Computer-Mediated Communication28(1).
Kurzban, Robert et al. (2008). Incremental Approaches to Establishing Trust. Experimental Economics 11 (4).
Leyer, M. and S. Schneider. (2019). Me, You or Ai? How Do We Feel About Delegation. Proceedings of the 27th European Conference on Information Systems (ECIS).
LoggJ. M.Minson, J. A.& MooreD. A. (2019). Algorithm appreciation: People prefer algorithmic to human judgment. Organizational Behavior and Human Decision Processes15190-103.
Metzger, M. J.Flanagin, A. J.& MeddersR. B. (2010). Social and Heuristic Approaches to Credibility Evaluation Online. Journal of Communication60(3)413-439.
MittalB. (1995). A comparative analysis of four scales of consumer involvement. Psychology & Marketing12(7)663-682. doi:10. 1002/mar. 4220120708
MolinaM. D.& Sundar, S. S. (2022). Does distrust in humans predict greater trust in AI? Role of individual differences in user responses to content moderation. New Media & Society14614448221103534.
Oeldorf-HirschA.SchmierbachM.Appelman, A.& BoyleM. P. (2020). The Ineffectiveness of Fact-Checking Labels on News Memes and Articles. Mass Communication and Society23(5)682-704.
Petty, R. E.& Cacioppo, (1983). Central and peripheral routes to advertising effectiveness: The moderating role of involvement. Journal of Consumer Research, 10 (2)135-146.
PierroA.Mannetti, L.Kruglanski, A. W.& Sleeth-Keppler, D. (2004). Relevance Override: On the Reduced Impact of "Cues" Under High-Motivation Conditions of Persuasion Studies. Journal of Personality and Social Psychology, 86(2)251-264.
Powell TE, Boomgaarden HG, De Swert Ket al. (2015) A clearer picture: the contribution of visuals and text to framing effects. Journal of Communication 65(6): 997-1017.
Powell TE, Boomgaarden HG, De Swert Ket al. (2019) Framing fast and slow a dual processing account of multimodal framing effects. Media Psychology 22(4): 572-600.
Rader, E.Cotter, K.& ChoJ. (2018). Explanations as mechanisms for supporting algorithmic transparency: 2018 CHI Conference on Human Factors in Computing SystemsCHI 2018. CHI 2018 - Extended Abstracts of the 2018 CHI Conference on Human Factors in Computing Systems.
SeaverN. (2019). Captivating algorithms: Recommender systems as traps. Journal of Material Culture24(4)421-436.
Sherman SJ and Corty E (1984) Cognitive heuristics. In: Wyer RS Jr and Srull TK (eds) Handbook of Social CognitionVol. 1. Mahwah, NJ: Lawrence Erlbaum Associates, pp. 189-286.
Soh, H.Reid, L. N.& Whitehill King, K. (2009). Measuring trust in advertising: Development and validation of the ADTRUST Scale. Journal of Advertising38(2)83-103.
Sundar S. S. (2008). The MAIN model: a heuristic approach to understanding technology effects on credibility. In: Metzger MJ and Flanagin AJ (eds) Digital MediaYouthand Credibility. CambridgeMA: MIT Presspp. 72-100.
SundarS. S.& KimJ. (2019). Machine Heuristic: When We Trust Computers More than Humans with Our Personal Information. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems1-9.
SundarS. S.Molina, M. D.& ChoE. (2021). Seeing Is Believing: Is Video Modality More Powerful in Spreading Fake News via Online Messaging Apps? Journal of Computer-Mediated Communication26(6)301-319.
Tversky, A.& Kahneman, D. (1981). The framing of decisions and the psychology of choice. Science211453-458.
Westley, B. H.& SeverinW. J. (1964). Some correlates of media credibility. Journalism & Mass Communication Quarterly41 (3)325-335.
WilsonC. E.& Howard, D. M. (1978). Public perception of media accuracy. Journalism & Mass Communication Quarterly55 (1)73-76.
WojcieszakM.Thakur, A.Ferreira GoncalvesJ. F.CasasA.Menchen-Trevino, E.& Boon, & M. (2021). Can AI Enhance People’s Support for Online Moderation and Their Openness to Dissimilar Political Views? Journal of Computer-Mediated Communication26(4)223-243.
Yadav APhillips MM, Lundeberg MA, et al. (2011). If a picture is worth a thousand words is video worth a million? Differences in affective and cognitive processing of video and text cases. Journal of Computing in Higher Education 23(1): 15-37.
Yamagishi, T. & Midori Yamagishi. (1994). “Trust and Commitment in the United States and Japan. ” Motivation and Emotion 18 (2).
ZengX.Abumansour, A. S.& ZubiagaA. (2021). Automated fact-checking: A survey. Language and Linguistics Compass15(10)e12438.
  
刘国强系四川外国语大学新闻传播学院教授。张思雨系四川外国语大学新闻传播学院研究生。
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
主管单位: 上海报业集团
主办单位: 上海报业集团      上海社会科学院新闻研究所