“信息是美的”:大数据时代信息图表的价值及运用
□彭兰
【本文提要】信息是美的,信息图表可以将枯燥的信息与数据转换成美丽的、能给人深刻印象并且有意义的图形,这需要的是新闻素养、技术素养与艺术素养的结合。对于媒体来说,要充分发掘和利用信息图表之美,目前有三个层面上的问题需要重点考虑:数据的来源、信息图表对新闻发现的意义以及信息图表的应用方式。
【关键词】大数据 信息图表 数据新闻 数据可视化 新闻发现
【中图分类号】G206
在“大数据”这个词日渐火热的今天,媒体的新闻业务也日益受到大数据技术的冲击。对媒体来说,运用大数据技术进行选题的挖掘、新闻深度的拓展,目前似乎仍是一个太大的挑战,但是,这并非意味着媒体在数据面前完全无所作为。早在上个世纪50年代,美国一些媒体开始探索的计算机辅助报道,就已经开启了数据新闻这样一种新的业务方向,大数据技术则加速了数据新闻的发展。而通过信息图表等手段对已经拥有的数据进行更好的呈现与解读,甚至通过信息图表来拓展与深化新闻,是通往数据新闻方向的必由之路。
所谓信息图表,是指对各种信息进行形象化、可视化加工的一种方式。根据道格·纽瑟姆(Doug Newsom)的概括,作为视觉化工具的信息图表包括:图表(chart),图解(diagram),图形(graph),表格(table),地图(map)和列表(list)等。①
从这个概括来看,信息图表似乎是枯燥、生硬的,但是美国的信息可视化专家大卫·麦克坎德雷斯(David McCandless)却认为,信息是美的。在他的《信息之美》一书中,没有连篇累牍的文字,有的只是一个又一个美丽图形,而这些美丽图形都是数据可视化与信息视觉化的产物,它们给我们提供了认识世界的一个个全新视角。
麦克坎德雷斯通过他的实践让我们看到,信息之美,来自对数据的有效收集、对数据关系的充分理解,以及对信息形象的生动再现。
对于媒体来说,要充分发掘和利用信息图表之美,目前有三个层面上的问题需要重点考虑:数据的来源、信息图表对新闻发现的意义以及信息图表的应用方式。
一、处处有“石油”:信息图表的数据来源
信息图表的基础是数据。关于数据,今天的一个普遍说法是,它是新的“石油”。虽然媒体自身拥有的数据资源并不一定丰富,但是,只要有心,处处都可以发现数据“石油”。
1. 新闻中的数据资源
很多新闻中已经包含了数据,对这些数据进行归类统计、分析和可视化呈现,是信息图表的常见方式。如果要做出有独特视角的信息图表,往往不能依赖一条新闻,将同类新闻或不同时期的相关新闻中的数据进行整合、比较,可以使新闻的揭示更为立体、深入。
2.网络用户数据及网络公共资源
对于网站来说,用户数据是重要的数据资源,通过对用户数据的挖掘,可以将个别的、分散的行为中蕴含的共同规律揭示出来。例如,淘宝网曾对各地网民在网购中所买商品的种类进行统计,并用地图的方式展现了各地网民在网购中的不同偏好。②除了用户数据外,网站掌握的其他数据,也是有价值的资源。
此外,网络中还有很多其他公共资源,例如,搜索引擎等提供的相关数据、社会化媒体的内容等。这些数据,也是信息图表的重要基础,只是要挖掘出这些信息富矿,技术的挑战也更大。
3.政府机构、企业等发布的公开数据
政府机构、各类组织以及各企业都会发布很多公开数据,这些公开数据可以作为新闻的背景或对比性信息加以利用。
在美国等国家,有很多政府主导的公共的信息或数据库,它们是媒体的重要资源。比如,在美国政府的“开放政府计划”(Open Government Initiative)的背景下,2009年5月21日, Data.Gov上线发布,上面公布的数据主要由联邦政府授权机构进行采集与整理,用户还可以推荐其他数据集载入网站。此外,网站还提供地图索引方式链接各州政府公开的数据集。
因此,大数据时代,媒体要更好地运用数据进行新闻报道,一个重要前提是政府的信息公开。计算机辅助报道、数据新闻这样的业务形式之所以在美国更为发达,这和美国的政府信息公开程度直接相关。
二、不只是数据呈现:信息图表驱动下的新闻发现与深化
“如果在一开始我们不知道自己想了解什么,或者不知道有什么可以去了解,那么数据就是枯燥的。它不过是数字和文字的堆砌,除了冰冷的数值之外没有任何意义。而统计与可视化的好处就在于可以帮助我们观察到更深层次的东西。” ③
虽然信息图表是数据的可视化呈现手段,但是,信息图表的意义,并不只是用丰富多彩的图形将显在的数据呈现出来,它也不仅是文字表达的一个辅助手段,很多时候,信息图表的选题策划、数据搜集以及数据呈现的过程,就是一个新闻的发现和深化过程。
1.挖掘“数据关系”,发现深层意义
信息图表价值的提升往往依赖于对数据关系的认识与挖掘,而其基础是多种维度数据的收集、比较与分析。
单一维度的数据只能反映事物的一个局部表象,当更多维度的数据被收集起来后,它们之间便产生了对比、映照的多种可能,而这种对比通过信息图表展现出来时,可以揭示一些更深层的现象。
2011年8月英国全国性骚乱发生后,英国《卫报》启动了一个名为“解读骚乱”的项目,这个项目的目标是通过数据收集及相关分析手段,对骚乱产生的原因及影响进行深层研究。这个项目的数据采集主要来自三个方面,一是通过对参与骚乱的人、警察、普通居民等进行深度访谈来获得第一手材料;二是对社会化媒体上的内容(特别是Twitter上257万条与骚乱有关的信息)进行数据分析;三是搜集与犯罪嫌疑人个人信息相关的法庭记录。此外,其他一些机构的数据也给这个项目提供了基础性支持。
在这个庞大的计划中,信息图表不仅是数据分析结果呈现的主要方式,也是揭示事实真相的基础。在其中的“英国骚乱:贫穷是一个起因吗?”部分,项目组在他们搜集的法庭数据基础上完成了一个对比性的信息图表“贫富因素与骚乱”。这个图表的基础是一张显示各个地区贫富等级的英国地图,在这张地图上标识出2000多个骚乱参与者的家庭住址,从图中可以清楚地看到,骚乱参与者绝大多数居住在英国的贫困地区。地区性的贫富差距与犯罪嫌疑人的住址这两个维度的数据的叠加对比,直接揭示了贫富因素与骚乱之间的关联。这一发现,在一定程度上反驳了英国首相卡梅伦所持的贫困并非导致骚乱的主要原因的观点。
在“解读骚乱”的另一张信息图表中,研究者将骚乱参与者的家庭住址与他们参与骚乱的地点这两个不同维度的数据进行了对比,并用动态的方式显示了他们的活动路线图。统计分析发现,这些人参与骚乱的地点与他们家庭住址之间的平均距离为2.6英里左右,在步行范围。虽然各个城市的情况有所差异,但这个平均数据说明,多数人并非是通过长途旅行去参与骚乱的“通勤骚乱者”(riot commuters),他们更有可能是偶尔卷入到骚乱中的。
除了数据的叠加、比较之外,数据分析的另外一种常见思路,是通过数据的关联揭示事物之间的联系。在电子商务网站中,一种常用的数据关联分析,是买过某商品的用户还买过哪些其他产品,这种关联分析不仅可以为用户推荐他们可能感兴趣的产品,还有可能揭示出某些人群的共同行为特征。对于未来的媒体受众分析以及新闻报道来说,这种关联分析思路也是值得借鉴的。
总的来说,对于多数信息图表的制作来说,其基础在于发现和揭示数据的关系,在数据的关系中,我们可以看到每个数据更深层的含义,同时也会对新闻事实的真相及其意义有更深入的认识。
2.加大时间或空间跨度,揭示总体规律
数据总是对应于某个特定的时间或空间,但孤立的时间或空间点的数据,只能反映一个暂时、局部的现象。在策划与制作信息图表时,如果我们把视野放到更大的时间或空间跨度上,就有可能揭示更为长期的、总体的规律。
图1(见本期第16页)所示的是新浪“图解新闻”栏目中的信息图表“朝鲜特色的‘和’计划”,它将1985年以来朝鲜几次与核武器有关的重大动作以及与之相伴的向国际社会申请援助的行为进行了梳理,在这种大的时间跨度上看朝鲜的“核进程”,我们可以更充分地了解其行为惯性,对于在当下朝鲜发生的事情,也会有更深入地理解。
除了时间跨度的放大外,空间跨度的放大,也是深化新闻报道的一种有效方式。例如,在分析禽流感的蔓延过程时,我们的视野不能仅仅局限于某一个局部地区,而应该是整个中国,在大范围的空间中,可以更清晰地看到禽流感的整体发展、扩散规律,而如果把这个流感扩散图与候鸟的迁徙图对照,也许能找到探寻禽流感感染源的线索。
3.实时采集受众数据,实现反馈信息向新闻内容的转化
今天的新闻报道,不仅要揭示已经发生的新闻事实,还要努力收集与反映受众的反馈。尽管新闻跟帖、博客、微博等渠道产生了非常丰富的受众反馈,但这些反馈一般难以与新闻本身进行实时的结合。而一些具有互动功能的信息图表本身就是一种数据“采集器”,可以实时收集受众意见,并且将它们马上转化为新闻内容的一部分,成为新闻延伸与深化的基础。
例如,在美国一个地方性网站关于当地市政建设的专题中,网站设计了一个具有互动功能的信息图表,如图2(图2见本期第17页)。受众不仅可以通过这个图表了解到需要进行市政改造的各个地区的状况,还可以通过互动按钮对自己认为急需进行的改造工程进行投票,对筹集工程资金的备选方案进行表态。受众的反馈,即时地被汇总统计出来,每一个受众都可以了解到当前的整体意见。
如果对信息图表的潜力有足够的认识,信息图表就不再只是一种新的表现形式,它更是包含了认识世界、揭示现实的新角度、新思维。
三、数据可视化、看图说话、以图整合:信息图表应用的三大方向
信息图表作用各不相同,制作思路也因作用的不同而有所差异。目前的信息图表的制作主要有三大方向:一是数据可视化,二是看图说话,三是以图导航。
(一)数据可视化:“量”与“关系”的形象再现
数据可视化,在今天已是一个固定的概念,指将数据信息的“量值”或“关系”等转变为直观的图形。在信息处理技术中,数据并不仅指数值型的信息(也就是我们常说的数字),也可以指文本、图片、音视频等其他类型的信息。数据的可视化加工,目前主要指将数值型、文本型的数据及其关系用视觉化手段,例如图片、动画等形象呈现出来。但在未来,声音等数据的可视化分析也将越来越普及。在媒体的信息图表中,数据可视化主要涉及以下几个方面的应用。
1. 如何让数字更打动人?
如何让那些看上去抽象、枯燥的数字更好地吸引人们的眼球,让人们在一瞥中能记住并且理解这些数字?这是数据可视化要解决的主要问题之一。但正如上文所说,信息图表并不只是单一维度的信息的简单呈现,它还可以有更多的表现方式。常见的方式包括:
数字的形象化呈现:柱状图、饼图等也许是所有使用过可视化软件的人的入门体验。对于数据的量进行形象化呈现,如用柱形的高低、扇形的大小等来代表数字的多少,这是目前各种可视化软件(如Excel、Tableau、IBM Many Eyes等)所具有的最基本的功能。
当然,对于有创造力的信息图表制作者来说,他们深知人们可能已对柱状图、饼图等常规手段产生了审美疲劳,因此会不断地引入新的视觉手段,让数字形象更“性感”。图3(图3见本期第18页)是腾讯网做的“中国幸福地图”的一个局部。“中国幸福地图”是腾讯网以1000多万名网友参与的调查数据为基础制作的一个中国网民对所在城市满意度的信息图表。在这个图中,没有用常规的柱形,而是用一个个立体的小人形代表了满意程度的百分比。数字“形象化”中的“形象”创新,是未来可视化设计中的一个重要方向。
多种数据的对比:多种数据的对比,也是数据可视化的基本方式。量的关系、比例关系、层次关系等,可以在这种对比中得到直观体现。
数据在时间坐标中的变化:将不同时间点上单一维度或多个维度的数据集中展现出来,可以使事物的动态变化过程得到更好的体现。可视化软件中常见的折线图等就是常用的表现手段。当然,也有些信息图表是基于时间轴的动态图表。拖动时间轴,就可以看到不同时间节点上的数据呈现。
数据在空间坐标上的对比:将形象化的数据直接放在地图等空间坐标上,可以让人们对数据所对应的地理空间与环境有更直观的感受。
2.如何读出文字背后的意义?
文字也是一种数据,对文字型数据的分析,常常可以让我们读出文字背后的意义。对媒体而言,文字数据的信息图表表达,主要是词频统计与分析。通过一段文本中某些关键词的出现频率的数据统计及形象展示,可以使人们对文本的特征有更直接、充分的体会。
例如,网易“数读”栏目中的“十年间,他们问了总理什么问题”,对2003年至2012年间的“两会”期间总理记者招待会上记者的提问进行了统计。统计结果显示,10场中外记者见面会共有包括中国在内的12个国家的媒体获得130次提问机会。其中,外媒记者“抢走”了67次,占总提问次数的52%。国内媒体对经济增长和经济政策最感兴趣,其次是和民生相关的房价、通胀话题。国外媒体记者的提问最多的是双边和多边问题。除了这些基本数据统计外,图表中还对提问的关键词进行了词频分析(见图4)(图4见本期第18页)。
当然,更专业的分析,还可以体现为对词的关系的分析、文字语境的分析等。但这些手段目前更多的是用在专业性研究中,媒体的使用相对有限。
3. 如何实现关系的描绘与解读?
除了数据量值的关系外,可视化还常常涉及到社会网络中的关系。
从社会学角度看,人与人之间、组织与组织之间甚至国家与国家之间的关系网,都可以称为社会网络,社会网络分析是研究各种“行动者”之间关系的一种方法,而其中一个方式就是用直观的图形描绘出关系,并以此为基础分析这个网络中具有影响力的关键节点以及节点间的联系,这也催生了各种社会网络分析的专用软件。
对于新闻报道来说,社会网络关系图有时也是一种辅助手段,例如,如果要揭示微博平台上的意见领袖谁更有影响力,那么,社会网络关系图能让我们一目了然。这种关系图也可以进一步演变为信息的传播路径图,因为信息的传播也是依赖人们的关系。
图5(图5见本期第19页)所示是新浪微博账号为“社会网络与数据挖掘”的研究机构利用自己的分析工具生成的一条微博的传播路径图,除了可以看到在这条微博传播过程中哪几个关键节点起了主要作用外,这个图还展示了一个奇怪的现象,即这条微博的传播层级只有2层,在信息的二级接收者那里,这条微博的扩散过程全部戛然而止。如果数据采集没有问题的话,那么这个传播关系图还揭示出了这条信息传播背后的“故事”:这是由“水军”操纵的扩散。
数据可视化的基本手段是各种可视化软件。要能顺利完成数据可视化,需要有对相应软件的熟练运用。
(二)看图说话:信息的视觉化萃取
除了数据可视化外,信息图表的另一大方向是看图说话,也就是把文字信息变为形象符号,以视觉方式引导人们对信息的关注与思考。当然,数据可视化与看图说话两者间并没有绝对清晰的界限,看图说话型的信息图表中常常也包含着数据可视化的成分。国内媒体制作的信息图表中,看图说话的比重更大。
今天的媒体,特别是网络媒体,面对着一对极大的矛盾:一方面是信息的高度过载,另一方面是受众变得越来越懒这样一个现实。看图说话型信息图表的流行,在某种意义上是这种矛盾的产物。信息图表是信息萃取与精华提炼的一种重要方式,对于受众来说,这意味着他们可以用更小的代价更快地获得信息精华。这种图表常常也引导着解读与思考信息意义的方向与路径。
看图说话型的信息图表,也有不同的侧重。常见的方向包括:
1.浓缩要点
一条新闻中的重点内容,如果用信息图的方式提示出来,可以使人们更好地关注、理解和记忆这些要点。
例如,2012年“两会”期间,一张名为“2012政府工作报告脱水版”的信息图表在微博中广为流传。这张由信息可视化服务商“EG365”制作的信息图表,将两万字左右“政府工作报告”中的要点浓缩成了几百字,通过形象的图形与文字的配合,给人们提供了一个全新的了解“政府工作报告”内容的方式。
类似这样的“浓缩”、“脱水”类信息图表,非常便于在诸如微博这样的社会化媒体平台中传播,它们已经成为文字报道二次加工的一种常见方式。
2.揭示关系
新闻事件中,各种对象间常常会出现各种复杂的关系,例如人物关系、利益关系、结构关系等。信息图表有助于梳理与揭示这些关系。很多时候,对于报道者来说,厘清这些关系,也可以为未来的调查采访和报道提供方向。这里所说的关系,比可视化软件描绘的社会网络关系涵盖面更广,其制作工具也不限于可视化软件。
例如,在郭美美事件成为社会化媒体和专业媒体的焦点之后,《东方卫报》用关系图的方式,将郭美美事件中涉及到的人物、组织及其之间的关系链条用形象的方式展现出来,如图6(见本期第20页)所示。尽管有些人物身份不明,有些关系链条还有待证实,但对各个人物身份的查证及其之间的关系的梳理,正是解开郭美美背后的种种谜团的“密钥”。对于记者来说,这种关系图的梳理,是他们进一步调查的依据,对于读者来说,这一关系图,也可以帮助他们把事件的来龙去脉及其影响看得更为清楚。
3.图解过程,梳理进程
很多时候,信息图表可以将一个事件的发生过程或一个大跨度事物的发展进程图示出来,使人们有更直观的认识。
图7(见本期第20页)所示的是《纽约时报》网站制作的“还原波士顿马拉松爆炸案现场”信息图表,它从袭击之前、第一波爆炸、第二波爆炸、爆炸之后等四个阶段分别呈现了犯罪嫌疑人所在的位置及其他相关信息,包括在爆炸之前犯罪嫌疑人现身的图片。
在国外,“时间线”是一种非常常见的信息图表,其主要作用,一是以时间为依据将相关内容整合起来,二是以时间为线索揭示整个事物的变化过程。“时间线”这样的方式,通常涉及跨度很大、线索较多的事物的演变全程,而不是一个单一事件的发展过程。
4.展现情状
信息图表也是展现事物的形势、状态等的一种重要手段。
《晶报》曾刊登“全国首张PM2.5地图”,[12]这张图表非常特殊,它是由全国各地的人们用手机拍摄的当地天空的图片拼合而成,它形象且完整地展示了我国不同地区的天空颜色,从一个侧面显示了我国各个地区的空气质量。
5.阐释观点
信息图表也在日益变成评论的一种方式。在某些信息图表的视觉信息组织中,也包含着一种内在的论证思路。数据以及其他视觉信息手段成为了论据,当充分的论据按照合理的逻辑呈现、演进时,一些观点的达成也就水道渠成,尽管有些图表中并没有直接的观点呈现,但一切已在不言中。
6.再现场景
信息图表也可以用于把某个现实环境或场景以数字化的方式重现出来。在2010年上海世博会期间,一些网站制作的网上世博会,就是其中的典型代表。在这类信息图表中,往往会采用二维甚至三维动画效果。
(三)以图整合:多元信息在图形上的集成
在网络平台上,信息图表还有另外一种可能,即作为集纳各种信息的“容器”,实现信息的整合与导航。那些具有互动功能的信息图表特别是时间线和地图,往往可以成为不同时间、不同来源的内容或稿件整合的框架。这些信息图表中的链接,可以将用户带向原始素材的来源。
图8(见本期21页)是搜狐网在2010年的玉树地震专题中制作的一个信息图表。它以地图为基础,将网民在微博中发布的相关消息,定位在特定的时间与空间坐标上,点击地图中的不同地区,可以看到不同地区的网民发出的微博消息,同时,还可以点击图表左边的时间,看到每天的不同进展。
随着信息图表实践的深化,相信除了以上提到的三个方向外,未来的信息图表还将有更多的应用思路。
信息是美的,但要将枯燥的信息与数据转换成美丽的、能给人深刻印象并且有意义的图形,需要的是新闻素养、技术素养与艺术素养的结合,这对今天的媒体人、传媒教育来说,都是一个重要的挑战。
信息是美的,还有一个更重要的前提,那就是信息是真的,是准确的,离开这个前提,再美的形式也没有意义。■
(作者系中国人民大学新闻学院教授、博导,中国人民大学“新闻与社会发展研究中心”研究员,新媒体研究所所长)
注释:
①《信息图表设计的概念与历史》,
参见http://www.douban.com/group/topic/16410517/
②《淘宝发布首份趣味消费地图:2011年度,包裹里的“中国地理志”》,载《钱江晚报》2012年2月28日)
③[美]Nathan Yau:《鲜活的数据:数据可视化指南》第2页,向怡宁译,人民邮电出版社2012年版
④参见
http://www.guardian.co.uk/news/datablog/2011/aug/16/riots-poverty-map-suspects。
⑤参见:http://news.sina.com.cn/c/t/20130411/192598.shtml
⑥资料出处:http://www.heraldnet.com/fyc/#。但目前该网页已无法打开
⑦参见:http://news.qq.com/zt2013/xingfuditu/
⑧参见
http://data.163.com/12/0316/00/7SM693C600014MTN.html
⑨参见:
http://photo.weibo.com/2392261910/wbphotos/large/photo_id/3550004708771573?refer=weibofeedv5
⑩《郭美美究竟爆出了多少关系》:《东方卫报》2011年7月5日
[11]参见:
http://www.nytimes.com/interactive/2013/04/17/us/caught-in-the-blast-at-the-boston-marathon.html
[12]《首张PM2.5版中国地图深圳发布》,载《晶报》2013年5月5日
[13]参见:http://news.sohu.com/s2010/yushudizhen/