[关闭]
@buyaowangji 2018-06-05T04:51:54.000000Z 字数 1824 阅读 665

2018年中研院演讲-解析中国政府的信息管制:King et al(2013)的幕后故事

Gary King


本文整理自哈佛大学政治科学系Gary King教授在“中央”研究院的演讲

我们本来只是从政治学方法论出发,想研究人工智能文本分析,开发了算法给新创公司Crimson Hexagon来分析全球各地社群网站贴文。为了对我们开发的人工智能算法作压力测试,我们决定尝试分析中文社群网站贴文。但在分析过程中,我们发现有许多贴文已经被删除,但Crimson Hexagon却及时下载了,所以我们看得到所有尚未被删帖的文章,进而开始研究中国政府的信息管制。

我们有一系列的研究,发现传统上对中国政府的信息管制有误解:批评领导、批评政府的贴文不会被删帖,但鼓吹集会游行的会被删帖,即使是支持政府的集会。前者是因为中国政府会根据批评贴文,决定是否撤换领导干部,而且我们甚至可以用批评贴文多寡来预测哪个官员会被撤换。但后者则显示中国政府信息管制的目标,不再于管制你怎么看他们,而是预防任何集会游行(collective action)。举例来说,艾未未被抓时许多要大家去声援的帖子都被删除,但是批评一胎化政策存续与否的帖子不会。

我们也尝试研究五毛党的动机,用江西省赣州市章贡(Zhanggong)区互联网宣传办公室不小心放在网络上的电邮备份,观察到1245封五毛党凭贴文领钱的请求电邮,然后跟已知的五毛贴文一起分析。再用分析结果做出统计模型、预测全中国所有潜在的五毛党是谁,然后对他们做问卷调查、确认他们真的是五毛党!

章贡电邮显示,99.3%的五毛贴文来自超过两百间办公室,而不是一般人民。我们将五毛内容分为五类:除了批评外国政府、带有论述赞美或批评(传统看法),还有不带论述的批评或赞美,事实陈述和当拉拉队。我们拿这五类来分析章贡五毛贴文,结果发现80%都是当拉拉队,10%或更少不带论述的批评或赞美、事实陈述,却没有半个符合传统看法的两类内容。把这些五毛贴文的微博账户贴文拿出来看,不管是专属五毛账户,或者是也会贴私人信息的共享账户,他们的贴文分类也大部分是当拉拉队。外推到全中国潜在五毛党,也是一样。我们估计2013年全中国有4.4亿五毛贴文,但从时间上来看集中在特定的「敏感时间」,目的是稀释鼓吹集会游行的贴文,预防或阻止集会游行。

为了验证这些是否真的是五毛党,我们对这些「预测为五毛」的微博账户做问卷,用当地的微博帐户发送讯息问他:“I saw your comment, it’s really inspiring, I want to ask, do you have any public opinion guidance management, or online commenting experience?” 我们也同时发送问卷给「从章贡电邮已知是五毛」的微博账户,还有「推测/已知不是五毛」的微博账户(在跟已知五毛账户同样地区的随机样本)。结果显示57%的章贡五毛回答是、承认是五毛,跟我们预测是五毛的微博账户差不多(59%),但已知不是五毛的微博账户则只有不到20%回答是。

我们私下的工作论文被记者注意到,把结果登在纽约时报和华尔街日报上。结果居然引起中国政府的注意,在中文的环球时报上用社论回应,承认五毛党存在、证实章贡电邮外泄为真,摘要我们的研究结果,而且承认他们带风向是为了阻止草根社会议题演变成集体(抗议)行动。中国政府为甚么要这么做?会不会是因为中国社会也认同这样的带风向?我们统计对此社论的回应,发现在环球时报网站上80%的贴文赞成,但在微博上只有30%赞成,表示中国社会不见得认同这样的带风向,但中国政府有需要就此事特别跟大众说明、争取支持。

结论:威权政府像大象一样,在网络上的一举一动都会留下足迹,可供我们研究他们的意向和动机。

Q&A:
台大经济系老师问:你们在选择「预测/已知不是五毛」的微博账户发送问卷时,有没有尝试去让对照组样本跟实验组样本在各种已知背景变项上一致?
答:没有,我们只有从当地微博去找最不可能是五毛的账户而已。所以顶多是match地区而已。

国立中山大学政治系老师问:你有没有尝试研究五毛党做法是否真的有效避免集会游行?
答:这是一个有趣的问题,值得进一步研究。

新竹清华中国研究中心老师问:现在有不少青年很自豪地承认自己是五毛,这会不会挑战你的研究?
答:我们不是用贴文内容来区分这是不是五毛,因为中国有非常多拥护政府或反美反日的网民,因此光从贴文内容无法判断是否为五毛。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注