中国信息安全测评中心穆琳：“剑桥分析”事件“算法黑箱”问题浅析大数据协同安全技术国家工程研究中心

中国信息安全测评中心穆琳：“剑桥分析”事件“算法黑箱”问题浅析

2018-05-06 19:45:00 来源超级管理员

■ 中国信息安全测评中心穆琳

大数据分析公司剑桥分析（Cambridge Analytica）时任首席执行官亚历山大·尼克斯（Alexander Nix）曾在2016年公开表示，剑桥分析帮助英国脱欧团队“充实了社交媒体宣传活动”，确保“正确的信息传达到正确选民手中”。他还称，利用大数据技术、心理学方法分析社交网络数据，据此向持摇摆态度的选民投放广告、指导竞选人线下活动，帮助特朗普团队影响2016年美国大选选情。2016年底至2017年初，随着英国脱欧阵营在公投中得票数过半、特朗普当选美国总统，剑桥分析上述言论及其业务引发德国《Das Magazin》杂志、美科技网站主板（Motherboard）等外媒警觉，并对其运营模式展开深度调查，称其“用数据颠倒了世界”。但是，相关报道并未引发舆论关注。直至2018年3月18日，前剑桥分析员工克里斯托弗·威利（Christopher Wylie）向英国《卫报》透露，该公司自2014年起非法获取了5000万脸书（Facebook）用户数据，用于影响公众政治选择，将剑桥分析推上舆论的风口浪尖。

美国伊隆大学助理教授、数据科学家乔纳森·奥尔布赖特（Jonathan Albright）认为，剑桥分析公司造就了一台选民操纵机器，用情绪作为缰绳套住选民，一个一个地拉拢公众拥护某一立场，最终实现舆论引导和转向。若将数据比作剑桥分析这台机器的“燃料”，算法则犹如“引擎”，是推动剑桥分析实施一切政治干预活动的核心动力来源。当人们聚焦脸书数据共享机制是否合理、剑桥分析获取数据途径是否合规的同时，由于算法黑箱引发的数据被滥用、操纵问题，亦不容忽视。

一、“剑桥分析”利用精准营销影响选民政治态度

“精准营销”一词源于营销学，是指在合适的时间、合适的地点、将合适的产品以合适的方式提供给合适的人。剑桥分析公司将精准营销用在政治宣传中，利用问卷调查的方式，获取读取用户脸书数据授权并收集大量社交网络数据后，与其在多种渠道购买的民众土地登记、汽车信息、购物习惯、俱乐部会员资格等个人信息相整合，形成用户行为数据库，再借助大数据分析、心理学分析技术建立民众性格档案，筛选出持摇摆政治态度的选民，根据其性格、认知特点，在合适的时间（例如选举前）、合适的地点（例如目标选民经常浏览的社交媒体等网页、可能参与的线下竞选宣传活动），以最易影响目标选民政治倾向的信息呈现方式，向其精准推送和传播相关政治理念，最终影响其投票抉择。

前剑桥分析公司员工威利称，美国总统唐纳德·特朗普（Donald John Trump）前首席战略顾问史蒂芬·班农（Stephen Bannon）是剑桥分析的早期董事会成员，并为该公司命名。前剑桥分析首席执行官尼克斯曾透露，在2016年美国大选期间，他与特朗普多次会面，剑桥分析公司帮助特朗普团队进行了“所有的调查、数据、市场定位”，并称特朗普发布的每一条推文背后都有数据支持。众多业内人士则发现，特朗普相关竞选活动确实与政治精准营销有一定关联。英国国王学院的媒体、传播与权力中心主任马丁·摩尔（Martin Moore）称，2016年美国大选期间，特朗普团队每天投放4到5万条内容略有差异的广告，反复评估用户反馈并依此调整竞选宣传工作，相关操作完全不透明。

《数学杀伤性武器》的作者、数学家凯西·奥尼尔（Casey O'Neal）曾评价称，特朗普的行为与追踪观众反应的计算机程式完全合拍，一举一动好像都是由这类投机的程式设定。在2016年美国大选前夕，牛津大学计算机政治宣传项目研究主任塞缪尔·沃利（Samuel Wally）发现，偏向特朗普的政治宣传严重依赖人工智能精准投放信息形成的机器人水军。直至大选日，与希拉里·克林顿（Hillary Clinton）相比，特朗普的机器人水军有5：1的数量优势。在大选辩论期间，程序员们对内容呈现的时机进行精细微调，战略性地占领亲希拉里的主题标签，大选结束后这些账号即销声匿迹。

二、算法驱动“剑桥分析”政治精准营销“引擎”

算法依靠人工写入的运算法则，对数据进行计算，从而输出决策为用户服务。在现代精准营销中，人们利用算法打破粗放式营销方式，对用户行为多维数据进行深度挖掘，构建精准用户画像，再结合机器学习算法构建预测模型，将营销信息与目标人群进行自动匹配，通过多种渠道对用户进行个性化营销信息推荐，从而引导其购买行为。因此，算法是驱动精准营销的重要“引擎”，对剑桥分析政治精准营销而言，亦不例外。算法分析助力剑桥分析公司进行政治精准营销主要表现在两个方面：

一是建立用户性格档案。剑桥分析针对用户行为数据库，利用机器学习等算法建立模型，分析不同用户群体的人格特质、潜在需求、性格和负面情感等特征，并根据社交媒体上的“点赞”倾向快速判断用户的性别、性取向和政治倾向等，从而建立性格档案，成为其对用户行为做出更为准确评估与预测的重要依据。前剑桥分析公司首席执行官尼克斯曾公开表示，该公司存档了几乎每位美国成年人的性格档案（约2.2亿人）。

二是向用户精准营销政治理念。在线上，剑桥分析公司依据选民性格和认知特点，利用人工智能系统向其浏览的脸书等网页精准投放政治营销广告、制造水军账户发文传播相关政治理念，直接影响选民政治态度与投票结果。在线下，剑桥分析公司一方面通过大数据分析获知在政治宣传中，哪些信息在哪些地方最能引起选民共鸣或反感，据此精确指导相关政治人物的线下宣传活动；另一方面利用算法将大数据进行地理空间可视化，开发出一款名为Groundgame的竞选拉票应用程序，精确显示某一幢房子里居民的政治观点和性格类型，指导拉票人员有针对性地定制拉票谈话内容，提高上门拉票成功率。

三、通过解决“算法黑箱”实现政治精准营销

2008年，在美国共和党人约翰·麦凯恩（John McCain）参加总统竞选时，其首席技术官迈克尔·帕尔默（Michael Palmer）创建了美国用户行为数据库，以帮助麦凯恩更好地了解选民心理、有目的地进行竞选宣传。该数据库于2011年与美国科赫兄弟（Koch Brothers）出资的数据非营利机构合并，形成现今为美共和党人参加竞选活动服务的、拥有2.5亿美国选民行为数据并可预测其投票倾向的数据库。此外，美共和党还有一个类似的由共和党全国委员会打造的官方数据库。与此同时，美国民主党的选举活动主要由总部位于华盛顿的NGP VAN公司的选民数据库提供支持。除美国政治家外，印度总理纳伦德拉·莫迪（Narendra Modi）曾在2014年参加大选时至少与三家信息技术公司合作，跟踪网民实时政治倾向；法国总统埃马纽埃尔·马克龙（Emmanuel Macron）亦曾借助数据分析公司了解选民政治倾向，获得优先施政政策建议等，更具针对性地进行竞选宣传活动。以上表明，大数据渗透政治是当前西方民主政治的重要发展方向。

剑桥分析公司借助其算法分析能力，利用大数据服务于选举活动，形成了真正意义上的大数据渗透政治——政治精准营销。在“剑桥分析”事件中，利用选民性格弱点，向其推送假信息影响政治倾向，甚至利用机器人水军在社交媒体注册虚假账户，传播相关政治理念的行为，受到舆论谴责。人们对剑桥分析公司提供的政治精准营销业务、收集用户数据的来源、维度、体量已有所了解，但是，其业务中具有决策作用的算法并不公开，在输入数据与输出决策结果之间存在外界看不到的“隐形层”，其决策过程不可解释，即形成所谓的“算法黑箱”问题。

“算法黑箱”为剑桥分析政治精准营销活动蒙上神秘的面纱，使外界对其政治干预细节无从知晓，是其得以滥用、操纵数据进行假新闻传播、利用机器人水军制造舆论假象的根本原因。因此，解决“算法黑箱”问题，避免政治精准营销带来不可控后果，在国际上已有共识。2016年，全球最大的非营利性专业技术组织电气和电子工程师协会（IEEE）在其发布的《关于人工智能及自动化系统的伦理设计白皮书》中，明确要求人工智能和自动化系统应有解释能力。2017年，美国计算机协会（ACM）美国公共政策委员会在其发布的《关于算法透明性和可问责性的声明》中提出七项基本原则，其中之一即为“鼓励使用算法决策的系统和机构对算法过程和特定决策提供解释。这在公共政策中尤为重要”。2018年3月，法国总统马克龙宣布法国将在2022年前投入15亿欧元开发人工智能，并着重强调将通过向私营企业施加更多压力的方式提高人工智能算法透明度，解决算法黑箱“算法黑箱”问题。欧盟在将于2018年5月生效的《一般数据保护条例》中，要求所有科技公司对其算法自动决策进行解释。这些均为各方应对政治精准营销中的“算法黑箱”问题提供参考。

（本文刊登于《中国信息安全》杂志2018年第4期）

声明：本文来自中国信息安全，版权归作者所有。

业界要闻

中国信息安全测评中心穆琳：“剑桥分析”事件“算法黑箱”问题浅析