Group of Software Security In Progress

GoSSIP @ LoCCS.Shanghai Jiao Tong University

Measuring the Facebook Advertising Ecosystem

作者: Athanasios Andreou, Marcio Silva, Fabrício Benevenuto, Oana Goga, Patrick Loiseau

单位:Northeastern University, Federal University of Minas Gerais 等

会议:NDSS 2019

链接:https://hal.archives-ouvertes.fr/hal-01959145/document


1.简介

Facebook广告平台在过去几年中一直受到许多争议,涉及侵犯隐私,缺乏透明度等问题。用户为何会收到这些广告,用户的哪些信息被提供给了广告商,隐私信息是否有泄露的风险,推送给用户的广告的可信度如何等等,对于这些问题Facebook平台并未透露具体情况。
研究结果表明,成为广告商没有门槛;一部分广告商的类别是潜在敏感的,比如新闻政治,健康和宗教;大量的广告商采用的定位目标人群策略是不透明的或(对于用户的隐私来说)具有威胁性的。
总而言之,本文的主要工作是为了强调平台需要更好的机制来审核社交媒体中的广告和广告商。

创新点及文章结构
尽管Facebook努力提供广告平台的透明性,但对于平台内部广告的相关信息以及广告商是如何使用平台的各种定位特征知之甚少。

以往的研究在线广告定位(无人研究Facebook上的社交媒体广告)。 本文的工作与之前的工作的不同之处在于:

  • 本文作者分析Facebook上大量广告商的广告定位策略。之前Facebook上的相关工作重点关注广告定位的解释,但它只进行了受控实验来评估Facebook提供的透明度机制。本文作者使用了他们的结果作为基础来解释本文作者收集的大规模广告和解释的数据集。
  • 本文分析的广告来源于现实世界中的用户,而不是通过创造假设的人,访问预先设定的一系列网站来收集对应的广告。

本文第四节的内容揭示了Facebook广告生态系统的复杂性。揭示了广告商的组成成分,以及一部分广告上属于潜在的敏感类别,例如新闻和政治,教育,商业和金融,医疗,法律和宗教.

本文第五节的内容分析了广告商是如何使用平台,从这几个方面进行分析:
(1)广告商采取的定位策略是什么
(2)广告商所针对的用户是哪些
(3)广告商是如何定制广告

总之,本文的分析指出,用户会收到来自潜在敏感类别的广告商的广告,这些广告商使用威胁性策略来定位用户,该策略的质量很难评估。
本文的工作强调了广告平台需要更好的机制来审核广告和广告商,提高透明度,并保护用户免受不诚实行为的侵害。

此外,本文作者开发了浏览器扩展程序AdAnalyst,该插件能够提供给用户信息,如哪些广告商定位了他们,被同一广告商定位的其它用户的属性是什么。该插件使用户保护自己免受不诚实行为的侵害,使用户更好地了解他们接收的广告。

2.背景

2.1 在Facebook上打广告

成为Facebook广告商的步骤:
(1)注册,点击“创建广告”
(2)定位目标用户
(3)上传广告文案和图片,出价
结论:由此看来,在Facebook上打广告是没有门槛的。未经过认证的用户也可以打广告,这样的用户打的广告可能具有不诚实性。

定位目标用户的方式:
(1)基于年龄,性别,位置,语言
(2)结合属性。高层次的属性包demographics,行为,兴趣。兴趣可以选择系统提供的也可以自定义。
(3)自定义受众群体。广告商通过上传各种类型的个人身份信息(PII)列表(包括电子邮件地址,电话号码,实际地址,姓名和出生日期)来完成此操作,或者选择那些访问了他们第三方网站,安装他们的app,或者Like了他们Facebook Page的用户。
(4)选择相似(Lookalike)的用户。由Facebook来判定哪些用户相似,算法机制等未公开。
几种方式可以组合。

2.2 Facebook的透明机制

Facebook提供了两种透明机制,一种是广告解释,一种是广告偏好。
(1)广告解释中提供的信息很少,举个例子:
One reason you’re seeing this ad is that [advertiser] wants to reach people interested in [attribute], based on activity such as liking Pages or clicking on ads.
其中,advertiser定位目标人群可能用了不止一个attribute,但广告解释中只显示了一个attribute。这说明这种透明机制不够透明。

(2)在广告偏好的设置页面,用户可以从中看到(一些,并非全部)与他们相关的属性,这些属性是Facebook所推断的用户属性(并非用户自己设置的)。

结论:Facebook提供的两种透明机制都不够透明。

3.数据集

通过Chrome或者Firefox上的浏览器插件AdAnalyst进行收集。
收集内容类型有:
(1)用户浏览Facebook时收到的广告
(2)广告解释
(3)广告偏好页面

两组人群(安装此插件超过一天):
(1)DATA-WORLDWIDE 114个人 (1.3年内收集的数据,用户平均天数35)
(2)DATA-BRAZIL 508个人 (5个月内收集的数据,用户平均天数29) (为了提供2018巴西政治选举的透明性)

3.1 收集数据

广告
类型包括媒体内容,文本内容,广告商的身份。不包括看视频前的广告。每个广告会有个id来唯一标识。
(1)DATA-WORLDWIDE 共88.6K个广告 ,平均每人每天11.1个广告
(2)DATA-BRAZIL 共145.8K个广告 平均每人每天11.5个广告

广告解释
如果已经收集了某个用户在两天前收到的某个广告的解释,那么这一天就不再收集该广告解释。
(1)DATA-WORLDWIDE 82.4K个广告和广告解释,剩余(4.4K)的没有收集解释
(2)DATA-BRAZIL 129.1K个广告和广告解释,剩余(16.7K)的没有收集解释

广告偏好
从中收集到用户的属性信息。
(1)DATA-WORLDWIDE 17.1K不同的兴趣,行为,demographics,用户的属性数量的中位数是310
(2)DATA-BRAZIL 38.2K不同的兴趣,行为,demographics,用户的属性数量的中位数是615

广告商
从本文收集的所有广告中,选出了22K广告商(28K)。99.4%的广告商有Facebook Page(100%)。
注:小括号里边的数据是DATA-BRAZIL数据集中的,不在小括号里边的数据是DATA-WORLDWIDE数据集中的。

3.2 数据限制

来自两部分:安装此插件的用户类型;Facebook提供广告解释的方式。

代表性和偏差结论:本文认为从足够数量的广告商那里收集了足够数量的广告,得出的结论有价值。

广告解释的限制
不完整:不论广告商使用了多少属性,在解释中显示最多一个定位属性(加上年龄/性别/位置信息)。
以往的实验表明 哪些属性显示,哪些属性不显示 是有规则的。
比如两个属性a1和a2,如果a1和a2来自不同的高层次属性分类,显示出来的属性遵从特定的优先级;如果a1和a2来自不同属性分类,则显示具有最大数量用户的属性。

道德考虑
插件代码开源,告诉志愿者本插件仅收集有关广告的信息,并明确说明插件收集的内容。本文提供的数据经过了审查和批准。

4.广告商是哪些人

A. 广告商身份
1. 知名度:
根据Facebook Pages是Likes数量来评估
(1)小透明(niche):1K Likes及以内 (DATA-WORLDWIDE中占16% / DATA-BRAZIL中15%)
(2)一般的(ordinary):1K – 100K Likes (占52% / 61%)
(3)受欢迎的(popular):100K Likes及以上(占32% / 24%)
收集的广告分布为:
来自受欢迎的63%(61%),一般的32%(35%),小透明5%(4%)
注:小括号里边的数据是DATA-BRAZIL数据集中的,不在小括号里边的数据是DATA-WORLDWIDE数据集中的。

  1. 认证用户 sparkles
  2. 蓝色:公众人物的个人资料,需要政府颁发的官方身份证件的复印件,比如护照。
  3. 灰色:企业,需要公开的电话号码或与企业相关的电话账单等文件

由表中可以看出,相比于一般的(ordinary)和受欢迎的(popular),小透明(niche)中未认证的比例很高。

结论:
广告商中只有26.6%的人有蓝色认证(公众人物),以及9.6%的人有灰色认证(企业);大部分广告(38.9%)来自于未认证的广告商。

B. 广告商的类别
sparkles

由表中可以看出,有相当数量的广告商和广告来自于潜在敏感的类别,比如政治新闻等。

某些类别的广告客户有可能影响用户在重要个人和社会问题上的决定。例如,政治广告客户可以影响用户的投票,医疗广告客户可以影响个人的治疗决定。本文认为新闻和政治、教育、医疗卫生、法律、宗教和灵性、商业和金融等类别都是敏感的。本文不主张敏感领域的广告商不应发送广告,本文的目标是对此类敏感类型的广告商的行为等给予特别关注。

5.广告商是如何定位用户的

5.1 对定位策略的分析

1.细分定位类型:
(1)年龄/性别/位置
(2)基于属性,分为5类
– 行为,demographics,兴趣。(Facebook通过用户在平台上的活动推断) – Data brokers,基于外部数据推断的属性 – Profile data,对应于用户在其Facebook个人资料中提供的信息,如婚姻状况、雇主或就读的大学。

(3)基于PII,包括邮政地址和邮箱
(4)重新定位,如访问他们的页面的用户,或使用他们的移动应用程序的用户。
(5)相似的用户
(6)基于位置:GPS
(7)社交好友
sparkles
结论
– 最流行的方式是:基于年龄/性别/位置 和 属性。 – 其次是基于相似的用户来定位目标人群,这种方式存在问题,因为算法未公开,用户不知道为何会收到此类广告。 – 基于PII(个人身份信息列表,包括电子邮件地址,电话号码,实际地址,姓名和出生日期等)。可被用于歧视性广告,并被利用泄露用户个人信息。

2.长期的 vs. 一次性定位 以下表比较了两种类型的广告商的特征。
sparkles
结论:长期的广告商多半是经过认证的,也存在着是小透明(niche)的广告商。长期的广告商使用基于PII和重新定位方法的频率比较多。一次性定位的广告商使用年龄/性别/位置和属性方法更频繁。10%的长期定位广告商以及5%的一次性定位广告商是新闻和政治类别。

3.哪些广告商针对哪些类型
哪些广告商会频繁使用不透明而且更具有威胁性的定位方法比如Data brokers, PII-based and Lookalike。
sparkles
结论:表中显示的是排名前二的广告商类别。可以看出,频繁使用这几类定位类型的广告商类别包括敏感类别,比如商业和金融。

4.总结
定位机制有时会具有威胁性,经常是不透明的。用来定位用户的数据来源多样:广告商(如PII-based),广告平台(如兴趣),第三方(如Data brokers)。来自商业和金融等特定行业的广告商更频繁地使用此类具有威胁性和不透明策略。

5.2 分析定位属性

分为四种:
(1)兴趣
(2)行为
(3)demographics
(4)资料信息

结论:大部分属性是自由文本属性;自由文本属性通常更适合于特定领域,也可能更敏感。此外,相当一部分广告商使用多个属性来定位用户。虽然在大多数情况下,定位属性与广告商的业务是一致的,但本文确实发现了一些定位是有问题。研究结果强调,有必要建立一种机制,在广告商定位用户类型时,提供更多的可见性和问责性。

5.3 分析定位的广告

(1)同一用户的广告会随着时间而变化
(2)随着用户的变化而变化的广告
(3)随着定位属性改变的广告

结论:大量的广告商会这样做,但一些关于新闻和政治的广告商这样做会让人不安,因此强调需要建立审查机制,来关注广告商是如何改变广告内容的,以及这些变化会如何影响到用户。

6.结论

本文通过从 “广告商是哪些人” 以及 “他们如何使用该广告平台” 这两个方面入手进行研究。 本文的分析揭示了不透明和具有威胁性的策略被频繁使用的现象。此外,本文还揭示了有些广告商使用过多属性来确定目标用户;有些广告商跨时间、用户以及目标属性来改变广告内容;有些广告商持续不断的针对用户。 虽然本文的内容与没有直接针对恶意行为、隐私泄露等问题,但提出了平台的后续审查应该关注的问题。