Introduction

发布内容的审查工具.

Preliminary analysis

data collection

首先进行试点研究,招募62名微博用户,收集他们最近发布的post和metadata, 并评估帖子和敏感信息公开程度. (定价:8名志愿者开放式访谈,完善标注指南), 一种收集了6350个帖子(迭代过程,先标20个给我们检查)

Data Analysis and Discovery

发现标注的公开性和设置的不一样。但是没有说明标注时的标注者信息,并且标注中不公开的变多了,不能说明仅仅只是公开的标注成了非公开的。(如果标错概率一样的话,那么设置为公开的比较少,因此也会是非公开增多这样的结果)后面敏感词的分析可以说明一点问题

发现标注的公开性和设置的不一样。但是没有说明标注时的标注者信息,并且标注中不公开的变多了,不能说明仅仅只是公开的标注成了非公开的。(如果标错概率一样的话,那么设置为公开的比较少,因此也会是非公开增多这样的结果)后面敏感词的分析可以说明一点问题

1791个非公开帖子中发现了2299个敏感词, 98个非公开帖不含敏感词,平均每个非公开帖子包含1.22个敏感词。

说明按敏感词检测公开性不合理。

**回归分析:**选择特征时,首先将线性相关的特征剔除。

帖子公开度与上下文和用户的meta数据有关。

Model

Untitled

Untitled

Evaluation

Automatic Evaluation

数据集:数据集还是使用分析时候构建的

首先,说明模型收敛

Untitled

Untitled

Human Evaluation