Building a Personalized Model for Social Media Textual Content Censorship

Introduction

发布内容的审查工具.

首先进行试点研究，招募62名微博用户，收集他们最近发布的post和metadata，并评估帖子和敏感信息公开程度. （定价：8名志愿者开放式访谈，完善标注指南），一种收集了6350个帖子（迭代过程，先标20个给我们检查）

发现标注的公开性和设置的不一样。但是没有说明标注时的标注者信息，并且标注中不公开的变多了，不能说明仅仅只是公开的标注成了非公开的。（如果标错概率一样的话，那么设置为公开的比较少，因此也会是非公开增多这样的结果）后面敏感词的分析可以说明一点问题

发现标注的公开性和设置的不一样。但是没有说明标注时的标注者信息，并且标注中不公开的变多了，不能说明仅仅只是公开的标注成了非公开的。~~（如果标错概率一样的话，那么设置为公开的比较少，因此也会是非公开增多这样的结果）后面敏感词的分析可以说明一点问题~~

1791个非公开帖子中发现了2299个敏感词， 98个非公开帖不含敏感词，平均每个非公开帖子包含1.22个敏感词。

说明按敏感词检测公开性不合理。

**回归分析：**选择特征时，首先将线性相关的特征剔除。

帖子公开度与上下文和用户的meta数据有关。

Untitled

数据集：数据集还是使用分析时候构建的

首先，说明模型收敛

Untitled