发布内容的审查工具.
首先进行试点研究,招募62名微博用户,收集他们最近发布的post和metadata, 并评估帖子和敏感信息公开程度. (定价:8名志愿者开放式访谈,完善标注指南), 一种收集了6350个帖子(迭代过程,先标20个给我们检查)
发现标注的公开性和设置的不一样。但是没有说明标注时的标注者信息,并且标注中不公开的变多了,不能说明仅仅只是公开的标注成了非公开的。(如果标错概率一样的话,那么设置为公开的比较少,因此也会是非公开增多这样的结果)后面敏感词的分析可以说明一点问题
1791个非公开帖子中发现了2299个敏感词, 98个非公开帖不含敏感词,平均每个非公开帖子包含1.22个敏感词。
说明按敏感词检测公开性不合理。
**回归分析:**选择特征时,首先将线性相关的特征剔除。
帖子公开度与上下文和用户的meta数据有关。
数据集:数据集还是使用分析时候构建的
首先,说明模型收敛