论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
3.3 数据集
本文通过挖掘 Maze 系统收集的日志数据, 获取30 个热门主题对应的版本、版本拥有者和文件传输等信息。提到的方法, 使用半自动化的方式, 人工检测出其中的污染文件, 作为后续分析的基础. 数据集总共有11165 个版本和130985 个版本拥有者,1040251 次文件传输的总容量达到70.8T, 这样大量的数据具有一定的统计意义. 数据集中存在1092 个虚假版本和15235 个虚假版本拥有者. 39033 次虚假文件传输浪费了4.1T 的网络带宽和磁盘存储资源, 引起网络运营商和用户的不满, 严重危害着P2P 文件共享系统的良好运行。
虽然本文在Maze 系统运行日志的基础上进行分析, 但对于终端用户而言, 底层系统采用何种实现机制是透明的, 不会影响到用户共享行为特性. 通过分析Maze 系统得到的用户共享行为特征及实验结果, 在其他P2P 文件共享系统中也具有一定的普适性. 本文研究的方法和结论也适合其他P2P 文件共享系统。
4. 多种用户共享行为的测量及对防污染的影响
提到用户倾向于较长时间保留真实文件, 较快删除虚假文件的思想. 但是简单地根据用户共享文件时间难以有效地识别出虚假版本. 本文通过测量发现存在用户共享习惯差异性和用户特别长时间保留个别文件等多种用户共享行为,并分析其对防污染方案的干扰。
4.1 用户共享习惯差异性的影响
4.2 用户特别长时间保留个别文件的影响 大学排名
用户最长共享文件时间与用户共享文件平均时间比例的分布, 横轴表示基于该比例排名后的顺序, 纵轴表示该用户最长共享文件时间与用户共享文件平均时间的比例.
可以看到, 一些用户最长共享文件时间与用户共享文件平均时间的比例较大, 甚至达到5000, 即该用户保留某个文件时间是其共享文件平均时间的5000 倍. 用户特别长时间保留个别文件行为影响版本的数量的CCDF 图, 横轴表示用户共享某个文件时间与用户共享文件平均时间的比例, 纵轴表示存在拥有者共享文件时间与该用户共享文件平均时间的比例超过横轴数值的版本数量的比例. 从图中可以看出, 20%的版本存在其拥有者保留该文件时间超过用户共享文件平均时间5 倍的情况, 7%的版本存在其拥有者保留该文件时间超过用户共享文件平均时间30 倍的情况。
用户特别长时间地保留个别文件, 极大地增加了该文件所属版本的时间分. 用户可能忘记删除虚假文件, 或者故意特别长时间地保留虚假文件以引诱其他用户下载, 增加了虚假版本的时间分, 干扰防污染方案. 另外, 同一主题存在不同的真实版本. 用户对这些版本的喜爱程度存在着差异, 可能特别长时间地共享其喜爱的真实版本, 使得该版本时间分特别高.
并优先向用户推荐这些版本. 但是用户特别爱好难以反映整个用户群的爱好. 例如, 某部电影可能存在英文原声或者中文配音等版本. 一些英语学习者可能喜欢英文原声的真实版本,而普通用户喜欢中文配音的真实版本. 时间分特别低的版本很可能是虚假版本, 但是时间分中等或者特别高的版本一般都是真实版本, 从防污染的角度并不存在差异. 用户特别长时间保留个别真实文件会明显提高这些真实版本的时间分, 引起真实版本间不准确的排序. 总之,无论用户特别长时间保留真实版本或者虚假版本, 都会带来一些负面影响. 尤其是用户特别长时间保留虚假版本, 严重干扰虚假文件的识别. 防污染方案需要减弱用户特别长时间保留个别文件的影响, 提高防污染方案的效果。
5. 总结和未来工作
提到用户倾向于较长时间保留真实文件, 较快删除虚假文件的思想, 但同样没有考虑多种用户共享行为的干扰. 本文通过挖掘实际P2P 文件共享系统的运行日志, 发现存在用户共享习惯差异性和用户特别长时间保留个别文件等用户共享行为,并分析这些行为对防污染方案的干扰。