计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

小议P2P 环境用户共享行为及对防污染方案的干扰(2)

2014-03-27 01:04
导读:当用户获得真实文件时, 一般会将其共享一段时间. 例如, 用户播放视频文件直到完成观看, 或者在激励机制的作用下共享该文件以便其他用户下载. 当用户

  当用户获得真实文件时, 一般会将其共享一段时间. 例如, 用户播放视频文件直到完成观看, 或者在激励机制的作用下共享该文件以便其他用户下载. 当用户得到虚假文件时, 一般会较快地删除该文件以免传播给其他用户. 用户倾向于较长时间地共享真实文件, 较短时间地删除虚假文件。基于这一思想, 本文利用用户共享文件时间来评估版本的质量, 以检测出P2P 环境下的文件污染. 设定系统中的用户集合为U, 主题集合为S, 版本集合为V, 文件集合为F。
  {定义6} 用户共享文件时间是指给定用户i user 的共享文件j file , 用户i user 开始共享文件时刻为ij beginTime , 停止共享文件时刻为ij endTime , 那么用户i user 共享文件j file 时间ij storeTime 为:storeTimeij = endTimeij ?beginTimeij。

  3.3 数据集
  本文通过挖掘 Maze 系统收集的日志数据, 获取30 个热门主题对应的版本、版本拥有者和文件传输等信息。提到的方法, 使用半自动化的方式, 人工检测出其中的污染文件, 作为后续分析的基础. 数据集总共有11165 个版本和130985 个版本拥有者,1040251 次文件传输的总容量达到70.8T, 这样大量的数据具有一定的统计意义. 数据集中存在1092 个虚假版本和15235 个虚假版本拥有者. 39033 次虚假文件传输浪费了4.1T 的网络带宽和磁盘存储资源, 引起网络运营商和用户的不满, 严重危害着P2P 文件共享系统的良好运行。
  虽然本文在Maze 系统运行日志的基础上进行分析, 但对于终端用户而言, 底层系统采用何种实现机制是透明的, 不会影响到用户共享行为特性. 通过分析Maze 系统得到的用户共享行为特征及实验结果, 在其他P2P 文件共享系统中也具有一定的普适性. 本文研究的方法和结论也适合其他P2P 文件共享系统。


  4. 多种用户共享行为的测量及对防污染的影响

  提到用户倾向于较长时间保留真实文件, 较快删除虚假文件的思想. 但是简单地根据用户共享文件时间难以有效地识别出虚假版本. 本文通过测量发现存在用户共享习惯差异性和用户特别长时间保留个别文件等多种用户共享行为,并分析其对防污染方案的干扰。

  4.1 用户共享习惯差异性的影响


  标准偏差(S)是一种量度数据分布分散程度的标准, 反映数值偏离算术平均值的程度.
  体现了所有版本的非理性用户共享文件时间的标准偏差的分布, 排除了理性用户的干扰. 理性用户指只下载而不上传文件的用户, 其所有文件的共享时间为0, 而和文件真假没有关系. 从图中可以看到,53.4%的版本的非理性用户共享文件时间标准偏差大于1,000,000. 对于同一版本,不同拥有者共享文件时间存在较大的差异. 这种较大的标准偏差影响着基于非理性用户的版本时间分的统计。
  本文进一步分析, 发现存在用户共享习惯差异性, 导致用户共享文件时间出现较大标准偏差. 为了刻画用户行为习惯, 本文定义用户共享文件平均时间。
  用户共享文件平均时间存在着较大的差异. 用户共享文件时间由用户检查文件时间和用户继续保留文件时间这两部分组成. 用户检查文件时间是指下载文件完成, 直至用户检查文件质量的时间, 这往往由用户行为习惯决定, 不同用户检查文件时间往往存在着较大的差异. 一些用户习惯批量下载文件完成后, 等待一段时间才使用文件并检查文件质量; 而另外一些用户习惯下载完成后, 立刻使用文件并检查文件质量. 用户继续保留文件时间是指用户检查文件质量后, 继续保留文件直至将文件移出共享文件夹的时间, 这往往由文件质量决定. 普通用户一般会移出虚假文件以免其进一步传播. 用户共享文件时间不仅仅取决于文件质量, 还受到用户检查文件等用户共享行为影响, 使得用户共享文件时间标准偏差较大. 在极端情况下, 一些虚假版本的拥有者在批量下载文件完成后, 等待一段时间才检查文件质量; 而一些真实版本的拥有者下载文件完成后立刻检查文件质量. 由于虚假版本拥有者检查文件时间过长, 甚至超过真实版本拥有者共享文件时间, 造成虚假版本时间分高于真实版本时间分, 干扰了防污染方案. 有效的防污染方案要考虑用户共享习惯差异性,准确区分真实版本和虚假版本。

  4.2 用户特别长时间保留个别文件的影响 大学排名
  用户最长共享文件时间与用户共享文件平均时间比例的分布, 横轴表示基于该比例排名后的顺序, 纵轴表示该用户最长共享文件时间与用户共享文件平均时间的比例.
  可以看到, 一些用户最长共享文件时间与用户共享文件平均时间的比例较大, 甚至达到5000, 即该用户保留某个文件时间是其共享文件平均时间的5000 倍. 用户特别长时间保留个别文件行为影响版本的数量的CCDF 图, 横轴表示用户共享某个文件时间与用户共享文件平均时间的比例, 纵轴表示存在拥有者共享文件时间与该用户共享文件平均时间的比例超过横轴数值的版本数量的比例. 从图中可以看出, 20%的版本存在其拥有者保留该文件时间超过用户共享文件平均时间5 倍的情况, 7%的版本存在其拥有者保留该文件时间超过用户共享文件平均时间30 倍的情况。
  用户特别长时间地保留个别文件, 极大地增加了该文件所属版本的时间分. 用户可能忘记删除虚假文件, 或者故意特别长时间地保留虚假文件以引诱其他用户下载, 增加了虚假版本的时间分, 干扰防污染方案. 另外, 同一主题存在不同的真实版本. 用户对这些版本的喜爱程度存在着差异, 可能特别长时间地共享其喜爱的真实版本, 使得该版本时间分特别高.
  并优先向用户推荐这些版本. 但是用户特别爱好难以反映整个用户群的爱好. 例如, 某部电影可能存在英文原声或者中文配音等版本. 一些英语学习者可能喜欢英文原声的真实版本,而普通用户喜欢中文配音的真实版本. 时间分特别低的版本很可能是虚假版本, 但是时间分中等或者特别高的版本一般都是真实版本, 从防污染的角度并不存在差异. 用户特别长时间保留个别真实文件会明显提高这些真实版本的时间分, 引起真实版本间不准确的排序. 总之,无论用户特别长时间保留真实版本或者虚假版本, 都会带来一些负面影响. 尤其是用户特别长时间保留虚假版本, 严重干扰虚假文件的识别. 防污染方案需要减弱用户特别长时间保留个别文件的影响, 提高防污染方案的效果。

  5. 总结和未来工作

  提到用户倾向于较长时间保留真实文件, 较快删除虚假文件的思想, 但同样没有考虑多种用户共享行为的干扰. 本文通过挖掘实际P2P 文件共享系统的运行日志, 发现存在用户共享习惯差异性和用户特别长时间保留个别文件等用户共享行为,并分析这些行为对防污染方案的干扰。

(科教作文网http://zw.ΝsΕac.cOM编辑)

  未来工作综合考虑多种用户共享行为对干扰防污染机制的干扰,设计出P2P 环境下有效的防污染方案。

上一篇:超静定分析中基本结构限制的突破四-减半降阶法 下一篇:没有了