反垃圾邮件系统的内容过滤模块设计与实现(1)(2)
2014-01-11 01:13
导读:图2. 加了垃圾邮件过滤模块的电子邮件系统的服务过程 主要在于增添一个邮件数据提取接口。当来自于Internet的邮件被通过POP3等系统接收时,邮件数据提

图2. 加了垃圾邮件过滤模块的电子邮件系统的服务过程 主要在于增添一个邮件数据提取接口。当来自于Internet的邮件被通过POP3等系统接收时,邮件数据提取接口将提取到的邮件数据内容送交邮件过滤服务器,用户暂时不阅览该邮件,而是等待邮件过滤服务器的控制命令。内容过滤模块对邮件信息中的文本内容进行检查与过滤。检查的对象具体为邮件的其他部分内容、正文内容与文本附件内容。邮件过滤服务器根据预定义的策略和规则对邮件内容进行检查,并采用多线程同时处理多封邮件,实现对邮件内容快速扫描,并利用关键词库完成匹配,确定该邮件是否为合法邮件。3 内容过滤模块中关键技术——多文档文本提取 多文档文本提取技术,主要见图3.All_To_Txt模块所描述的文档模块流程情况,从文档中提取出纯文本流,再结合自动分词、词频统计、关键词提取等过程完成文本的提取。

图3. All_To_Txt模块(文档模块)3.1 HTML文档的文本提取技术 超文本标记语言HTML是Web的通用语言,是创建Web页和发布Web信息的格式,是Web设计的基础,是控制Web浏览器在屏幕上显示内容的核心技术。HTML用于编制可以在不同的平台上实施链接的超文本文件。HTML的标记可以表达超文本的新闻、邮件、文档及超媒体——包含在线的图形、视像的信息体。 HTML文档具有最基本的结构框架“头”和“体”。HTML文档均用于在浏览器上显示,而支持HTTP的浏览器均为WINDOWS式的图形用户接口(GUI)界面,因此HTML文档的基本结构是依据这一要求而设计确定的。一个GUI的视窗通常由标题栏和窗口体作为其最基本的构成。HTML文档结构的“头”和“体”正应于这一要求。 (1)HTML容器标记 HTML文档的第一个标记