RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:9:30-18:00
你可能遇到了下面的问题
关闭右侧工具栏
想要网络安全,找大展信息技术吧!
  • 来源:未知
  • 2019-05-29
  • Tiger

  一、内容安全技术概述

  互联网破坏行为增加了互联网用户进行业务活动的风险,也降低了互联网信息服务的管理水平和服务质量。

  要阻止这些网络破坏行为,营造良好的网络活动氛围,就需要建立一套功能完善、性能较好且易于维护和扩展的移动互联网信息内容安全技术体系。

  通过可靠的检测技术保护信息内容安全,这种技术被称为互联网信息内容安全技术。

  二、内容采集、过滤、审计技术

  用户要实现互联网信息内容安全,就必须依靠先进的技术体系来保障。目前,整个技术流程可以分为对信息的采集、过滤和内容审计3个步骤。

  1、内容采集技术

  数据采集主要是指从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载。由于数据源不一样,数据采集的技术体系也不尽相同。

  互联网内容采集主要采用的技术包括内容协商、身份认证、Web 信息采集和搜索引擎等。

  (1)内容协商机制

  由于客户端设备性能以及用户喜好的不同,对同一个网络对象质量及形式的要求也会有所不同。

  因此,在网络中,一个网络对象可能会有多种不同的表现形式,比如,同一个网络资源会有不同的媒体类型的版本,也可能有不同语言的版本等。

  在向Web服务器发送请求的时候,用户将其对网络资源的要求包含在请求中,Web服务器在接收到这样的请求后,会根据自身的情况对请求做出适当响应。

  双方在确定了请求资源的版本后再进行资源的获取。这种客户端和服务器之间通过协商的方式来获得内容的过程被称为内容协商,内容协商机制已经得到了HTTP的支持。

  (2)基于Cookie的身份认证

  Web服务主要通过HTTP来实现浏览器和服务器之间的信息交互,由于HTTP是一种无状态协议,它并不能在同一用户不同时刻访问相同Web网站时进行用户信息的记忆与继承,即HTTP协议无法对各个不同的用户进行区分,Cookie就是为了弥补HTTP这一缺陷而诞生的。

  利用Cookie实现身份认证是在传统Cookie机制的基础上,Web服务器使用自行定义的认证方式,向通过认证的客户端传递一个代表客户端身份的Cookie信息。

  若客户端后续发送的请求中包含此Cookie,服务器就通过这个Cookie来识别特定的客户端,返回客户端请求的页面。

  若客户端后续发送的请求中不包含 Cookie,或者包含了一个服务器无法识别的Cookie,则服务器认为这是一个新用户的请求,如果用户请求的是一个需要用户认证后才可以访问的页面,则服务器会返回一个认证失败的页面,并要求用户进行身份认证。

  (3)Web信息采集技术

  Web信息采集技术通过分析网页的HTML代码,获取网内的超级链接信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程。

  系统在再次运行中通过应用属性对比技术,在一定程度上避免了对网页的重复分析和采集,提高了信息的更新速度和全部搜索率。

  由于网站内的资源常常分布在网内不同的机器上,信息采集系统从某个给定的网址出发,根据网页中提供的超链接信息,连续地抓取网页(既可以是静态的,也可以是动态的)和网络中的文件,将网内的信息进行全部提取。

  (4)搜索引擎

  搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,

  经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。

  用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索等。

  (5)其他采集技术

  ①爬虫技术。网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。

  网络爬虫通常从一个称为种子集的URL集合开始运行,它首先将这些URL全部放到一个有序的待爬行队列里,按照一定的顺序从中取出URL并下载所指向的页面,

  分析页面内容,提取新的URL并存入待爬行URL队列中,如此重复上面的过程,直到URL队列为空或满足某个爬行终止条件,从而遍历Web,该过程称为网络爬行(Web Crawling)。

  ②网络信息挖掘技术。由于网络可利用信息指数级地增长,信息需求者从海量的Web信息站点中检索到有效信息并不容易。

  网络信息挖掘技术是数据挖掘技术、人工智能信息检索、自然语言理解技术在网络信息处理中的应用。网络信息挖掘有别于传统的信息检索,能够在异构数据组成的数据库中,

  从概念及相关因素的延伸比较上抽取出用户需要的深层次的信息,帮助信息检索者在茫茫数据海洋中快速获取网络信息。

  2、内容过滤技术

  内容过滤技术主要分为基于网关和基于代理两类,一般来说,包括名单过滤技术、关键词过滤技术、图像过滤技术、模板过滤技术和智能过滤技术等。

  (1)基于网关的内容过滤

  一般嵌入专门的安全网关或者防火墙等网关设备中,此种网络设备一般通过静态和动态内容过滤来进行。

  所谓静态过滤,就是可自定义可信站点和禁止站点。比如,静态过滤可以阻塞对“交友社区”的访问,以拒绝访问“交友社区”的网站内容。动态过滤也很重要,因为Internet和Web都不是静态的。

  相反,新的网页正以每年数以亿计的速度添加到Web,每分钟都有新的站点和页面出现。此外,Web页也不是一个单一的实体,而是由众多独立的组件组成,每个组件都有它们自己的URL,浏览器可以单独和独立地获取它们。

  其中,每个组件都可以通过其URL直接访问,因此也可能是过滤对象。动态内容过滤可以通过设定URL中的关键词来过滤含此关键词的站点以确定用户是否应获取某一请求的URL,即便该URL没有明确定义。

  比如,动态过滤可以拒绝访问URL中有“Porn”字样的所有站点。理想的防火墙不仅应支持静态内容过滤,还应能让用户选择一个可以自行决定阻塞的广泛类别列表。

  这种功能可使互联网管理者允许或阻止对任何站点类别的访问。而且,由于Internet始终都在变化,因此,应当定期用被归入站点类型的新URL更新类别列表。

  (2)基于代理的内容过滤

  主要通过专用的硬件代理上网设备实现,一般是将设备配置成代理缓存服务器,并部署在企业用户和Internet之间,这些优化的专用设备就能够智能地管理用户的内容请求。

  当用户请求一个URL时,请求首先到达设备相应端口安全专用设备进行认证和授权。

  如果请求的页面中的对象已经在该专用设备的本地缓存中,它们就从本地直接访问给用户;如果不在本地缓存中,安全专用设备就作为用户的代理,通过Internet和源服务器通信。

  当对象从源服务器返回时,就保存在本地缓存中为后续的访问请求服务,同时传送一个拷贝给访问的用户。整个过程被全程监控,并作记录,供访问报告统计提供依据。

  3、内容审计技术

  网络信息内容审计是指通过采取一定的技术手段,监管网络中不良文字、图片、视频等各类信息的传播行为,以保证网络所传播的各类信息内容的健康性、合法性,提供干净的网络信息环境。

  它侧重于理解网络所传播的信息内容,判断信息内容的性质,并根据相关的安全策略对非法、不良等各类网络信息进行有效控制和管理,是网络安全中保障信息资源安全性的重要组成部分。

  内容审计技术,是从网络数据分组中提取出内容,从而对信息内容进行监控与监管的技术。

  主要应用领域包括对邮件信息的审计、对上网外发信息(如发帖内容)的审计、对聊天信息的审计。

  内容审计技术如应用得当,可以作为网络管理的有效工具,如被黑客等非法分子应用,则可作为信息窃取的工具。

  网络信息内容安全审计系统所需的相关技术支撑如下。

  (1)数据分组捕获技术

  网络数据分组是网络信息内容审计系统主要处理的对象,高效的数据分组获取技术是内容审计中不可或缺的关键技术。

  目前,从网络中捕获数据分组有2种方式:一种是采用硬件方式,在网络端采用专用的硬件对数据分组进行捕获;另一种是采用软件方式,利用软件通过计算机与网络连接使用的网络适配器来捕获网络数据分组。

  (2)负载均衡技术

  目前,网络流量的增长速度远远超过了处理器处理能力的增长速度,无论使用何种数据分组获取技术,利用单台基于普通处理器的平台无法进行百兆流量的实时内容分析。

  利用负载均衡处理技术可以解决这个问题,即将流量分成几个部分,这些部分可以由多台设备并行处理,从而可以降低单台设备的负载,提高整个内容审计系统的性能。

  (3)模式匹配技术

  网络信息内容审计系统在网络关键点捕获到数据分组后,需要利用模式匹配算法搜索该数据分组内是否出现设定的敏感模式串,以发现可疑数据分组。

  现有模式匹配按照不同的分类方法可分为不同的类别。按一次在待匹配文本中需要查找的模式串个数可分为单模式匹配和多模式匹配。

  单模式匹配是指从文本串中一次只需要查找一个模式串,多模式匹配一次需要查找多个模式串。

  若按匹配过程中是否允许误差存在分类,则可分为精确模式匹配和相似模式匹配。

  精确模式匹配算法要求从待匹配文本串中找出与模式串完全相同的字符串,相似模式匹配要求找出的字符串可以与模式串存在一定的误差。

  其实,精确模式匹配也可以认为是相似模式匹配的一个特例,即设定相似模式匹配的误差为零。