信息安全工程师教程学习笔记之暗网

信息安全工程师 责任编辑:长颈鹿 2016-07-12

添加老师微信

备考咨询

加我微信

摘要:全国计算机技术与软件专业技术资格(水平)考试,这门新开的信息安全工程师分属该考试“信息系统”专业,位处中级资格。官方教材《信息安全工程师教程》及考试大纲于7月1日出版,希赛小编整理了信息安全工程师教程学习笔记之暗网,供大家参考学习。

    >>>>>信息安全工程师在线辅导 

   

      >>>>>信息安全工程师培训视频

      全国计算机技术与软件专业技术资格(水平)考试,这门新开的信息安全工程师分属该考试“信息系统”专业,位处中级资格。教材《信息安全工程师教程》及考试大纲于7月1日出版,希赛小编整理了信息安全工程师教程学习笔记之暗网,供大家参考学习。

      暗网,又称深网。据估计,暗网比表面网站大几个数量级。

      暗网(深网,不可见网,隐藏网)是指那些存储在网络数据库里、但不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于那些可以被标准搜索引擎索引的表面网络。

      暗网的定义

      暗网(深网,不可见网,隐藏网)是指那些储存在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于那些可以被标准搜索引擎索引的表面网络。

      迈克尔·伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,大量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于暗网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,暗网就隐藏了起来。

      来源和现状

      Hidden Web最初由Dr.Jill Ellsworth于1994年提出,指那些没有被任何搜索引擎索引注册的网站:

      “这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。”

      另外早期使用“不可见网络”这一术语,是一家叫做“个人图书馆软件”公司的布鲁斯·芒特(产品开发总监)和马修·B·科尔(首席执行官和创建人)发明的。当他们公司在1996年12月推出和发行的一款软件时,他们对暗网工具的有过这样的一番描述:

      不可见网络这一术语其实并不准确,它描述的只是那些在暗网中,可被搜索的数据库不被标准搜索引擎索引和查询的内容,而对于知道如何进入访问这些内容的人来说,它们又是相当可见的。

      第一次使用暗网这一特定术语,是2001年伯格曼的研究当中。

      从信息量来讲,与能够索引的数据相比,“暗网”更是要庞大得多。根据Bright Planet公司此前发布的一个名为《The Deep Web-Surfacing The Hidden Value》(深层次网络,隐藏的价值)白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。更让人无所适从的是,Bright Planet发现,无数网站越来越像孤立的系统,似乎没有打算与别的网站共享信息,如此一来,“暗网”已经成为互联网新信息增长的最大来源,也就是说,互联网正在变得“越来越暗”。

      当然,所谓“暗网”,并不是真正的“不可见”,对于知道如何访问这些内容的人来说,它们无疑是可见的。2001年,Christ Sherman、GaryPrice对Hidden Web定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其它通常是高质量、信息。根据对HiddenWeb的调查文献得到了如下有意义的发现:

      Hidden Web大约有307,000个站点,450,000个后台数据库和1,258,000个查询接口。它仍在迅速增长,从2000年到2004年,它增长了3~7倍。

      Hidden Web内容分布于多种不同的主题领域,电子商务是主要的驱动力量,但非商业领域相对占更大比重。

      当今的爬虫并非完全爬行不到Hidden Web后台数据库内,一些主要的搜索引擎已经覆盖Hidden Web大约三分之一的内容。然而,在覆盖率上当前搜索引擎存在技术上的本质缺陷。

      Hidden Web中的后台数据库大多是结构化的,其中结构化的是非结构化的3.4倍之多。

      虽然一些Hidden Web目录服务已经开始索引Web数据库,但是它们的覆盖率比较小,仅为0.2%~15.6%。

      Web数据库往往位于站点浅层,多达94%的Web数据库可以在站点前3层发现。

      暗网的分类

      它分为两种:

      一种是技术的原因,很多网站本身不规范、或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取,这不是搜索引擎自身就能解决的问题,而是有赖整个网络结构的规范化,百度的“阿拉丁计划”、谷歌的“云计算”就是要从根本解决这一问题。

      另一个原因则是很多网站根本就不愿意被搜索引擎抓取,比如考虑到版权保护内容、个人隐私内容等等,这更不是搜索引擎能解决的问题了。如果他们能被搜索引擎抓取到,就属于违法了。

      数据显示,能够搜索到的数据仅占全部信息量的千分之二。而对暗网的发掘能扩大搜索数据库,使人们能够在搜索引擎上搜索到更多的网页、信息。

      几乎任何有抱负的通用搜索引擎都有一个共同的梦想:整合人类所有信息,并让大家用最便捷的方式各取所需。

      对此,百度说:“让人们最便捷地获取信息,找到所求”;谷歌说:“整合全球信息,使人人皆可访问并从中受益”。这两者表达的实际上是同一个愿景。

      然而,这注定是一项不可能完成的任务。据科学家估测,人类信息大概只有0.2%实现了web化,并且这个比例很可能在持续降低。更甚的是,即便在已经Web化的信息中,搜索引擎的蜘蛛能抓取到的和不能抓取到的比例为1:500。


    返回总目录:信息安全工程师教程学习笔记之网络安全汇总(一)

    返回总目录:信息安全工程师教程学习笔记之网络安全汇总(二)


    希赛软考网,拥有十四年软考培训经验,希赛网一直坚持自主研发,将丰富的软考培训经验有效融入教程研发过程,自成体系的软考在线题库软考历年真题)、软考培训教材软考视频教程,多样的培训方式包括在线辅导面授、和,使考生的学习更具系统性,辅导更具针对性。采用全程督学机制,,软考平均通过率在全国。

更多资料
更多课程
更多真题
温馨提示:因考试政策、内容不断变化与调整,本网站提供的以上信息仅供参考,如有异议,请考生以权威部门公布的内容为准!

软考备考资料免费领取

去领取

!
咨询在线老师!