合肥市高新区长江西路与科学大道交口5F创业园A座309 合肥网站建设 - 合肥网站制作 - 安徽网络公司
136 5560 1775
为政府搭建高效应用平台,为企业塑造良好形象,为网民营造美丽温馨家园!

搜索引擎的组成部分:蜘蛛、指数、界面

发布日期:2010-01-03  浏览次数:2128

    搜索引擎的历史并不长,但搜索引擎为互联网所作出的巨大贡献却显而易见,搜索引擎改变了世界,改变了用户的使用习惯,让我对互联网的未来充溢信心。

    搜索引擎起步的时候做的并不好,第一个搜索引擎甚至没有分析网页的副本,而且没有排名的规范,为了深度挖掘商业潜力,这才推动搜索引擎渐渐发展,研发更先进的系统。

    第一个比较大的商业搜索引擎是美国的斯坦福大学, 2001 年花 65 亿美元购买了 @ 主页。开始推广的时候,最大的竞争对手是网址站,主要是因为那时候搜索结果中很多都是垃圾邮件,而且人们还不习惯用搜索引擎。

    元标记是协助搜索引擎排序的一个工具,通常叫做关键词堆砌。一旦搜索关键词,那关键字和元标志就会告诉搜索引擎内容是哪一页,很短的时间做好中继标记工作,提供相关搜索结果,但随着一些企业的市场营销经验增加,很容易提高关键词的排名,那时候比较流行 “ 贷款、贷款、贷款 ” 之类的关键词堆砌,所以当时搜索引擎的垃圾信息泛滥成灾,造成许多用户的不信任感。

    那时候一些重要的搜索引擎包括: EINet 银河、 WebCrawl 莱科斯、 Infoseek Inktomi Ask AllTheWeb 等。

每一个搜索引擎都有三个主要部分组成:

1 蜘蛛

    蜘蛛的工作职责是发现新的网页并收集这些网页的快照,然后分析该网页。

蜘蛛以抓取页面为主,比如扫描网页,所有的搜索引擎都能够实现深层检索和快速检索。深层检索中,蜘蛛可以查找和扫描网页内的所有内容;快速检索中,蜘蛛不遵循深层检索的规则,只搜索重要的关键词局部,而不检查和扫描网页里的所有内容。

    大家都知道网站最重要的快照时间,也就是说蜘蛛爬行和收录的网页速度越快,就说明这个网站在搜索引擎心中越重要,比如新华网和人民网,蜘蛛每小时爬 4 次以上,有的网站一个月也不见得能被蜘蛛爬一次。快照的抓取程度取决于网站内容的流行度、更新速度与网站域名的新旧。

蜘蛛的爬行规则中,如果有许多外部链接指向这个网站,那就说明这个网站比较重要,所以抓取这个网站的频率很高。当然,搜索引擎这样做也是为了省钱,如果都以同样的频率爬行所有网站,这样需要更多的时间和成本,才干得到更全面的搜索结果。

2 指数

    蜘蛛在爬行的过程中,可能会重复检查网页的内容,然后检查网站内容是否是复制其他网站的以保证网站原创内容的指数,该指数的结果一般都是基本坚持复制内容的排序搜索结果。当你进行搜索时,搜索引擎不会从网络上搜索,会从指数中选择搜索结果,所以搜索得到网页数量并不能代表整个网站,但蜘蛛会在后台扫描和保存网站的网页数量。

    搜索结果数量中,谷歌 1-10 个搜索结果约为 16.05 万,还有每个区域的搜索结果排名,这些都可以用搜索引擎的算法指数来控制,或者说是控制一部分。

每个搜索引擎在全国或全世界各地都建立数据中心,当你输入需要搜索的关键词的时候,会由于数据更新的时间不同而致搜索结果同步,所以在不同的地区就会出现不同的搜索结果。

3 Web 界面

    当你使用搜索引擎所看到界面(比方 google.com baidu.com 搜索结果取决于复杂的算法,算法都是从指数内调用结果,通过查询并分析才能在前台显示,所以算法的制作时间比较长,谷歌在这个技术领域上领先。

还有一些搜索引擎的一站式 ” 特性,这类特性在英文搜索上比较常见,一般来说,搜索引擎忽略 “ 一站式 ” 话,这样的搜索结果将更加正确,比如搜索 “ 猫,狗 ” 时候,搜索引擎会排除 “ 猫和狗 ” 只搜索 “ 猫 ” 狗 ”

    关键词密度是衡量一个关键词出现在网页上的频率,一般搜索引擎看到某网页上的关键词逾越密度范围,那它就会分析该网页是否作弊,现在搜索引擎可以做到任何地域的字词相关度处理。所以在一般情况下,关键词应该在整个网页中分散,但一定要有某个标题或段落长期不变。

    搜索引擎还有个核心分析技术就是链接的相关性分析,除了网页排名和一般的链接,谷歌还看重锚文本链接,锚文本链接主要在于链接的年龄和位置,还有该链接的网页是否属于权威网站等。

链接是最大的网站质量指标,搜索引擎都很关注着,因为现在友情链接比较难找,而你又很需要友情链接,所以链接中很少有垃圾信息。比如大学的网站在谷歌的权重很高,那是由于大学有很多高质量的外部链接。随着大家都了解到外部链接的重要性后,很多网站开始买卖链接,这也是现在搜索引擎比较头疼的问题,不过 ask 现在判定网站排名更多在于网站的质量。

    所有的搜索引擎都希望得到用户反馈的信息,期待在查询之前、搜索查询、时间间隔、和语义关系等方面,能更加了解到用户的意图,还会跟踪用户的点击,如果用户点击一个物品,然后又马上回到搜索页面,那搜索引擎就会认为这个购买不成功,会删除跟踪清单,其实这种做法已经在向电子商务靠近了

由此可以看出,搜索引擎已经开始注重用户体验,为了做让用户肯定自己的劳动效果,并成为搜索引擎行业的一个标准,或许未来的发展就在个性化搜索。

About Us

合肥启迈网络科技有限公司专业从事网站建设、网站优化、虚拟主机、域名 注册等网络服务。专业的设计团队、一流的服务态度和先进的网络技术让我 们在竞争激烈的网站设计这行业中蓬勃发展.......[ 查看详情]
服务热线:13655601775

Contact Us

网址:www.qimaikj.com

熊经理:13655601775
E-mail:qimai@qimaikj.com
地址:合肥市高新区长江西路与科学大道交口5F创业园A座309

免费咨询