什么是搜索引擎?
所谓的搜索引擎(Search Engines)是一些能够主动搜索信息(搜索网页上的单词和简短的特定的内容描述)并将其自动索引的Web 网站,其索引内容储存在可供检索的大型数据库中,建立索引和目录服务。它是一个为你提供信息“检索”服务的网站,它使用某些程序把互联网上的所有信息归类,以帮助人们在茫茫网海中搜寻到所需要的信息。
搜索引擎有什么作用?
把真正对用户有用的信息排在搜索结果的前面!
搜索引擎的工作原理
搜索引擎要知道网上的新生事物,就得派人出去收集,每天都有新的网站产生,每天都有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。
探测器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Google 把它的探测器叫做Googlebot,百度就叫Baiduspider,Yahoo 称为Slurp,无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。
如何辨别搜索引擎身份?
可以通过DNS反向查询找到主机名:
1、Google : 主机名称应包含于googlebot.com 域名中,
如:crawl-66-249-66-1.googlebot.com;
2、MSN : 主机名称应包含于search.live.com 域名中,
如:livebot-207-46-98-149.search.live.com;
3、Yahoo:主机名称应包含于inktomisearch.com域名中,
如:ab1164.inktomisearch.com。