返回首页
当前位置: 主页 > 电脑教程 >

搜索引擎是个什么东西?搜索引擎工作原理,如何通过搜索引擎学习

时间:2016-04-01 15:11来源:电脑教程学习网 www.etwiki.cn 编辑:admin

一、搜索引擎是个什么东西?

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

这里的用户指的是有信息获取需求的普通用户,其实信息生产提交方(站长等)严格意义来讲也是“用户”,普通用户只需要掌握搜索引擎使用技巧,而站长们更多的是琢磨SEO搜索引擎优化)。这个帖子这双边都会有所涉及。

二、搜索引擎工作原理

搜索引擎工作原理

搜索引擎工作原理

爬行抓取:搜索引擎蜘蛛跟踪链接,抓取页面html代码存入数据库,低权重复制内容过滤;

预处理:文字和相关标签抓取,中文分词,去掉无意义内容提炼页面主要关键词(对于蜘蛛没有意义:如:的、啊、从而等,广告、申明等),去重(同一内容不同网站或同一网站不同网址);倒排索引:关键词到内容,链接投票,文件处理(目前只能根据标签和相关描述文字识别),质量判断:搜索引擎算法;

排名:中文分词(排除无实际意义的词后对搜索词的拆分重组,百度快照可查询分词结果),相关性计算:越常用的词对搜索词的意义贡献越小,词频,关键词位置形式距离(标题、H1、黑体等),链接分析(锚文本、周边文字、原站本身主题),排名过滤调整(百度第11位)。

搜索引擎的工作原理使命就是确保用户发出搜索指令后展现在他们面前的是其所需要的优质内容。

三、目前主流的搜索引擎

目前主流的搜索引擎

目前主流的搜索引擎

搜索引擎简史:1994年Yahoo!诞生,1998年Google诞生,2000年百度诞生,2012年360搜索(好搜)推出。

百度

百度搜索市场份额

百度搜索市场份额

不管是PC端还是移动端百度市场份额都是绝对的国内第一,跟国内目前其他搜索引擎相比,不说矮子里面挑高个的难听话,也不提竞价广告的乱象丛生,但从信息获取效率以及用户体验来比,百度也是当之无愧的。

作为学习工具,百度搜索有这两个地方不错,一是百度网盘,二是百度文库。

搜狗

搜狗搜索

搜狗搜索

搜狗在近年来发展迅速,最具特色的点是可以搜索微信内容和知乎内容。这都仰赖于腾讯的买买买内容战略。

360

360搜索引擎

360搜索引擎

对于360,实话实说,广告不比百度少,搜索结果质量也不敢恭维。来个对比。更多例子各位自行捣鼓。

必须掌握Google!

Google上面才是互联网,其他国内的搜索引擎的触角都受限,只能叫局域网。除了信息全面,用户体验也是谁用谁知道。

四、世界范围内各搜索引擎市场份额

以2015年第三季度为例

谷歌以67.49%的份额雄居第一,Yahoo第二,Bing凭借10.67%占据第三,百度第四,份额8.13%。

这么理解:一般人不知道的,能够提高搜索效率以及精度的一些特殊指令。

普通用户常用的包括:

双引号(搜索:“关键词”)

把搜索词汇放在双引号中,代表完全匹配搜索

把搜索词汇放在双引号中,代表完全匹配搜索

把搜索词汇放在双引号中,代表完全匹配搜索,也就是说搜索出来的结果页面都是保护双引号中所出现的所有词汇,连顺序也是完全匹配的。百度和Google都是支持这个指令的。

使用双引号搜索可以更准确的找到特定关键词,更容易找到自己想要的资源。

减号(搜索:关键词 -不需要的关键词)

减号代表搜索引擎显示不包括减号后面词汇的页面。使用这个指令时减号前面必须是空格,减号后面没有空格,要紧跟着需要排除的词。Google和百度都支持这个指令。

使用减号高级指令可以更加准确的找到需要的文件,尤其是某些词语有多重意义的时候。

星号(搜索:搜索*擎)

星号是常用的通配符,也可以使用在搜索引擎中。百度不支持*号指令。

比如在Google中搜索“ 搜索*擎”,其中*代表任何文字、出现的结果就不仅仅是包含“搜索引擎”的页面了。

inurl:(搜索:inurl:任意字符串)

inurl:指令用于搜索查询词出现在URL中的页面,可以按英文字面意思理解。百度和Google都是支持inurl:指令的。inurl:指令不仅支持英文,还支持中文。

高级搜索指令inurl的语法格式为:inurl:xxx(xxx可以为任意字符串)。此命令是查找url中包含xxx的网页。

如果你是做SEO的,那么inurl:指令对你会很有用,因为你可以快速的找到竞争对手(因为关键词出现在URL中对排名有一定的影响)。

intitle:返回的是页面title中包含关键词的页面

百度和谷歌都支持intitle

百度和谷歌都支持intitle

百度和谷歌都支持intitle。 title是目前页面优化最重要的因素。无论是什么网站,基本都会把关键词放入title中。

详细用法可以看百度经验:http://jingyan.baidu.com/article/3f16e003c21c162591c103a6.html

filetype:搜索特定文件格式的时候使用。

例如:filetype:pdf 视频教程,显示的是包含“视频教程”的所有PDF文件。filetype指令可以用来搜索特定的资源,比如PDF电子书、Word文件等。Google和百度都是支持filetype:指令的。

详细用法可以看百度经验:http://jingyan.baidu.com/article/73c3ce28f23d8de50343d9ac.html

site:这个高级搜索指令用来搜索某个域名下面的所有文件。

比如搜索“site:vprol.com”,出现的就是vprol.com这个域名下面的所有页面,可以说这个高级指令是查询网站收入页面数量最直接的方法。site:指令也可以用于子域名。但site:并不准确,特别是在Google中,出现的收入页面经常有大幅度波动,只能用于参考,但不能完全相信。

之前有人用“site:yun.baidu.com ”资源关键词这个搜网盘里面的资源,现在貌似不大顶用了,等下给出替代方案。

高级搜索指令大全诸位可自行百度,补充一点是,这些指令很多都可以互相搭配使用影响最后的结果。可以有很复杂的组合结果,好消息是有人帮我们封装好做写成了特殊的搜索引擎供我们使用。

------分隔线----------------------------
标签(Tag):搜索引擎 搜索引擎工作原理
------分隔线----------------------------
推荐内容
猜你感兴趣