杭州网站建设
,
杭州网站制作
,
杭州网站设计
,
杭州做网站
服务热线:13675891327 400-8699-864
网站首页
关于我们
成功作品
新闻动态
解决方案
联系我们
网站首页
关于我们
成功作品
新闻动态
联系我们
搜索引擎排名规则之预处理
在搜索引擎原理中,搜索引擎工作流程从大的方面有三点:数据采集、数据预处理、查询服务,这里和大家分享一下数据预处理,提前说明的是,其中涉及一些专业的词汇,看不懂的可以去百度一下。
在我们所述的“数据预处理”就是主要包含四个方面:关键词提取,“镜像网页”以及“转载网页”的消除,链接分析和网页重要程度的计算。
关键词提取:
1)在每一章网页,包含了大量的和主题内容无关的内容,像版权说明等等,关键词提取的任务,就是要提取出网页源文件的内容部分所含的关键词。提取的方法:一般类似与切词,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定最终的关键词。(博主联想:关键词密度,关键词加粗,定向锚文本就是更具这一原因出现,方便搜索引擎更加简单的判断关键词)
在后面的章节也会提到的DocView模型中会有更加详细的讲解,在关键词提取之前还有网页净化等多个步骤,出于书籍的编辑顺序考虑,在这里不详解,感兴趣的可以点击链接跳转查看:DocView模型,网页净化;
链接分析:
1)链接分析中有提到两个概念,词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率;
2)文件频率(DF):该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现;
3)搜索引擎可以通过HTML文本标签,来确定关键词的重要性(博主联想:<h1>标签的使用就是通过这个得来);指向其他文件的链接,来判断(博主联想:定向锚文本的使用)
网页重要程度的计算:
1)搜索引擎需要将用户索引的结果,以列表的形式,展示给客户,并且在展示中满足用户的搜索需求,因此“网页重要程度”的概念出现了。
2)判定重要性的方法:人们通过参考文献重要性的评估方式,其核心就是–“被引用的最多的就是最重要的”。这种方式,恰好在HTML中超文本链接完美体现,谷歌的PR值(引用该页面的页面概述和引用该页面的页面重要程度)就是完美展现(博主联想:发外链就是该算法的完美体现)。(PageRank算法)
3)和第二点出现的不同的地方在于,某些页面是被大量的指向其他页面,某些页面被其他页面大量引用,形成对偶的关系,于是HITS算法出现。(HITS算法)
部分名词介绍:
“倒排文字:利用文档(已经采集到的网页)中所包含的关键词作为索引,文档则作为索引的着陆页(目标文档),常见的,就像纸质书籍中,索引就是文章关键词,书籍的具体内容或者说页面就是索引目标页。
镜像网页:网页内容一模一样的,未做任何的修改
转载网页:主要内容基本相同,但是多了少量的编辑信息
HITS算法:简单介绍,在HITS算法中,存在两种页面Authority(权威)页面和Hub(目录)页面,对于Authority页面A,指向A页面的Hub页面H页面越多,那么A页面的质量越高,同样的Hub页面H指向的Authority页面A的数量越多,质量越高,则H页面的质量也就越高。
优觉科技在最后总结一下,在搜索引擎原理这一本书,在介绍数据预处理这一块,包含的四个方面,在陈晨来看,链接分析就是用来判断网页重要程度的,所以可以划分为一类,合起来就是三个方面,一句话来说:重复或转载页面首先消除,然后提取关键词,加以DF,TF,链接,和算法来判断出网页重要程度。
快速预约上门 Reservation
联系我们 Contact US
地址:浙江省杭州市西湖区镇南路1号凤凰创意大厦5层
电话:400-8699-864
手机:13675891327
邮件:404011662@qq.com
ICP:
浙ICP备15004778号-1
公安备案号:33010302001608
快捷入口 Quick Entry
首页
关于我们
成功作品
新闻动态
服务范围
联系我们
友情链接:
网站建设公司
网站搭建
公司做网站
网络公司
网站制作公司
企业网站建设
公司网站设计
网页制作开发
网站建设制作
网站开发
门户网站建设
说几网站建设
网站设计制作
网页设计制作
网站开发公司
企业做网站
行业网站建设
企业建站
网站改版
网页设计
建站费用
网站改版
网站建立
建网站
网站创建
建站
制作网站
Go To Top 回顶部
首页
关于我们
成功作品
新闻动态
联系我们
地址:浙江省杭州市西湖区镇南路1号凤凰创意大厦5层
电话:400-8699-864
手机:13675891327
邮件:404011662@qq.com
ICP:
浙ICP备15004778号-1
公安备案号:33010302001608
业务咨询
售后服务
热线电话