BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Eventbrite和SEO:Google是如何找到一个页面的?

| 作者 Beck Cronin-Dixon 关注 0 他的粉丝 ,译者 NER 关注 0 他的粉丝 发布于 2016年8月3日. 估计阅读时间: 10 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

在搜索SEO时,有一件事让人倍感惊讶。当用户输入一个搜索词,得到的结果不是来自整个网络,而是来自Google对整个网络的收集代理。对于一个需要被纳入检索目录的页面来说,Google必须对它进行句法上的分析,并把页面的内容存储到自己的数据库里。

为了做到这点,那些被称之为网络蜘蛛和爬虫的自动机器人,就会扫描整个互联网,寻找哪些链接指向了它们已经索引过的页面。这些爬虫会从一个页面开始,追踪找到的链接,扫描并索引这些页面。

这个模式会一直重复,直到搜索引擎索引了相当规模的网络样本。它会把每一个页面上收集到的元信息和文本存储在自己的数据库里,它们正是用这些数据,来生成给用户展示的搜索引擎页面排名。

你拥有一个线上网站,并不能保证Google就会找到它,并把所有页面纳入到排名中。它必须或者通过导入链接和导出链接,以及网站自己的地图找到所有页面,或者手动提交给Google。Eventbrite依靠所有这些策略的混合,来确保页面被纳入到Google的网络索引里。

导入链接

导入链接是那些来自其他域的指向你的网站的链接。Google的爬虫来到一个页面,它们会迅速地从句法上分析它的内容,包括所有没有特别明示要搜索引擎忽视它们的链接。如果A网站包含了一个指向B网站的链接,Google在做完A网站的句法分析后,就会跟随链接去B网站。有越多的外部网站链接了你的网站,Google就越有可能索引到你的页面。

导入链接还在提升网站相关度和权威性方面扮演了重要角色。Google的主要目标是把每个网络页面当成一个用户的世界。因此他们认为拥有大量导出链接的页面是受欢迎的,并且会在相关搜索结果中提高该页面的排名。但这些链接必须是自然出现的,因为如果Google发现页面的大部分导入链接都来自低权威性或不相关的页面,就会降低这个页面的排名,或者从他们的索引中整个去除这些页面。

Sausalito艺术节网站链接到了Eventbrite

链接到这次活动页面的网站,一般会包括被Google索引了的组织者个人的网站。举办活动的时候,Eventbrite还会依靠媒体的发布,新闻文章和博客文章链接到活动页面。积累的外部资源越多,活动页面的权威指数越高。这将会提升Eventbrite的所有页面,因为Google会认为这个网站值得信任,并且因为链接到该网站的页面那么多,所以它很受欢迎。

导出链接

Google进入一个Eventbrite页面的时候,Eventbrite会用内部的链接引导爬虫到其他希望被Google索引到的页面中去。Eventbrite会利用最受欢迎的页面,指向其他希望用户和Google都能找到的内部页面中去。Eventbrite的主页是一个受用户欢迎的接入点,Google会将任何主页上找到的内部链接视为重点分析句法和索引的页面。Eventbrite也会将受欢迎的活动和链接纳入到自己的分类检索页面,以此受益。

Eventbrite还会将一些精心策划的链接放在网站页脚中,让它们在每一个页面显示,这就给了Google一个良好的暗示,证明这些链接也是重要的。网站页脚中的一些链接是动态的,并且取决于网站顶级域(TLD)的访问。一个访问Eventbrite.com的用户会看到页脚中链接的是美国城市,而访问Eventbrite.com.au的用户则会在页脚中看到链接的是澳大利亚城市。

(点击放大图像)

Eventbrite页脚-US TLD

(点击放大图像)

Eventbrite页脚-Australia TLD

Eventbrite还会在公共活动页面使用面包屑技术,从而连接城市和类别目录页。它不仅为Google找到这些页面提供了新的途径,还让用户能快速地从现在访问的活动页面跳转到其他类似的活动。

Eventbrite活动页面的面包屑导航

网站地图

网站地图是一个或多个文件,它能为搜索引擎提供导航功能,找到一个网站的所有页面。它并不会代替链接,而是帮助爬虫寻找那些可能因独立或者缺乏相互关联而错过的页面。网站地图还能传达每一个URL中有用的元数据,包括它最后被修改的时间和一个页面改动的频次。你看到的网站地图可能主要是XML的文件格式,但Google也接受纯文本和RSS的格式。

对大型网站来说,最好拆分网站地图,因为Google有限制最多50,000个URL和10MB的未压缩文件体积。可以把这些URL放在小一些的网站地图中,让它们组成一个网站地图索引文件。Eventbrite就采取了这种做法,因为它拥有超过一千万个页面,并且数量还在增长中。

Eventbrite主要的网站地图索引包含了活动页面、目录页面、地点描述页面和组织者页面的网站地图链接。每一个网站地图都有各自优先的信息。这就给Google提供了需要多频繁地回来索引新页面的迹象。

(点击放大图像)

Eventbrite网站地图索引的一个片段

要记住,把一个链接纳入到网站地图并不能保证Google的爬虫就会来索引并给它做句法分析。网站地图只是为搜索引擎提供索引建议,它不能替代相互链接的作用。

手动提交

对新网站来说,指望Google的爬虫通过导出链接找到他们是页面,这是不现实的。Google允许你通过它的网站管理工具Search Console手动提交单个页面或者网站地图。再强调一次,Google是否去抓取并索引这些页面,都是Google自主的决定。你也还是可以通过Google这个网站管理工具提交新的页面。

Google的爬行预算

Google对每一个网站都设置了抓取页面的限制,也叫预算。和每个网站的页面排名紧密相连,它们各自有不同的爬行预算。这就意味着,Google越是认为你的网站相关性高且重要,它每次访问时就会花费越多预算去抓取和索引这些页面。

Google用来设置一个网站爬行预算的决定因素,包括网站的权威性分数,网站的更新频率如何,新页面的添加频率,还有单个页面的访问速度和大小。为了提高页面数量,Google每次访问的时候都会做索引,你要确保减少无效链接的数量,因为它们只是浪费时间,而爬虫将没有更多可追踪的链接。你还要确保网站没有重定向循环链接。重定向循环就是A网站重定向至B网站,然后又重定向回A网站。爬虫本应可以索引你网站的其他页面,却被困在循环里。

你还可以利用Robot.txt文件,来弄清楚哪些页面是不够重要的,或者品质较低的,然后添加一条规则,不允许爬虫追踪和索引这些页面或目录。Eventbrite拥有超过一千万页面,但仅有150万个页面被收录到Google的索引中。Eventbrite会紧密关注那些低品质内容的页面、垃圾页面和过期页面等,限制Google索引这些页面。它还会将自认为重要的链接放在接近主页的地方,或者使它们容易通过全球导航找到。一套仔细斟酌过的等级制度,是确保网站优先页面被频繁地索引和再索引的关键。

总结

互联网中有超过4亿网络页面,Google需要一个帮手来找出新的网站和页面。Google索引的网络页面数量,一个估测的数值是10%。记住这件事非常重要:当用户在Google输入一个搜索词,得到的结果不是来自整个网络,而是来自Google的收集代理。返回的结果是那些Google已经找到并存储在它庞大数据库中的东西。

在改善Google对你的网站做句法分析和索引这件事上,你不该完全依赖单一种策略。一个清晰的、仔细斟酌过的网站等级制度,加上所有页面至少有一次内部连接,这些非常重要。为了让Google找到你的页面,网站地图是个很棒的起始点,对高优先级的新页面来说,手动提交很重要。

随着你网站的发展并收获更多导入链接,Google会优先考虑索引新的页面,因为它希望最具相关性和受欢迎的页面出现在搜索结果中。把那些会将用户引入你网站的内容纳入进来,也会提高你在搜索引擎中出现的几率。Eventbrite信奉的座右铭是:有利于SEO的,必定也是有利于用户体验的。

作者介绍:Beck Cronin-Dixon是在线活动策划服务平台Eventbrite的软件工程师,目前专门研究SEO。她还有交互式Web开发、Python、Django、JavaScript、Angular和React方面的经验。

查看英文原文Eventbrite and SEO: How does Google find our pages?


感谢陈兴璐对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT