wordpress如何爬虫

如果您不想让 Google或其他搜索引擎访问您网站中的某些内容,请用 robots.txt文件指定搜索引擎抓取您的网站内容的方式。这是google管理员工具对robots.txt功能的一个描述。robots.txt文件说白了就是告诉爬虫哪些网址是可以被收录那些是禁止收录的。对于大多数wordpress*主来说很少注意robots.txt,认为他无关紧要,其实不然,robots.txt在wordpress优化,网站seo方面有着很重要的作用。robots.txt不光可以保护网站**链接不被搜索到,而且可以控制网站内容的重复和抓取错误。下面我就写几种wordpress常用的robots.txt规则。

*简单的robots.txt规则:

User-agent:*Disallow:

这是开放式的写法,Disallow:留空,是让搜索引擎收录所有链接。

安全*的robots.txt书写规则:

User-agent:*Disallow:/cgi-bin/Disallow:/wp-Allow:/wp-content/uploads/Disallow:/*.php$Disallow:/*.inc$Disallow:/*.js$Disallow:/*.css$Disallow:/*.cgi$Disallow:/?s=

有利于seo的robots.txt书写规则:(以本站为例)

User-agent:*Disallow:/cgi-bin/Disallow:/wp-Disallow:*/rss.xmlDisallow:/author/Disallow:/page/Disallow:/tag/Disallow:*/trackback/Disallow:*/feed/Disallow:/*.php$Disallow:/*.inc$Disallow:/*.js$Disallow:/*.css$Disallow:/*.cgi$Disallow:/*?*Disallow:/?s=Sitemap:

先说所我为什么这么设置。google管理员工具在分析我网站抓取错误信息的时候,发现大量链接是的形式,为了减少抓取错误,我就让搜索不爬这些链接,Disallow:*/rss.xml,如果你没遇到和我一样的问题这一条你可以不用加。同样,如果你的网站有大量抓取错误的无效链接,你可以在这里指定不抓取。

再有就是网站元重复太严重(标题重复,描述重复,关键词重复),这严重影响搜索引擎排名,我看中的是文章页排名,所以像标签页,作者文章归档,月份存档页,分页这些我选择Disallow。因为我的文章页面在google中的权重很高,流量几乎都是文章页面的,所以才这么设置。这个根据自己网站实际情况选择*的设置。

feed和trackback的条款是一定要的,可以说wordpress 80%以上的补充材料都是和它们有关。

wordpress**robots.txt书写规则(国外)

User-agent:*

Disallow:/cgi-bin

Disallow:/wp-admin

Disallow:/wp-includes

Disallow:/wp-content/plugins

Disallow:/wp-content/cache

Disallow:/wp-content/themes

Disallow:/trackback

Disallow:/feed

Disallow:/comments

Disallow:/author/*

Disallow:*/trackback

Disallow:*/feed

Disallow:*/comments

Disallow:/*?*

Disallow:/*?

Allow:/wp-content/uploads

# Google Image

User-agent: Googlebot-Image

Disallow:

Allow:/*

# Google AdSense

User-agent: Mediapartners-Google*

Disallow:

Allow:/*

# digg mirror

User-agent: duggmirror

Disallow:/

Sitemap:

对于自己网站情况还不太清楚的*主,我推荐用这种,没有风险,安全,有利于seo。具体内容请参考:wordpress codex

在你修改robots.txt文件时,可以用Google网站管理员工具检测一下robots.txt是否符合规范。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

笔者是wordpress的忠实用户,之前也做过针对google和yahoo的seo,这些国外主流搜索引擎对wordpress貌似都相当友好。但是笔者做秀萌网*客的时候发现了问题:百度为什么无论如何都不会收录我在wordpress里发表的文章呢?难道是因为外链发的不够多?如果不收录我的文章,那何谈转载。在笔者经过网上查阅资料,分析得出经验和结论,总结了本篇文章。百度不收录wordpress页面的原因百度不收录wordpress的页面其实并不是**的,国内有很多做的相当不错的wordpress站,比如笔者很喜欢的谷奥。这些站本身和其他wordpress到底有什么样的区别?仔细观察过一些被收录很好的网站,发现它们本身的标签云并没有被很好的收录,文章归档页也大多没有收录。再去看这些站点的sitemap,其实并没有什么特别之处。起初笔者也是越来越迷茫,到底是什么原因导致了它们可以被顺利收录?经过多番试验,答案终于水出石面。总结下来有以下几条原因:经常改变主题wordpress丰富的主题会让不少站长挑花了眼,但是两三天一换主题却是一个致命伤。不同主题大多文档结构是不一样的,如果经常改变主题,也就相当于网站经常改版。这样一定会影响收录情况的,*坏可能会被k站。所以使用wordpress做blog的站长一定要注意,切忌勤换主题。解决方法也很简单,选择主题一定一步到位,之后修改主题只需要二次开发就好了,没必要大动干戈的时候就尽量少修改。复杂的标签云也许有人会问,标签云不是有利于搜索引擎的吗?的确,好的标签云是增加网站内部链接的很好的选择。但是过度使用标签会造成不好的影响。尤其wordpress的标签功能十分强大,同时也十分复杂,这就给搜索引擎爬取页面带来了难度:爬虫无法权衡标签的权重。其实标签并不是分类,如果把标签当作文档归类去使用,那注定你网站的结构不会太好。通常情况,一篇文章打1到3个标签是正常的,如果标签太多,反而会让爬虫绕晕,不利于收录。如果掌握不好度,可以将“标签云”的小插件删除掉。过慢的反应速度和动态页面过慢的反应速度通常也是网站的硬伤。如果开启了缓存还好,没有开启缓存功能的wordpress站可能需要很高的主机配置。开启很多插件的wordpress同时会对相应速度产生影响。*好的方法,当然是静态化url。

继续深入探讨WordPress建站的优化策略,特别是如何通过使用OpenLiteSpeed与LiteSpeed cache插件实现网站加速。有读者反馈,这一组合对提升网站打开速度效果**,甚至优于某些流行的缓存插件,如wp rocket。接下来,我们将分享具体步骤和配置方法,以帮助网站管理员实现这一优化。

**步骤一:安装OpenLiteSpeed**

OpenLiteSpeed是一款服务器级别的插件,与Nginx、Apache等处于同**别,是网站运行的可选组件之一。这意味着如果你的网站已使用Nginx或Apache,你需要先卸载它们才能安装OpenLiteSpeed。卸载后,通过宝塔面板的软件商店搜索并安装OpenLiteSpeed即可。使用默认设置即可,无需深入配置OpenLiteSpeed内的各项设置。

**步骤二:安装LiteSpeed Cache插件**

LiteSpeed cache是一款专门为WordPress设计的插件,兼容OpenLiteSpeed、Nginx、Apache等运行环境。在OpenLiteSpeed环境下,其高级缓存功能效果更佳。LiteSpeed cache插件完全免费,通过WordPress后台搜索并安装即可。

**LiteSpeed Cache插件设置**

在启用插件后,WordPress后台将新增LiteSpeed cache菜单,提供一个**的仪表盘。推荐设置如下:

-**常规设置**:开启自助升级选项,Guest Optimization也建议打开。避免链接到QUIC******的选项。

-**缓存规则**:保持默认设置。

-**对象缓存**:开启,需确保PHP已安装Memcached或Redis扩展。安装Memcached是推荐选项。

-**浏览器缓存**:开启。

-**CDN、图片优化**:默认选项即可。

-**页面优化**:功能全部开启,根据实际测试情况调整。

-**数据库清理**:按需使用,注意避免使用不建议的功能。

-**爬虫**:设置网站地图,预缓存页面。

-**工具箱**:默认设置即可。

**实际效果**

完成安装和设置后,理论上网站打开速度会得到**提升,加**果至少能与wp rocket等插件相媲美,且免费使用。通过GTmetrix等工具检测,可以直观地评估加**果。实测结果显示,网站得分提升明显,速度表现不俗,证实了OpenLiteSpeed与LiteSpeed cache插件的组合在加速方面确实有效。

**总结**

OpenLiteSpeed与LiteSpeed cache插件的组合在加速WordPress网站方面表现出色,但需注意以下几点:

-**兼容***:确保插件与网站当前使用的服务器组件兼容,必要时可能需要卸载或替换组件。

-**稳定***:OpenLiteSpeed的长期稳定*仍有待市场验证,尤其是在特定的主机环境。

-**插件兼容***:检查当前使用的插件是否支持OpenLiteSpeed,避免潜在的兼容*问题。

-**额外成本**:如使用特定的防火墙(如宝**火墙),需评估更换服务器组件的可行*及成本。

总之,结合实际需求和网站环境,合理选择并配置这些工具,可以有效提升WordPress网站的加载速度,实现更好的用户体验。

相关文章
在线客服
微信联系
客服
扫码加微信(手机同号)
电话咨询
返回顶部