如果您不想让 Google或其他搜索引擎访问您网站中的某些内容,请用 robots.txt文件指定搜索引擎抓取您的网站内容的方式。这是google管理员工具对robots.txt功能的一个描述。robots.txt文件说白了就是告诉爬虫哪些网址是可以被收录那些是禁止收录的。对于大多数wordpress*主来说很少注意robots.txt,认为他无关紧要,其实不然,robots.txt在wordpress优化,网站seo方面有着很重要的作用。robots.txt不光可以保护网站**链接不被搜索到,而且可以控制网站内容的重复和抓取错误。下面我就写几种wordpress常用的robots.txt规则。
*简单的robots.txt规则:
User-agent:*Disallow:
这是开放式的写法,Disallow:留空,是让搜索引擎收录所有链接。
安全*的robots.txt书写规则:
User-agent:*Disallow:/cgi-bin/Disallow:/wp-Allow:/wp-content/uploads/Disallow:/*.php$Disallow:/*.inc$Disallow:/*.js$Disallow:/*.css$Disallow:/*.cgi$Disallow:/?s=
有利于seo的robots.txt书写规则:(以本站为例)
User-agent:*Disallow:/cgi-bin/Disallow:/wp-Disallow:*/rss.xmlDisallow:/author/Disallow:/page/Disallow:/tag/Disallow:*/trackback/Disallow:*/feed/Disallow:/*.php$Disallow:/*.inc$Disallow:/*.js$Disallow:/*.css$Disallow:/*.cgi$Disallow:/*?*Disallow:/?s=Sitemap:
先说所我为什么这么设置。google管理员工具在分析我网站抓取错误信息的时候,发现大量链接是的形式,为了减少抓取错误,我就让搜索不爬这些链接,Disallow:*/rss.xml,如果你没遇到和我一样的问题这一条你可以不用加。同样,如果你的网站有大量抓取错误的无效链接,你可以在这里指定不抓取。
再有就是网站元重复太严重(标题重复,描述重复,关键词重复),这严重影响搜索引擎排名,我看中的是文章页排名,所以像标签页,作者文章归档,月份存档页,分页这些我选择Disallow。因为我的文章页面在google中的权重很高,流量几乎都是文章页面的,所以才这么设置。这个根据自己网站实际情况选择*的设置。
feed和trackback的条款是一定要的,可以说wordpress 80%以上的补充材料都是和它们有关。
wordpress**robots.txt书写规则(国外)
User-agent:*
Disallow:/cgi-bin
Disallow:/wp-admin
Disallow:/wp-includes
Disallow:/wp-content/plugins
Disallow:/wp-content/cache
Disallow:/wp-content/themes
Disallow:/trackback
Disallow:/feed
Disallow:/comments
Disallow:/author/*
Disallow:*/trackback
Disallow:*/feed
Disallow:*/comments
Disallow:/*?*
Disallow:/*?
Allow:/wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow:/*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow:/*
# digg mirror
User-agent: duggmirror
Disallow:/
Sitemap:
对于自己网站情况还不太清楚的*主,我推荐用这种,没有风险,安全,有利于seo。具体内容请参考:wordpress codex
在你修改robots.txt文件时,可以用Google网站管理员工具检测一下robots.txt是否符合规范。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
我也刚刚遇到这个现象,后来解决了,原因是:之前我忘记设置网页压缩还是伪静态,在站点根目录下搞了一个****d.ini(windows主机),结果造成访问根目录下的文件返回404,以致于wordpress启动自动生成robots.txt文件机制,这次出现了怪事!
本地测试了一下,如果根目录不放置robots.txt文件,那么访问localhost/robots.txt,也会出现下图的结果。
一、先来普及下robots.txt的概念:
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。这个文件用于指定spider在您网站上的抓取范围,一定程度上保护站点的安全和**。同时也是网站优化利器,例如屏蔽捉取站点的重复内容页面。
robots.txt目前并不是一种标准,只是一种协议!所以现在很多搜索引擎对robots.txt里的指令参数都有不同的看待。
二、使用robots.txt需要注意的几点地方:
1、指令区分大小写,忽略未知指令,下图是本*客的robots.txt文件在Google管理员工具里的测试结果;
2、每一行代表一个指令,空白和隔行会被忽略;
3、“#”号后的字符参数会被忽略;
4、有**User-agent的规则,会排除在通配“*”User agent的规则之外;
5、可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容。
6、尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。
三、Wordpress的robots.txt优化设置
1、User-agent:*
一般*客的robots.txt指令设置都是面对所有spider程序,用通配符“*”即可。如果有**User-agent的指令规则,尽量放在通配“*”User agent规则的上方。
2、Disallow:/wp-admin/
Disallow:/wp-content/
Disallow:/wp-includes/
屏蔽spider捉取程序文件,同时也节约了搜索引擎蜘蛛资源。
3、Disallow:/*/trackback
每个默认的文章页面代码里,都有一段trackback的链接,如果不屏蔽让蜘蛛去捉取,网站会出现重复页面内容问题。
4、Disallow:/feed
Disallow:/*/feed
Disallow:/comments/feed
头部代码里的feed链接主要是提示浏览器用户可以订阅本站,而一般的站点都有RSS输出和网站地图,故屏蔽搜索引擎捉取这些链接,节约蜘蛛资源。
5、Disallow:/?s=*
Disallow:/*/?s=*
这个就不用解释了,屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。
6、Disallow:/?r=*
屏蔽留言链接插件留下的变形留言链接。(没安装相关插件当然不用这条指令)
7、Disallow:/*.jpg$
Disallow:/*.jpeg$
Disallow:/*.gif$
Disallow:/*.png$
Disallow:/*.bmp$
屏蔽捉取任何图片文件,在这里主要是想节约点宽带,不同的网站管理员可以按照喜好和需要设置这几条指令。
8、Disallow:/?p=*
屏蔽捉取短链接。默认头部里的短链接,百度等搜索引擎蜘蛛会试图捉取,虽然*终短链接会301重定向到固定链接,但这样依然造成蜘蛛资源的浪费。
9、Disallow:/*/comment-page-*
Disallow:/*?replytocom*
屏蔽捉取留言信息链接。一般不会收录到这样的链接,但为了节约蜘蛛资源,也屏蔽之。
10、Disallow:/a/date/
Disallow:/a/author/
Disallow:/a/category/
Disallow:/?p=*&preview=true
Disallow:/?page_id=*&preview=true
Disallow:/wp-login.php
屏蔽其他的一些形形**的链接,避免造成重复内容和**问题。
10、Sitemap:****://*******/sitemap.txt
网站地图地址指令,主流是txt和xml格式。告诉搜索引擎网站地图地址,方便搜索引擎捉取全站内容,当然你可以设置多个地图地址。要注意的就是Sitemap的S要用大写,地图地址也要用**地址。
上面的这些Disallow指令都不是强制要求的,可以按需写入。也建议站点开通谷歌管理员工具,检查站点的robots.txt是否规范。
解决办法:
1、首先打开程序,在wp-includes目录下找到functions.php文件;
2、然后用记事本打开或者是用dreamweaver打开,用dreamweaver进行编辑,打开functions.php文件,找到function do_robots(),大概在1070行左右,可以看到系统默认的robots.txt文件的定义规则。
3、按照上面的规则样式来重新编写,将网站需要添加的内容添加到这段代码里面。
4、添加好之后然后点击保存,这时候就可以打开网站查看网站robots.txt是否完整了
我来说一下WordPress(简称W)和DreamEver(简称D)的区别吧: 1、W和D都能用来建立网站,但是D建立的是纯静态的HTML页面,而W则是建立的基于PHP的动态页面; 2、W是用自己的模板的(也就是你所说的样式),可以很简单的使用,再加上许多爱好者也开发了与W兼容的大量模板,可以供我们选择一套满意的。而D却需要自己去设计页面(当然你可以去网上下一些模板),但是这样灵活必*其不高;
把WordPress放到单独它单独目录下的程序如下: 1、新建一个用来存放WordPress核心文件的新文件夹(本例以/wordpress示范)。 2、进入选项(options)面板。 3、找到WordPress address(URL)(中文用户请查找”WordPress地址(URL)“)这个选项:把后面的地址改成你存放WordPress文件的文件夹地址。比如: 4、找到Blog
问题一:建个小网站能*钱吗?这个问题很***,就像问做生意可以*钱不。 这个看谁了,看谁做怎么做做什么。 就说做网站吧 如果你只是做一个简单的*客类型的个人小网站的话,可以使用wordpress.这个程序做。 自动就生成一个网站的。很简单的。世界*出名的个人免费建站程序。 做网站首先需要一个域名和服务器(域名就是我们说的网址,服务器你的小网站买虚拟主机就可以了) 如果买国外的
先到WordPress中文**网站免费下载WordPress安装包。下载地址: 服务器环境要求 PHP 5.2.4或更新版本MySQL 5.0或更新版本Apache mod_rewrite模块(可选,用于支持“固定链接”和“站点网络”功能) 操作步骤 1、将下载的安装包解压缩。 2、打开 Xshell,然后打开 Xftp,将解压缩后的文件(注意不是wordpress这个文件夹