本站专注于数据化运营,涉及阿里巴巴国际站运营,Google SEO,独立站建设等内容,欢迎各位发文投稿
博主:为主的祥助 提供阿里巴巴国际站运营诊断服务 QQ:2067552955
在线培训:玩转Google SEO:从入门到精通课程,报名VIP后联系我记录,可返红包30+送神器工具

如何编写网站robots.txt文件

网站建设 为主的祥助 711次浏览 0评论

Robots协议全称是网络爬虫排除标准”(Robots Exclusion Protocol),叫爬虫协议或机器人协议,也可戏称萝卜丝协议,用户告诉搜索引擎爬虫网站哪些页面可以被抓取,哪些页面禁止抓取。


Robots.txt文件:

 Robots文件是以robots.txt文件形式存在于网站主机服务器上,编辑robots.txt文件可以使用windows系统的txt文本编辑器进行创建和编辑。若网站有制作和上传robots.txt文件,搜索引擎爬虫会第一时间访问这个文件并根据文件内的指令进行工作。请注意,robots.txt是一个协议,而不是一个命令。

Robots写法:

 User-agent:*      *是一个通配符,表示所有的意思,这里指允许所有搜索引擎爬取

Disallow:/123/     禁止爬寻123目录下面的目录

Disallow:/123/*.htm 禁止访问/123/目录下的所有以”.htm”为后缀的URL(包含子目录)

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/123/123.html禁止爬取123文件夹下面的123.html文件。

Allow:/123/ 这里定义是允许爬寻123目录下面的目录

Allow:/123 这里定义是允许爬寻123的整个目录

Allow:.htm$ 仅允许访问以”.htm”为后缀的URL。

Allow:.gif$ 允许抓取网页和gif格式图片

Sitemap:网站地图 告诉爬虫这个页面是网站地图

等等,总体分为allow和disallow两种形式

查看网站robots.txt:

      以我的博客站为例,域名是https://www.losvincent.com,手动在域名后面输入robots.txt,如:https://www.losvincent.com/robots.txt,  之后回车即可访问该网站的robots.txt文件


本文标题:如何编写网站robots.txt文件
作者:为主的祥助    转载请保留页面地址: https://www.losvincent.com/robots.html ‎
更多跨境平台运营技术干货,请关注公众号:跨境E站(GlobalSEO)    
一个有灵魂的公众号,专注更新外贸领域跨境电商平台的运营操盘和数据优化,独立站搭建,Google SEO和SEM Marketing等优质内容

转载请注明:跨境E站 » 如何编写网站robots.txt文件

Some kind of trouble

微信公众号:跨境E站(GlobalSEO) ,一个有灵魂的公众号,专注更新外贸领域跨境电商平台的运营操盘和数据优化,独立站搭建,Google SEO和SEM Marketing等优质内容
本站服务:承接阿里国际站运营,官网建站等服务

微信 OR 支付宝 扫描二维码
为本文作者 打个赏
pay_weixinpay_weixin微信公众号
知识付费,金额随意 亲的支持是我更新的动力!~
喜欢 (2)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

每日一学,人人都是运营总监

联系我
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册