ScrapeBox:从入门到精通完全中文教程(转)

时间:12-08-02 栏目:SEO工具 作者:kyle 评论:0 点击: 18,629 次

ScrapeBox:从入门到精通完全中文教程

 

ScrapeBox作为外贸SEO领域中最为常见的外链工具,几乎人手一份,虽然性能较xRumer要弱很多,但是这并没有阻挡黑帽seoer们对它的喜爱。蓝月这次带来一份超级详细的ScrapeBox中文教程,希望能帮助到跟我一样迷茫的英文SEO新人。

本文主要借鉴了腿哥的《SEO中文宝典》,整理成了能被搜索引擎理解的纯文字信息,版权归腿哥所有。

 

Scrapebox主要功能区使用简介

ScrapeBox作者将工作界面分为4个区域——harvester;Select Engines&Proxies;URL’s harvested;comment poster,如果用中文解释,搜索区;代理区;URL整理区;操作区比较合适。

201213104112

对于其主要操作流程,可以看下面这张图:

20111231171528

下面一个一个区域进行功能介绍:
先说搜索区:
搜索区功能主要有:关键词拼合清理footprint关键词、footprint输入区关键词抓取按钮关键词导入功能
201213104630

代理区:
这个区很重要,会直接影响到Scrapebox搜刮资源以及发布资源的效率和成功率。
代理区主要由搜索结果来源(搜索引擎);代理IP存放区;代理IP管理区
201213105940

URL整理区:
这个区是Scrapebox的主要操作区,涉及到了URL列表存放区;去重过滤按钮;整理URL到根目录;PR查询;收录查询;邮箱抓取;导入URL;导出URL;导出URL≺开始收割资源等10个项目。
201213110744

操作区:
当填写完footprint、整理了代理列表、搜刮到你想要的资源之后,你就可以在这个区里面操作了,这个区主要由4部分组成,分别是操作模式选择区;群发网站信息;状态区;开始操作区
201213111420
当你选择不同的操作模式,工具会显示对应的操作区,也只有对应的操作区可以操作,其他的不可操作去都是灰色的。

 

Scrapebox菜单栏设置介绍

菜单区:
201213112215

Settings菜单

1
Adjust Maximum Connection

调整最大连接数,在批量检查PR、批量群发的时候,最大链接数越多,能够增加群发的效率,降低群发的时间,但是我个人建议保持默认比较好。

1
Adjust timeout settings

如果你网速很好,超时设置可以把时间设置的短一些,如果你长期出现超时,那么设置长一些是比较好的。

1
Post Only using Slow Commenter

只使用慢速评论模式。快速模式虽然可以增加效率,但是却降低了成功率,慢速模式可以增加成功率。

1
Use Multi Threaded Harvester

多线程模式会增加收割的速度,但是增加了PC的CPU的负担,如果你电脑配置够好,可以使用多模式。

1
Adjust Muti Threaded Harvester Proxy Retries

这一项是表示当SB发现代理报404后,他会尝试多少次。建议使用默认。

1
Fast Poster Connection Balancing

使用该项设置以后,SB会将LIST以500为单位就行分割。一个500URL list处理完以后,再处理下一个500url 的list,这样能够最大限度的降低对硬件的要求。

Option菜单

1
Use Custom User Agents、Edit Custom User Agents

user agent意思是用户代理,User Agents用户代理是指浏览器,它的信息包括硬件平台、系统软件、应用软件和用户个人偏好.用户代理,它还包括搜索引擎。你访问web时,服务器会记录你的用户代理、IP等情况。最好使用个性化的user agent,国外有个关于user agent的网站,你可以自己去复制一个。
地址:

1
http://www.user-agents.org/index.shtml?moz
1
Enable Crashdump Logging

这个选项要配合The Crashdump Logger使用,使用该功能以后,Crashdump Logger会启用一个独立的进程来记录你的操作,然后当你机器崩溃、SB崩溃的时候,你正在harvester、commenter的数据可以恢复,不用重头开始。

1
Setup Email Notification Server

设置邮件提醒,这个功能对那些使用桌面邮件系统的用户比较好,比如你在远程服务器上设置的任务完成后,SB会发邮件通知你。

 

Scrapebox的RSS提交

Scrapebox也有RSS提交功能,但是他只能批量提交RSS,不能提交非RSS模式的URL,但是现在很多网站都提供单独页面URL批量ping的功能,比如

1
http://www.pingfarm.com

网站做好以后、外链群发后URL都可以用来批量ping,通过ping功能可以加快页面的收录速度。
201213120324
编辑Scrapebox的RSS服务:
201213120831

 

Scrapebox中为每个页面设置指定关键词

在Scrapebox中,博客评论有两个区域可以添加链接——website表域、评论区。但是评论区(comments)添加链接会降低发送成功率,同时也容易让进入Akismet黑名单。那么最好做工作的区域就只剩下website表域了。

但是博客Name资料会被Scrapebox用作website的锚文本,并且Name域list中的哪个资料会被用作锚文本,我们无法确定。我们很多时候又需要为每个页面设置一个独特的关键词锚文本,为了解决这个矛盾,可以使用如下下技巧:
在websites域list中采用如下形式来写:

1
http://www.moneytool.com.cn/ {keywords1|keywords2|keywords3}
1
http://www.moneytool.com.cn/ {keywords4|keywords5|keywords6}

……
然后name域list可以不用填。
发送出去后的html效果是:

1
<a href="http://www.moneytool.com.cn/">腿哥</a>

 

Scrapebox中的代理问题

免费代理、共享代理、私人代理

由于Scrapebox需要大量的群发、收割搜索引擎结果等,操作过于频繁容易导致IP被封。虽然使用代理会在一定程度上降低成功率,但是这可以保证你不被封IP,任务可以完成。
代理分免费代理、共享代理、私人代理。免费代理也就是Scrapebox代理抓取到的IP,这些代理每天使用的人很多,很容易导致你群发的评论被封,在使用免费代理做群发前,请抓取最新的代理IP。共享代理是参加付费服务的用户共用的一些代理IP,共享代理IP的群发效果要比免费代理好些,但是也会由于使用的人过多,导致成功率降低。私人代理完全是个人独享的,你群发的成功率完全由你自己的操作所控制,但是要整几十个代理IP一个月的费用也是不小的,老外推荐

1
http://www.yourprivateproxy.com/

免费代理适用于抓取关键词、抓取博客list这样的基础性工作;共享代理、私人代理可以用来做群发,它可以提高你的成功率。

WordPress垃圾评论系统Akismet黑名单判断标准

WordPress很多用户由于被spam的太厉害了,国外用户一般都会开启Akismet来防御spam群发。
Akismet判断群发spam的标准有三:
一、同一域名被5-10个用户手工判为spam,那么Akismet就会把这个域名列入黑名单;群发评论无法通过Akismet保护的博客; 二、在30分钟内群发100条评论以上的域名将被判为spam,那么Akismet就会把这个域名列入黑名单;群发评论无法通过Akismet保护的博客;
三、在30分钟内群发100条评论以上的IP将被判为spam,那么Akismet就会把这个IP列入黑名单;该IP下的群发评论无法通过Akismet保护的博客;

利用Proxyfire来挖掘最新的Scrapebox代理资源

Proxyfire本文不做详细介绍,只是略微提及一下,大概方法就是先随便找一些代理IP,无所谓是否过期,然后选择Proxyfire选项卡中的搜索引擎吸附,在关键字选项中把那些你找到的代理IP复制进去,然后开始搜索、验证。
之后再把验证完了的代理IP导入到Scrapebox当中进行验证。验证过程可以在上面提到的线程和超时设置里面更改。

 

SCRAPEBOX的Footprint使用

Footprint在中文里的翻译是“脚印、足迹”,该词常被应用到搜索互联网资源。在讲下面的资料前,给大家讲讲基本的搜索引擎搜索命令:

1
allinanchor:keywords

anchor是一处说明性的文字,它标注说明了这个链接可能跳转到其它的网页或跳转到当前网页的不同地方。当我们用allinanchor提交查询的时候,Google会限制搜索结果必须是那些在anchor文字里包含了我们所有查询关键词的网页。例[ allinanchor: best museums Sydney ] ,提交这个查询,Google仅仅会返回在网页anchor说明文字里边包含了关键词”best” “museums” 和”Sydney”的网面。

1
allintext:keywords

当我们用allintext提交查询的时候,Google会限制搜索结果仅仅是在网页正文里边包含了我们所有查询关键词的网页。例[allintext: travel packing list],提交这个查询,Google仅仅会返回在一个网页包含了三个关键词”travel” “packing”和”list”的网页。

1
allintitle:keywords

当我们用allintitle提交查询的时候,Google会限制搜索结果仅是那些在网页标题里边包含了我们所有查询关键词的网页。例[allintitle: detect plagiarism],提交这个查询,Google仅会返回在网页标题里边包含了”detect”和”plagiarism”这两个关键词的网页。

1
allinurl:keywords

当我们用allinurl提交查询的时候,Google会限制搜索结果仅是那些在URL(网址)里边包含了我们所有查询关键词的网页。例[allinurl: google faq],提交这个查询,Google仅会返回在URL里边包含了关键词”google”和”faq”的网页,象www.google.com/help/faq.html等的网页。

1
author:keywords

当我们用author进行查询的时候,Google会限制返回结果仅仅是那些在Google论坛里边,包含了特定作者的新闻文章。在这里,作者名可以是全名,也可以是一部分或邮件地址。例[children author:john author:doe]或[childrenauthor:doe@someaddress.com]返回结果将是作者John Doe 或是 doe@someaddress.com写的,关于包含关键词children的文章。

1
cache:

提交cache:url ,Google会显示当前网页的快照信息,从而替换网页的当前信息。例[cache:www.eff.org],提交这个查询,Google会返回所有抓取的关于www.eff.org的网页快照信息。在显示的网页快照信息里边,Google会高亮显示查询关键词。(在cache:和URL之间不能有空格)

1
inanchor:

当我们用inanchor提交查询的时候,Google会限制结果是那些在网页anchor链接里边包含了查询关键词的网页。例[restaurants inanchor:gourmet],提交这个查询,Google会查询那些在anchor信息里包含了关键词”restaurants”和关键词”gourmet”的网页。

1
intext:

当我们用intext进行查询的时候,Google会返回那些在文本正文里边包含了我们查询关键词的网页。[Hamish Reid intext:pandemonia],提交这个查询的时候,Google会返回在文本正文包含查询关键字pandemonia,在其它任何地方包含关键词”Hamish”和”Reid”的网页。(intext:后面直接跟查询关键字,不能有空格)

1
intitle:

当我们用intitle进行查询的时候,Google会返回那些在网页标题里边包含了我们查询关键词的网页。例[flu shot intitle:help],提交这个查询,Google会返回在网页标题包含了查询关键字”help”,而在其它任何地文包含了查询关键字”flu”和”shot”的网页。(intitle:后面也不能有空格)

1
inurl:

当我们用inurl进行查询的时候,Google会返回那些在URL(网址)里边包含了我们查询关键词的网页。例[inurl:print site:www.ssoooo.com],提交这个查询,Google会查找www.ssoooo.com这个网站下面网址里边包含了查询关键词”print”的网页。

1
link:

当我们使用link:URL提交查询的时候,Google会返回跟此URL做了链接的网站。例[link:www.ssoooo.com],提交这个查询,我们将得到所有跟www.ssooo.com这个网站做了链接的网站。(link是个单独的语法,只能单独使用,且后面不能跟查询关键词,跟能跟URL)

1
related:

用related提交查询,Google会返回跟我们要查询的网站结构内容相似的一些其它网站。例[ related:www.consumerreports.org ],提交这个查询,Google会返回所有跟网站www.consumerreports.org结构内容相似的网站。我们也可以通过点击搜索结果后面的相似网页,来查询跟当前网页类似的网页。(related:后面不能跟空格)

1
site:

当我们用site提交查询的时候,Google会限制查询仅在某个网站,或是某个域下面进行。例[admissions site:www.lse.ac.uk],提交这个查询仅仅会搜索网站www.lse.ac.uk下面关于admissions的信息。我们还可以限制搜索仅在域下面进行,例[javascript site:edu.cn],提交这个查询,仅仅在教育网查询关于javascript的信息。(site:后面不能跟空格,且site命令可以配合其它命令进行)

这些命令是我们经常要用到的,你如果要查看完整的google搜索命令,可以百度一下“google 搜索命令”。
这些命令可以混搭着使用,比如: inurl:/profile.php intitle:lost weight “powered by wordpress” “leave a comment”
该搜索命令可以将URL中含有/profile.php,title中含有lost weight的可以留评论的wordpress论坛找出来。

 

搜索Auto-approved博客

由于现在博客评论被滥用的比较厉害,很多博主都开启了博客反留言插件,这大大的降低了博客发送的成功率,为了增加博客群发的成功率,寻找大量的autoapproved的博客就成了做排名的一个好方法。
201213134010
上图中演示了基本的SB操作,从Merge关键词、输入关键词footprint、抓取免费代理IP、开始收割博客URL地址都有箭头做说明。由于这些基本的操作很容易就弄明白了,所以这里不做多讲。
在收割结束后,要对URL进行整理——删除重复的博客URL,删除PR较低的域名等等。
由于这里要对去重过的URL进行群发,验证是否auto-approved,群发的量会有点多,所以要准备一个垃圾域名,或者被K掉的域名。将收割到的URL转移到评论区list按钮(Transfer url to Blog Lsit),然后选择fast poster,等待SB发送结束;然后使用expert “posted” entries保存,接着使用expert “posted” entries把发送失败的URL导出保存,再重复上述过程,不停的将failed的博客进行fast poster,直到剩下最后一个URL。然后开启check links模式,将所有post出去的URL进行验证,如果有你URL连接的,就说明是auto-approved。整个流程看下图:
201213134533

 

偷Spammer的外链

现在一些老手都会自己收集整理Auto-approved博客评论list,如果我们找到他的网站,把他的评论博客URL收集整理,就成了我们的Auto-approved博客list了,这样收集到的URL质量又高,效率更加不用说了。
步骤:
1. 将平时看到的在做博客评论群发的网站收集起来;
2. 使用addon插件link extractor,导入收集到的正在做博客群发的网站list;
3. 然后选择both模式开始收割站内URL,记住了,这里是收集站内URL,为什么呢?很多老手做外链都是站内所有URL都发,不把所有外链只想首页,收集他所有的站内URL,可以抓取到更多的资源。这里需要指出的是这种方法只能收集到一部分URL,不能确保站内所有URL都被收集到。如果要收集站内所有URL,请看下图。
201213134858
4. 将link extractor收集的URL导出来,然后把list导入到插件backlink checker中;
5. Backlink checker整理的数据再导入到addon插件blog analyzer,把不是blog的url去掉;
6. 然后使用第五章讲到的方法对外链进行整理,找auto-approved博客。

 

收集Spammer利基站内所有外链

寻找auto-approved博客偷Spammer的外链中已经说过使用link extractor抓取一个网站内部的部分URL,该方法有个小毛病,资料不齐全,然后SB不能对抓取到的URL内部链接进行整理,会有/page.html这样的链接,而不能转化为

1
http://www.moneytool.com.cn/page.html

这里我们以百度

1
http://www.baidu.com

为例讲解:
1. 在SB中输入搜索footprint关键词:

1
site: http://www.baidu.com


2. 抓取免费代理IP;
3. 启动harvester,开始收集baidu站内所有的URL
4. 将搜索的结果导入到Backlink checker中;
5. Backlink checker整理的数据再导入到addon插件blog analyzer,把不是blog的url去掉;
6. 然后使用SCRAPEBOX的Footprint讲到的方法对外链进行整理,找auto-approved博客。

 

寻找高PR的博客群发

虽然说google的PR对排名的作用不再明显,但是PR依然是判断网站质量的一个因素,高PR的网站质量不一定高,但是高质量的网站的PR一般都比同类型低质量的网站要高,所以找个高质量的网站做群发肯定要比低PR的网站效果要来的好。
高PR博客留言添加链接还有个好处:能够快速增加收录,我最快纪录是3分钟。
高PR博客虽然很好,但是高PR博客评论都需要审核,注册操作会有点复杂,这样的资源群发会有点困难,所以效果还很不错。这里讲一种最普通的方法,也是最有效的方法。
操作步骤:
第一步:将抓取到的URL导入到SCRPEBOX
201213143542
第二步:使用SCRAPEBOX自带的PR整理工具对URL进行整理,这里PR整理有两种形式——整理页面PR,整理域名PR,个人建议整理页面PR,因为页面才是我们反链接目标页面,高PR的页面才是真的PR。
——整理域名PR方法
2012131435421
选择下拉列表中Get Domain Pagerank
同理,页面PR查询就是选择下拉列表中Get URL Pagerank。
第三步:高PR博客筛选
在查询PR过程中,由于需要大量使用代理IP,部分页面或域名的PR或没有查询值,建议将没有查询值的页面重新查询。
怎样筛选没有查询值的PR页面或域名呢?
——方法:将查询结果导出为表格,然后按照PR排序,然后将没PR的页面全选,copy出来粘贴到一个TXT文件,然后再次查询;重复上面步骤,直到自己认为差不多的时候,就停止。
所有页面按照上述PR值高低排序,就可以看到所有页面或域名的PR,然后你可以进行下面的评论工作了。

 

寻找Do-follow博客

现在97%的博客都使用了nofollow属性,想要找到那3%的dofollow博客不是一般的难。这里还是讲两个方法:

1
方法:

使用link checker插件
2012131435422
Link checker会对页面的所有html代码进行分析,然后搜索制定代码,利用这个特性,我们可以让他搜索nofollow属性。
操作步骤:
步骤一:nofollow属性
一般html中nofollow属性代码写法如下:
rel=nofollow
rel=”nofollow”
rel=’nofollow’
步骤二:通过link checker搜索nofollow属性代码

文章转自:http://www.justest.in/tool/78.html

成都SEO小五嚎2句: 本文是(成都SEO小五)辛苦弄出来的,转载成都SEO小五原创的请保留链接: ScrapeBox:从入门到精通完全中文教程(转),3Q

ScrapeBox:从入门到精通完全中文教程(转):等您坐沙发呢!

来给哥评论评论


------====== 小五公告 ======------
成都SEO小五,专注成都搜索引擎优化。
小五善长站内外优化,C#、PHP开发,中英文SEO,Google中英文和百度优化技术。欢迎群内交流。伸手党请绕路,求资源的请绕开,求问题解答的请进群内交流。开放了一个QQ交流群:160750032。加入验证时请标注任何SEO相交字眼。友情链接直接Q我,收录正常,内容大部份原创、SEO或者程序开发、网络营销、线上推广等相关行业即可。

常用工具

赞助广告

来看过哥的人