魔方智能采集助手使用简明文档:
1>第一处箭头处填写被抓取网站的顶级域名,例如:http://www.chinaz.com
2>第二处箭头填写保存路径,选择浏览即可自动选择
3>特征包含元素:例如,站长站内容大都是:http://www.chinaz.com/start/2015/0824/437603.shtml这种形式,我们可以
将特征包含元素设置为:.shtml或者star,多个特征用“#”隔开。
假如我想抓取淘客相关的分类,分类下内容大部分是:http://www.chinaz.com/biz/taoke/2015/0824/437738.shtml
这种形式,因此我们就可以填写taoke#.shtml
4>和上面的意思相反就行了,可以不同填写
5>纯文本就是简单的TXT文档,文章内容不包含任何HTML代码;保留网页代码格式,程序会保留HTML代码