火车采集器基本使用---采集腾讯南京频道新闻---Dedecms
投稿人:emperra 来自:http://hi.baidu.com/emperra
前段时间知道要做一个无锡都市网,很明显的信息什么的客户不可能自己一个一个手动添加,况且由于很多原因,我们在交付客户前,还要添加上很多的信息.所以,就上网找了个采集器,火车采集器.之前有接触过类似的东西,是两年前看教程的时候貌似那个老师讲了那么一两句,模模糊糊的有点印象,下载来的时候专门看了看官网,结果官网上的资料基本上没看明白.一般说下午四点后我的工作能力基本消失了...

直接上图片.第一步,新建任务,当然了,要先在站点--新建站点,这个我就不废话了,直接在新建的站点右键菜单弹出新建任务,新建,出图例所示的效果,简单介绍下功能,网站地址这个不用说,下面的页面内选定区域采集网址从哪到哪.这个需要你来查看你所填入的网站地址的源文件,html格式的源文件即可.然后找到比如
这种的信息前面的区段,当然不是可重复的,就是说,查找到,有,且只有一个.当然,找ID是个好办法.我找的是这个class.然后开始已经找到了,自然要找到结尾了.找到的结尾是
<!--[if !IE]>|xGv00|81ba22da037f5d84986d149c657613f2<![endif]-->这样的.在这个软件里面,很明显看出来这一堆乱码不一定是每次都一样的,就可以写成
<!--[if !IE]>(*)<![endif]-->这样的话,就忽视掉里面的内容,直接找到有这个<!--[if !IE]>开头<![endif]-->结尾的语句就好了.然后先测试一下,看看能不能找到采集页.
点击这个查看.如果出现
这个的话,就说明正确,进行下一步
在这里,
我随便用了个地址来做测试,下面点击一下测试按钮,查看得到的信息,然后我们来写规则
这个是我的里面的,你的肯定和我不一样,因为你没有做规则,好吧,我们一个一个来.先看标题
这里我相信你很容易就能找到,所以就直接说
双击进入修改,很明显看到了这个
这里我需要跟你再讲一次,这个开始字符串和结束字符串,很明显就是跟前面我们说的页面选择区域那个地方一样,是通过查看源码定位到的信息,这个表示的意思就是 在 <div id="ArticleTit">这里就是标题,我们取得的就是这里的东西做为标题</div> 当然获取中,这个div标记将被屏蔽掉.只取得里面的内容.
然后说采集内容,其实如果上面的你明白了的话,下面的东西就无所谓了,直接可以看第三 第四步了
内容的采集和采集标题一样,就是
同理,我们依然是找到了id为Articlecnt的div里面的内容,然后结束字符串我们用了另一个div的开始标记
当然,这个内容要做过滤,但是我希望看这个文章的人自己做,我只给你一个例子,希望你能自己做
这里是内容排除,也就是屏蔽掉一些我们不想要的东西,或者给替换掉.我做的是排除,排除掉
因为是做排除,所以很明显,我们还是要看源文件了.找到
里面的内容,发现就是我们要找的这个广告的内容,所以很明显,新建一个内容排除,输入<div id="Reading">(*)</div>然后保存就可以了.做到这里,可能你感觉没有什么效果啊,没关系,再点击一下测试按钮,看看是不是不一样了.
至于作者 出处 时间这三个选项你可以自定义.可以
这样看的直观一点,我相信如果你仔细看的话,早就发现了.
通过修改为自定义固定格式的数据,这样就可以了,也可以通过采集来获得,这个方法就不多叙述了.
做完了前两步,这是第三步了,你可以
通过这个方法来作为发布内容的途径
请先
然后添加,并且
找到对应的模块,当然你也可以新建.然后输入你的网址,勾选登录,然后启动微型浏览器登录即可.
这样,你就得到了跟我一样的情况
这样,就进行第四步了.
这一步的图片我从帮助文档里切出来,因为讲述起来不是那么方便...
剩下的就是开始,然后可以看到成功.
就不截图了,遗留点悬念,自己动手看效果吧.
注意这里是采集内容的修改
然后就可以直接开始采集并发布了,保存好任务后选中任务,点开始.记住了

直接上图片.第一步,新建任务,当然了,要先在站点--新建站点,这个我就不废话了,直接在新建的站点右键菜单弹出新建任务,新建,出图例所示的效果,简单介绍下功能,网站地址这个不用说,下面的页面内选定区域采集网址从哪到哪.这个需要你来查看你所填入的网站地址的源文件,html格式的源文件即可.然后找到比如

这种的信息前面的区段,当然不是可重复的,就是说,查找到,有,且只有一个.当然,找ID是个好办法.我找的是这个class.然后开始已经找到了,自然要找到结尾了.找到的结尾是
<!--[if !IE]>|xGv00|81ba22da037f5d84986d149c657613f2<![endif]-->这样的.在这个软件里面,很明显看出来这一堆乱码不一定是每次都一样的,就可以写成
<!--[if !IE]>(*)<![endif]-->这样的话,就忽视掉里面的内容,直接找到有这个<!--[if !IE]>开头<![endif]-->结尾的语句就好了.然后先测试一下,看看能不能找到采集页.
点击这个查看.如果出现
这个的话,就说明正确,进行下一步
在这里,
我随便用了个地址来做测试,下面点击一下测试按钮,查看得到的信息,然后我们来写规则

这个是我的里面的,你的肯定和我不一样,因为你没有做规则,好吧,我们一个一个来.先看标题
这里我相信你很容易就能找到,所以就直接说双击进入修改,很明显看到了这个

这里我需要跟你再讲一次,这个开始字符串和结束字符串,很明显就是跟前面我们说的页面选择区域那个地方一样,是通过查看源码定位到的信息,这个表示的意思就是 在 <div id="ArticleTit">这里就是标题,我们取得的就是这里的东西做为标题</div> 当然获取中,这个div标记将被屏蔽掉.只取得里面的内容.
然后说采集内容,其实如果上面的你明白了的话,下面的东西就无所谓了,直接可以看第三 第四步了
内容的采集和采集标题一样,就是

同理,我们依然是找到了id为Articlecnt的div里面的内容,然后结束字符串我们用了另一个div的开始标记
当然,这个内容要做过滤,但是我希望看这个文章的人自己做,我只给你一个例子,希望你能自己做

这里是内容排除,也就是屏蔽掉一些我们不想要的东西,或者给替换掉.我做的是排除,排除掉

因为是做排除,所以很明显,我们还是要看源文件了.找到
里面的内容,发现就是我们要找的这个广告的内容,所以很明显,新建一个内容排除,输入<div id="Reading">(*)</div>然后保存就可以了.做到这里,可能你感觉没有什么效果啊,没关系,再点击一下测试按钮,看看是不是不一样了.至于作者 出处 时间这三个选项你可以自定义.可以
这样看的直观一点,我相信如果你仔细看的话,早就发现了.通过修改为自定义固定格式的数据,这样就可以了,也可以通过采集来获得,这个方法就不多叙述了.
做完了前两步,这是第三步了,你可以
通过这个方法来作为发布内容的途径请先
然后添加,并且
找到对应的模块,当然你也可以新建.然后输入你的网址,勾选登录,然后启动微型浏览器登录即可.
这样,你就得到了跟我一样的情况
这样,就进行第四步了.这一步的图片我从帮助文档里切出来,因为讲述起来不是那么方便...

剩下的就是开始,然后可以看到成功.

就不截图了,遗留点悬念,自己动手看效果吧.
注意这里是采集内容的修改

然后就可以直接开始采集并发布了,保存好任务后选中任务,点开始.记住了