使用最新版本的火车头采集地名,行政区划,行政区划,各省份
采集的是博雅地名网,看了一下这个网站地区真的很全,而且很详尽了。
因为我是采集到本地而且只要保存到txt里面去,所以不需要使用付费版的火车头。直接从官网下载了一个火车头
下面银狐直接提供9.0版本的火车头下载地址:
每个版本的火车头采集的任务规则有点不同,所以和火车头版本号还有关系,目前最新的版本是v9.0
蓝奏云:https://ityh.lanzoui.com/ijw4Gn4bhhc
百度网盘:https://pan.baidu.com/s/1mjqgmPySi3lErpR9w_kmFA提取码: qara
安装之后打开,开始写规则,文末最后附上了采集规则下载di
先写一下起始网址,是http://www.tcmap.com.cn/
我们看一下要采集的网站,很详细,有北京到台湾的地区名字,那么我们就采集这些里面的区,如东城区、西城区、朝阳区这种。
那么很简单,我们在火车头里面添加列表页规则,然后开始设置获取的区域,我们要将这一段区域里面的字采集出来
我们右键看一下该网页的源代码,直接选择这一部分的区域里面的内容
<div class=ht><B><a href="/beijing/">北京地名</a></b>
<td width="336" valign="top" bgcolor="#eeeeee" style="border-left:#cccccc 1px solid;" >
第一行是开始,第二行是结束,下一步是继续精确我们要获取的内容,我们选择内容采集规则
然后继续观察他的代码,可以发现每一个地名都是由这个代码组成
<div id=list110><a href="(*)">地名</a></div>
比如东城区代码:
<div id=list110><a href="/beijing/dongchengqu.html">东城区</a></div>
那么很简单了,这个代码的开始是
<div id=list110><a href="(*)">
结尾:
</a></div>
像我上图这样填写进去,前后截取,循环匹配,注意了!这个循环匹配一定要选择,否则你只能采集到一个词
我们测试一下,看看能不能采集到数据
OK,采集到了。下一步我们就要发布数据,银狐选择是将这些数据都保存在本地的一个txt里面
内容发布规则如下图设置就可以了,当然按你自己喜欢的文件格式来就好
一个简单的采集规则就写完了
采集规则下载地址
百度网盘:https://pan.baidu.com/s/1E9p4KrAd6NXNWtn2R6tNPA 提取码: 2qix
蓝奏云:https://ityh.lanzoui.com/i6yUJn4c5ba
文件里面不止有采集规则,还有采集到的数据和一个地区的所有学校名字