博客网开始了采集国外新闻了,并且采集之后会自动翻译成中文,开启了定时采集
有一说一wordpress采集插件auto post pro真的很好用,功能特别全。
直接说采集规则设置了
文章来源是
https://abcnews.go.com/
颠倒文章排序无所谓,都可以
然后匹配需要采集内容页的网址,这里只有一个css选择器,银狐也是第一次用。
那么其实很简单,举个例子
<div class="ityinhu" id="fox1">
<a href="/1">文章一</a>
<a href="/2">文章二</a>
<a href="/3">文章三</a>
<a href="/4">文章四</a>
<a href="/5">文章五</a>
</div>
那么我想用css选择器提取里面的链接就是
.ityinhu a
或者
#fox1 a
银狐推荐使用id选择器,因为id选择器在一个页面里面是唯一的!
那么abcnews的代码列表是这样的:
文章网址选择就是
#trio-headline-view a
好了,那么我们再来看看文章内容和标题
直接上代码了:
标题我用的是css选择,通配符无法采集,银狐也不知道为什么
.Article__Headline h1
文章内容匹配规则是通配符:
起始代码:<section class="Article__Content story">
结束代码:</section>
总结
auto post pro真的很不错的一款插件,功能齐全,银狐用的是破解的,所以有bug也正常。不过还是够用的了!