如果你部署了 FreshRSS 的话,或许可以试试 XPath 抓取。或者有一些网站也提供了 XPath 爬取后生成 RSS 的服务。不过如果是动态网页的话就没辙,像第一个政策文件库我就没弄成。
使用 Xpath 进行网页抓取( FreshRSS ):
https://k1r.in/posts/freshrss-xpath-web-scraping/下面区县动态为例:
```
源地址:
https://www.cq.gov.cn/ywdt/zwhd/qxdt/订阅源类型:HTML + XPath
XPath 定位:/html/body/div[3]/div[2]/div[2]/div[2]/ul/li
文章标题:./a/text()
文章内容:./a/text() # 这里用标题代替内容,后面通过“原文的 CSS 选择器”来获取原文。
文章链接:./a/@href
文章缩略图:空
文章作者:重庆市人民政府
文章日期:./span/text()
日期/时间格式:Y-m-d
保存后再次进入订阅设置 - 高级 - 原文的 CSS 选择器:body > div.common-main > div.cwx-main
保存后再次进入订阅设置 - 维护 - 重载文章
```
成果如下:
