DEDECMS采集教程:过滤规则的编写
中空格
在采集文章时,经常会遇到标题中含有空格的情况,这些空格在采集回来后可能会对后续处理造成不便,需要在过滤处添加正则表达式来过滤掉标题中的空格,具体实现方法如下:
{dede:trim} {/dede:trim}
过滤来源作者中的链接
有时在采集文章时,来源或作者字段中会包含链接,如果不进行过滤,直接采集这些内容可能会导致采集失败或者采集到的内容不完整,需要使用正则表达式过滤掉这些链接:
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
过滤文章内容中的链接及其他广告代码
在采集文章内容时,经常会包含一些链接、广告代码等不需要的内容,可以使用以下正则表达式来过滤掉这些内容:
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
过滤特定广告代码(如GG广告)
对于一些特定的广告代码,例如Google的广告代码,可以使用专门的正则表达式进行过滤:
{dede:trim}<script([^>]*)>(.*)</script>{/dede:trim}
表格:常用过滤规则汇总
过滤类型 | 正则表达式 |
标题中空格 | {dede:trim} {/dede:trim} |
来源作者中的链接 | {dede:trim}]*)>([^<]*){/dede:trim} |
文章内容中的链接及其他广告 | {dede:trim}]*)>([^<]*){/dede:trim} |
特定广告代码(如GG广告) | {dede:trim}]*)>(.*){/dede:trim} |
去除所有HTML标签 | {dede:trim}]*>{/dede:trim} |
去除样式和脚本标签 | {dede:trim}]*)>(.*)
,{dede:trim}]*)>(.*){/dede:trim} |
相关问答FAQs
Q1: 如何过滤掉文章中的所有超链接?
A1: 要过滤掉文章中的所有超链接,可以使用以下正则表达式:
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
Q2: 如果我只想保留链接中的文字部分,应该如何修改过滤规则?
A2: 如果你只想保留链接中的文字部分,可以采用以下正则表达式:
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
序号 | 参数名称 | 说明 | 示例 | ||
1 | 类型 | 选择采集内容的类型,如文章、图片、视频等。 | 文章 | ||
2 | 来源 | 设置采集内容的来源,可以是网站地址、关键词或分类。 | http://www.example.com | ||
3 | 标题规则 | 使用正则表达式或关键词过滤标题。 | ^[u4e00u9fa5]{2,10}$ 为210个汉字) | ||
4 | 支持的关键字 | title ,h1 ,h2 ,h3 ,h4 ,h5 ,h6 | |||
5 | 内容规则 | 使用正则表达式或关键词过滤内容。 | [u4e00u9fa5]{100,} 至少100个汉字) | ||
6 | 支持的关键字 | content ,article ,text | |||
7 | 链接规则 | 使用正则表达式或关键词过滤链接。 | http(s)?://.*?.example.com/. (链接包含example.com) | ||
8 | 支持的关键字 | href ,url | |||
9 | 图片规则 | 使用正则表达式或关键词过滤图片。 | src=".*?.jpg" (图片后缀为.jpg) | ||
10 | 支持的关键字 | img ,src | |||
11 | 时间规则 | 使用正则表达式或关键词过滤时间。 | d{4}d{2}d{2} (时间格式为年月日) | ||
12 | 支持的关键字 | date ,time | |||
13 | 分类规则 | 使用正则表达式或关键词过滤分类。 | 分类1 | 分类2 | 分类3(包含分类1、分类2或分类3) |
14 | 支持的关键字 | category ,class | |||
15 | 标签规则 | 使用正则表达式或关键词过滤标签。 | 标签1,标签2,标签3 (包含标签1、标签2或标签3) | ||
16 | 支持的关键字 | tag ,label | |||
17 | 作者规则 | 使用正则表达式或关键词过滤作者。 | 作者1 | 作者2 | 作者3(包含作者1、作者2或作者3) |
18 | 支持的关键字 | author |
最新评论
本站CDN与莫名CDN同款、亚太CDN、速度还不错,值得推荐。
感谢推荐我们公司产品、有什么活动会第一时间公布!
我在用这类站群服务器、还可以. 用很多年了。