云主机测评网云主机测评网云主机测评网

云主机测评网
www.yunzhuji.net

如何编写DEDECMS采集的过滤规则?

DEDECMS采集教程:过滤规则的编写涉及设置关键词、排除条件和正则表达式,确保精准抓取目标内容。

DEDECMS采集教程:过滤规则的编写

中空格

在采集文章时,经常会遇到标题中含有空格的情况,这些空格在采集回来后可能会对后续处理造成不便,需要在过滤处添加正则表达式来过滤掉标题中的空格,具体实现方法如下:

{dede:trim} {/dede:trim}

过滤来源作者中的链接

有时在采集文章时,来源或作者字段中会包含链接,如果不进行过滤,直接采集这些内容可能会导致采集失败或者采集到的内容不完整,需要使用正则表达式过滤掉这些链接:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

过滤文章内容中的链接及其他广告代码

在采集文章内容时,经常会包含一些链接、广告代码等不需要的内容,可以使用以下正则表达式来过滤掉这些内容:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

过滤特定广告代码(如GG广告)

对于一些特定的广告代码,例如Google的广告代码,可以使用专门的正则表达式进行过滤:

{dede:trim}<script([^>]*)>(.*)</script>{/dede:trim}

表格:常用过滤规则汇总

过滤类型 正则表达式
标题中空格 {dede:trim} {/dede:trim}
来源作者中的链接 {dede:trim}]*)>([^<]*){/dede:trim}
文章内容中的链接及其他广告 {dede:trim}]*)>([^<]*){/dede:trim}
特定广告代码(如GG广告) {dede:trim}]*)>(.*){/dede:trim}
去除所有HTML标签 {dede:trim}]*>{/dede:trim}
去除样式和脚本标签 {dede:trim}]*)>(.*)

{/dede:trim}

,{dede:trim}]*)>(.*){/dede:trim}

相关问答FAQs

Q1: 如何过滤掉文章中的所有超链接?

A1: 要过滤掉文章中的所有超链接,可以使用以下正则表达式:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

Q2: 如果我只想保留链接中的文字部分,应该如何修改过滤规则?

A2: 如果你只想保留链接中的文字部分,可以采用以下正则表达式:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
序号 参数名称 说明 示例
1 类型 选择采集内容的类型,如文章、图片、视频等。 文章
2 来源 设置采集内容的来源,可以是网站地址、关键词或分类。 http://www.example.com
3 标题规则 使用正则表达式或关键词过滤标题。 ^[u4e00u9fa5]{2,10}$为210个汉字)
4 支持的关键字 title,h1,h2,h3,h4,h5,h6
5 内容规则 使用正则表达式或关键词过滤内容。 [u4e00u9fa5]{100,}至少100个汉字)
6 支持的关键字 content,article,text
7 链接规则 使用正则表达式或关键词过滤链接。 http(s)?://.*?.example.com/.(链接包含example.com)
8 支持的关键字 href,url
9 图片规则 使用正则表达式或关键词过滤图片。 src=".*?.jpg"(图片后缀为.jpg)
10 支持的关键字 img,src
11 时间规则 使用正则表达式或关键词过滤时间。 d{4}d{2}d{2}(时间格式为年月日)
12 支持的关键字 date,time
13 分类规则 使用正则表达式或关键词过滤分类。 分类1 分类2 分类3(包含分类1、分类2或分类3)
14 支持的关键字 category,class
15 标签规则 使用正则表达式或关键词过滤标签。 标签1,标签2,标签3(包含标签1、标签2或标签3)
16 支持的关键字 tag,label
17 作者规则 使用正则表达式或关键词过滤作者。 作者1 作者2 作者3(包含作者1、作者2或作者3)
18 支持的关键字 author
打赏
版权声明:主机测评不销售、不代购、不提供任何支持,仅分享信息/测评(有时效性),自行辨别,请遵纪守法文明上网。
文章名称:《如何编写DEDECMS采集的过滤规则?》
文章链接:https://www.yunzhuji.net/yunfuwuqi/252039.html

评论

  • 验证码