在dedeCMS 3.1版本中,针对有分页的网页进行文字采集和过滤是一项复杂但非常必要的任务,本文将通过详细的图文教程,讲解如何设置分页文字采集的过滤规则,确保能够高效准确地抓取所需内容。
确定目标页面
我们需要明确两个目标地址:
1、http://www.tiansou.net/Html/Y_CYFWJ/R_Gzzjh/index.html
2、http://www.tiansou.com/text/class1/class1/200609/text_28623.html
这两个页面分别代表了有无分页的网页结构,通过比较它们可以更好地理解分页区域的代码特征。
分析页面结构
通过对两个页面的源代码进行分析,可以发现以下关键部分:
目标文字部分头部代码1:
<div align="center"><img src="/upload/200743213057697.gif" onload="if(this.width>'700')this.width='700';" border=0>
目标文字部分头部代码2:
<div align="center"><img src="/upload/200743213057679.gif" onload="if(this.width>'700')this.width='700';" border=0>
目标文尾及分页区域代码1:
<div align="center"><img src="/upload/200743213057312.gif" onload="if(this.width>'700')this.width='700';" border=0>
目标文尾及分页区域代码2:
<div align="center"><img src="/upload/200743213057807.gif" onload="if(this.width>'700')this.width='700';" border=0>
确定过滤规则
根据上述分析结果,我们可以确定如下过滤规则:
分页区域取样(匹配):
{dede:item name='论坛范例_工作归纳_成功(改)' imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'} {/dede:item}
采集列表获取规则:
{dede:list source='var' sourcetype='archives' varstart='' varend=''} {dede:url value='http://www.xiaocao.com/text/class1/class1/200609/text_28623.html'}{/dede:url} {dede:need}{/dede:need} {dede:cannot}{/dede:cannot} {dede:linkarea}[var:区域]{/dede:linkarea} {/dede:list}
获取规则:
{dede:art} {dede:sppage sptype='full'}<p align='center'><b><font color='red'>[1]</font>[var:分页区域]</b>{/dede:sppage} {dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题' isunit='' isdown=''} {dede:match}<title>[var:内容]</title>{/dede:match} {dede:function}{/dede:function} {dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别' isunit='' isdown=''} {dede:match}{/dede:match} {dede:function}@me = time();{/dede:function} {/dede:note} {dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者' isunit='' isdown=''} {dede:match}{/dede:match} {dede:function}{/dede:function} {/dede:note} {dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图' isunit='' isdown=''} {dede:match}{/dede:match} {dede:function}@me = @litpic;{/dede:function} {/dede:note} {dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间' isunit='' isdown=''} {dede:match}{/dede:match} {dede:function}if(@me!="") @me = GetMkTime(@me); else @me = time();{/dede:function} {/dede:note} {dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间' isunit='' isdown=''} {dede:match}{/dede:match} {dede:function}@me = time();{/dede:function} {/dede:note} {dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容' isunit='1' isdown=''} {dede:match}<script language="JavaScript" type="text/javascript" src="/AD/artcontent.js"></script>[var:内容]<table width="100%" border="0" cellspacing="0" cellpadding="0">{/dede:match} {dede:trim}<p align='center'><b>(.*)</b></p>{/dede:trim} {dede:function}{/dede:function} {/dede:note}
过滤规则 | 说明 |
{dede:item} | 用于定义采集项的基本属性 |
{dede:list} | 定义采集列表的源和类型 |
{dede:url} | 指定采集的URL地址 |
{dede:need} | 需要采集的内容 |
{dede:cannot} | 不能采集的内容 |
{dede:linkarea} | 链接区域的定义 |
{dede:sppage} | 分页处理 |
{dede:note} | 注释字段 |
{dede:match} | 匹配模式 |
{dede:function} | 自定义函数 |
{dede:trim} | 去除多余字符 |
相关FAQs
1、问:为什么需要分页文字采集过滤规则?
答:分页文字采集过滤规则可以帮助我们更精确地从多个分页中提取所需内容,避免冗余数据的干扰,提升数据采集的效率和准确性。
2、问:如何判断一个页面是否有分页?
答:通常可以通过查看页面源代码中的分页标记或者翻页按钮来判断一个页面是否有分页,如果页面底部有明显的“下一页”或“上一页”按钮,通常表示该页面有分页功能。
3、问:如何处理不同页面结构的分页?
答:对于不同的页面结构,可以通过调整过滤规则中的匹配模式和采集项来适应,通过修改<dede:match>
标签中的内容,使其能够正确匹配目标页面的结构。
4、问:如何测试过滤规则的有效性?
答:可以在本地环境中部署一个测试网站,应用所设置的过滤规则,然后观察采集结果是否符合预期,如果结果不理想,可以进一步调整过滤规则。
通过以上步骤,您可以有效地设置dede3.1的分页文字采集过滤规则,确保数据采集的准确性和完整性,希望这篇图文教程能为您的数据采集工作提供帮助。
Dede3.1分页文字采集过滤规则详解及图文教程
DedeCMS(织梦内容管理系统)是一款功能强大的网站内容管理系统,其分页功能在处理大量内容时尤为有用,在使用分页功能采集文字时,过滤规则起到了至关重要的作用,本文将详细解析Dede3.1版本的分页文字采集过滤规则,并提供图文教程,帮助您更好地理解和使用。
分页文字采集过滤规则详解
1.1 基本概念
分页文字采集过滤规则是指在采集分页内容时,对采集到的文本进行的一系列处理,包括去除无关信息、保留关键内容等。
1.2 过滤规则类型
Dede3.1提供了多种过滤规则,以下是一些常见的类型:
去除HTML标签:去除采集内容中的HTML标签,保留纯文本。
去除特殊字符:去除采集内容中的特殊字符,如换行符、制表符等。
保留指定标签:仅保留采集内容中的指定HTML标签。
去除空行和空格:去除采集内容中的空行和多余空格。
1.3 设置过滤规则
在Dede3.1中,您可以通过以下步骤设置过滤规则:
1、登录DedeCMS后台。
2、进入“内容管理”模块。
3、选择“采集管理”。
4、在“采集规则”中,找到“分页文字采集规则”设置项。
图文教程
步骤1:登录后台
您需要登录到DedeCMS的后台管理界面。
步骤2:进入采集管理
在后台,找到“内容管理”模块,并点击进入“采集管理”。
步骤3:设置分页文字采集规则
在“采集规则”中,找到“分页文字采集规则”设置项,点击进入。
步骤4:配置过滤规则
您可以配置各种过滤规则,如去除HTML标签、去除特殊字符等。
步骤5:保存并应用
配置完成后,点击“保存并应用”按钮,您的分页文字采集规则即生效。
通过以上步骤,您已经了解了Dede3.1分页文字采集过滤规则的设置方法,合理配置过滤规则可以帮助您更高效地采集和处理分页内容,提升网站内容的质量和用户体验。
最新评论
本站CDN与莫名CDN同款、亚太CDN、速度还不错,值得推荐。
感谢推荐我们公司产品、有什么活动会第一时间公布!
我在用这类站群服务器、还可以. 用很多年了。