標籤

4GL (1) 人才發展 (10) 人物 (3) 太陽能 (4) 心理 (3) 心靈 (10) 文學 (31) 生活常識 (14) 光學 (1) 名句 (10) 即時通訊軟體 (2) 奇狐 (2) 爬蟲 (1) 音樂 (2) 產業 (5) 郭語錄 (3) 無聊 (3) 統計 (4) 新聞 (1) 經濟學 (1) 經營管理 (42) 解析度 (1) 遊戲 (5) 電學 (1) 網管 (10) 廣告 (1) 數學 (1) 機率 (1) 雜趣 (1) 證券 (4) 證券期貨 (1) ABAP (15) AD (1) agentflow (4) AJAX (1) Android (1) AnyChart (1) Apache (14) BASIS (4) BDL (1) C# (1) Church (1) CIE (1) CO (38) Converter (1) cron (1) CSS (23) DMS (1) DVD (1) Eclipse (1) English (1) excel (5) Exchange (4) Failover (1) Fedora (1) FI (57) File Transfer (1) Firefox (3) FM (2) fourjs (1) Genero (1) gladiatus (1) google (1) Google Maps API (2) grep (1) Grub (1) HR (2) html (23) HTS (8) IE (1) IE 8 (1) IIS (1) IMAP (3) Internet Explorer (1) java (4) JavaScript (22) jQuery (6) JSON (1) K3b (1) ldd (1) LED (3) Linux (117) Linux Mint (4) Load Balance (1) Microsoft (2) MIS (2) MM (51) MSSQL (1) MySQL (27) Network (1) NFS (1) Office (1) OpenSSL (1) Oracle (126) Outlook (3) PDF (6) Perl (60) PHP (33) PL/SQL (1) PL/SQL Developer (1) PM (3) Postfix (2) postfwd (1) PostgreSQL (1) PP (50) python (5) QM (1) Red Hat (4) Reporting Service (28) ruby (11) SAP (234) scp (1) SD (16) sed (1) Selenium (3) Selenium-WebDriver (5) shell (5) SQL (4) SQL server (8) sqlplus (1) SQuirreL SQL Client (1) SSH (2) SWOT (3) Symantec (2) T-SQL (7) Tera Term (2) tip (1) tiptop (24) Tomcat (6) Trouble Shooting (1) Tuning (5) Ubuntu (37) ufw (1) utf-8 (1) VIM (11) Virtual Machine (2) VirtualBox (1) vnc (3) Web Service (2) wget (1) Windows (19) Windows (1) WM (6) Xvfb (2) youtube (1) yum (2)

2012年2月24日 星期五

使用perl分析html文件(1)

http://biancheng.dnbcw.info/perl/240397.html

文章的背景是,作者在教授网页编辑的课程,他会给学生做一些使用nvu做网页作业,每个作业中有些特定的要求,作者苦于给学生的作业评分和做注释,所以就想到使用perl程序对学生的作品进行分析。
perl正则表达式在文本处理方面的能力已经非常卓越,并且还有分解网页的专用模组HTML::TreeBuilder。它提供了一个html的分解器,这个分解器可以从一个网页构建出一个元素的树形结构。并且,从一个网页中建立一棵树和构建它的内容是非常容易的:

#新建一棵树

$tree = HTML::TreeBuilder->new;
#由一个网页文件构建树的内容

$tree->parse_file($file_name);
#当然也可以由一个变量的内容中分解出树的内容

$tree->parse($value);



树的节点是一个HTML::Element对象。这有很多方法可以存取和操作树中的这些节点。当你使用完成了这棵树的时候,可以使用下面的方法销毁它并且释放它占用的内存:

$tree->delete;

在HTML::TreeBuilder建立的树形结构中,一个模组HTML::Element代表一个html元素。它有大量的方法存取和操作这些元素和搜寻树中的子孙节点和祖先节点。例如:方法find()使用一个或更多的标签名作为参数来寻找所有的下行的相关节点:

@elements = $element->find('a', 'img');

上 面这条语句将把所有$element节点以下的<a>节点和<img>节点存储在@elements数组里。方法 look_down()是比find()更强大的搜索方法。它以三种类型的方法来查找下行节点:1,严格指定标签的名称或属性值。2,使用正则表达式匹配。3,通过一个返回真的子函数来确定想要的节点。下面是一些例子:

@anchors = $element->look_down('_tag' => 'a');

找到所有的$element下的<a>节点,并存储到@anchors数组中。

@colors = $element->look_down('style' => qr/color/);

找到所有的$element下的含有style属性并且该属性包括color的节点,并存储到@anchors数组中。

@largeimages = $element->look_down(
    sub {
         $_[0]->tag() eq 'img' and
        ($_[0]->attr('width') > 100 or
         $_[0]->attr('height') > 100)
    }
);



找 到所有的$element下的<img>节点并且节点中的width和height属性必须大于100像素,并存储到 @largeimages数组中。注意:这样的语句在检测到没有width和height属性的<img>节点时会产生一个警告信息。

我们还可以混用三种方法,例如:

@largeimages = $element->look_down(
    '_tag' => 'img',
    'width' => qr//,
    'height' => qr//,
    sub { $_[0]->attr('width') > 100 or
          $_[0]->attr('height') > 100 }
);


这样就可以过滤那些没有width和height属性的<img>节点了,'width' => qr// 和 'height' => qr// 保证只有还有这两个属性的节点才被搜索到。

look_up()方法和look_down()方法一样,只不过它搜索$element节点的祖先节点(上行查找)。

沒有留言:

張貼留言