标题:
Html源文件中image标签的析取
[打印本页]
作者:
admin
时间:
2008-1-19 23:31
标题:
Html源文件中image标签的析取
今天介绍一种从指定网页源文件中析取image标签的的编程技巧,即从网页源文件中,解析出所有的插图文件名(包括图片路径),也就是标签<img src=".../... /abc.jpg"> 中的文件名".../.../abc.jpg"(有的可能是gif格式)。编程环境:PHP+Apache for Win98。
& f6 H' _5 Y+ C* K
. {5 h8 [2 X# ?- U$ U0 ?4 B* A: i2 L
首先, 用文本编辑器新建一个PHP类型的文件:abstractSRCfrompage.php3。为了方便讲解,我们打算是在浏览器表单域中输入需要析取image标签的网页的URL(或本机文档),提交后执行析取操作,所以在该文件中,我们要建立一个用于输入网址的表单,举例如下:
$ [( M# a. b; N( a
6 p) s# F$ \! j4 d4 a% k1 M
! ?6 s" @# g; |5 ^. \
<form action=" abstractSRCfrompage.php3" method="post">
5 o: j! B$ C2 _
输入网址<input type=text name=filename><br>
& m$ j8 H( x- j4 P x" Q' W8 W
<input type=submit name=submit value="提交">
) B7 k( y' ^1 p
</form>
9 H7 W- _7 h$ L
" G. B. J$ \9 j# g1 N
, i+ H U% ], `8 R! u
输入正确的网址,提交后表单信息被送到abstractSRCfrompage.php3页面,由于表单本身就在该页面,所以相当于被送到自身页面,下面我们需要编写析取处理的PHP代码,紧接着表单代码段后写入如下代码:
* z" W% B# y! {9 P( P
7 {$ }7 }8 @: h5 [
; Y' a# w* E$ ^) X9 A* N0 I
<?php
9 X0 z# ]2 ]6 p
if ($filename!=""){
1 t9 U, @8 y- u
$fp = fopen($filename, "r"); file://若输入不为空,开启本地或者远程档案;
+ \3 r5 D" b7 D" p: }
while ($buffer = fgets($fp, 1024)) {
+ C9 o: m2 l2 r
$source .=$buffer; }
6 o, d( A L1 \% Z
fclose($fp);
- C# [( W: d1 y( [
file://查找$source中是否有<img ...src=".../...gif | jpg"> 这样的标记
/ d4 \6 h7 T) B( b( Q; [& J2 b6 Z
if(eregi("(<img)+[^<>]+(src=")+[^*"<>|]+(.)+((gif)|(jpg))+(")",$source)) {
$ d. J. U c) d$ Y
echo "找到图片标签:)<br>";}
4 L3 A& n. h7 v/ b) p/ a
else{
' `! Y$ s2 d% P4 K
echo "未发现图片标签:(<br>";}
n3 W' @5 Q; d, w
file://拆分,第一次用标签,<img ...src=拆分,得到了以图形文件名开头的数组,
1 A' ^2 l+ }: D1 m8 y+ x
$splitres=split("((">)|())+(<img)+[^<>]+(src=")",$source);
& T ~% x0 m: [* X$ w5 A/ s
echo "找到: $imagenums-1个图片<br>分别为:<br>";
6 v' ^3 m$ e1 H) t9 }
for($i=1;$i<sizeof($splitres);$i++){
5 P0 E. ]" @2 x0 g0 f! W6 F* }
file://二次拆分,用"拆分。因为文件名能含有",得到的拆分数组的第一个元素就是路径+文件名了;
+ m) [8 B& d# Y$ g, m" L$ y! H! C
unset($imgname); // 再次使用前删除imgname变量;
! O* F7 y* {* m/ [8 U U# p8 {
$imgname=spliti(""",$splitres[$i]);//将析取的图片信息依次赋给imgname变量
) V$ k, A3 F9 w
echo "$i=>".$imgname[0]."<br>"; file://输出析取的图片信息
% z# C* T* A( q7 z& F6 L
}
5 U( Q! }& q- J8 s- M3 d! A
}
8 v5 V9 X- D4 K0 Q' w! U
?>
7 k3 N. x. l( x" S! x) Z5 S2 R5 g( X
3 S) q3 W: V8 e& ~5 Q
5 ?# u7 @* L- h/ W3 ]* w
该段程序的设计思路是:PHP程式判断是否输入了档案名称(网址URL或本机档案名),若不为空则以只读方式打开该档案;接着使用函式fgets (fp,length)取得档案指标fp所指的行并传回该行内长度为length-1 的字串,上例中就是1024-1=1023;然后利用字串比对剖析函式ereg()查找$source中是否含有<img ...src=".../...gif | jpg"> 这样的标记(关于该函式在上篇中有详细的介绍);假如找到的话,则利用split()函式按一定的规则执行两次拆分,去掉标记中的<img…src=字符和"字符,结果得到数组 splitres,其中的每一个元素都是以图形路径+文件名开头的数组;用for循环在屏幕上输出每个数组的第一个元素值,即我们所需要的所有图形路径+ 文件名。
p% e6 b0 K% Z$ ]9 a( w
& N4 V# G/ S$ F* w. c
其中函式sizeof($splitres)返回个数;在for循环中,依次将数组splitres的每个元素(也是数组)赋给数组变量imgname,并输出imgname的第一个元素值(为找到的一个图形路径+文件名),当执行下次循环时,删除变量imgname,达到重复使用的目的。大家可以仔细研究其中的奥妙。
! ?- {# } J5 _( z
. ]5 K0 Z% e4 k! q( I
好了,写好后,将abstractSRCfrompage.php3存到你的服务器指定目录下,启动Apache服务器,在浏览器中打开它,随便输入一个存在的网页名称或是远程URL,看看效果如何。
! V1 R/ ?) x2 j
% A. X& v. {3 {$ n S9 G
如果有兴趣,你可以尝试析取HTML文档中的任意感兴趣的信息,如果稍加改装,做一个网站文本搜索引擎岂不更妙?
欢迎光临 捌玖网络工作室 (http://www.89w.org/)
Powered by Discuz! 7.2