  
- UID
- 1
- 帖子
- 738
- 精华
- 28
- 积分
- 14189
- 金币
- 2385
- 威望
- 1647
- 贡献
- 1333
|
今天介绍一种从指定网页源文件中析取image标签的的编程技巧,即从网页源文件中,解析出所有的插图文件名(包括图片路径),也就是标签<img src=".../... /abc.jpg"> 中的文件名".../.../abc.jpg"(有的可能是gif格式)。编程环境:PHP+Apache for Win98。 ) G; Y: f- t5 q7 O H4 ~- u+ P7 y
7 x9 B3 A" K, { 首先, 用文本编辑器新建一个PHP类型的文件:abstractSRCfrompage.php3。为了方便讲解,我们打算是在浏览器表单域中输入需要析取image标签的网页的URL(或本机文档),提交后执行析取操作,所以在该文件中,我们要建立一个用于输入网址的表单,举例如下: & m0 B, n- @" W) j) p
% E* p0 C9 E" ^1 z3 }9 u- ^
' l) D5 j) ^( w& A8 c<form action=" abstractSRCfrompage.php3" method="post">$ j( M7 a% O5 Q
输入网址<input type=text name=filename><br>5 K7 d/ \) M# D/ U7 j5 L( k: A
<input type=submit name=submit value="提交">0 y, e2 G! [6 r* `) W
</form>
, ^3 q! L* s% X6 e+ f* w& ?/ W9 R' @+ F1 t5 Q* s
0 w; K( J& z! @" v. T4 T1 g 输入正确的网址,提交后表单信息被送到abstractSRCfrompage.php3页面,由于表单本身就在该页面,所以相当于被送到自身页面,下面我们需要编写析取处理的PHP代码,紧接着表单代码段后写入如下代码:
' m8 k* j$ s9 D' A; Q1 I0 I
, Q* _6 m& t1 Q+ X
+ d) p. ]) P$ i, ]3 d' L1 Q<?php
2 b9 b% \) \7 W( aif ($filename!=""){6 O4 f: L0 u# g/ \& z2 E
$fp = fopen($filename, "r"); file://若输入不为空,开启本地或者远程档案;3 C. }5 b1 B# x. M' ^
while ($buffer = fgets($fp, 1024)) {
8 D* O! c( f0 L( s. ~# v% n; s$source .=$buffer; }! t2 N& |7 A. G2 X) B, g
fclose($fp);$ x+ u9 ?0 w8 |3 D; H
file://查找$source中是否有<img ...src=".../...gif | jpg"> 这样的标记+ @/ e( j# m5 ^# K: s
if(eregi("(<img)+[^<>]+(src=")+[^*"<>|]+(.)+((gif)|(jpg))+(")",$source)) {- }+ C# P3 j U- _. U
echo "找到图片标签:)<br>";}3 A1 p# y& w3 a( u7 S
else{: Y1 b1 w8 p6 l" t4 H% w9 R
echo "未发现图片标签:(<br>";}
6 p/ y! g4 t/ W h) q8 v# v! {8 ?file://拆分,第一次用标签,<img ...src=拆分,得到了以图形文件名开头的数组,
q9 d+ F7 p. @$ a$splitres=split("((">)|())+(<img)+[^<>]+(src=")",$source);
9 `1 o8 ?* P' v' [% `! ]* cecho "找到: $imagenums-1个图片<br>分别为:<br>";
5 ?, j" `& q* S& [2 Dfor($i=1;$i<sizeof($splitres);$i++){' k& O S0 w+ u, v! F" H
file://二次拆分,用"拆分。因为文件名能含有",得到的拆分数组的第一个元素就是路径+文件名了;1 j7 K5 O' _. U4 Z, q
unset($imgname); // 再次使用前删除imgname变量;0 \1 p; R& T+ s
$imgname=spliti(""",$splitres[$i]);//将析取的图片信息依次赋给imgname变量2 P4 N8 u7 Z! {6 f7 I% V& q
echo "$i=>".$imgname[0]."<br>"; file://输出析取的图片信息6 s) P* P. r& |; @* E7 C7 L
}
: r4 ^3 c! m% y& d% B" c}$ l- {! `* ?: o8 I; _
?>
% k5 Z; h# L; ?/ e% G! t' T f
# v# l: h- l' S
& ]4 e3 F2 B& s& N 该段程序的设计思路是:PHP程式判断是否输入了档案名称(网址URL或本机档案名),若不为空则以只读方式打开该档案;接着使用函式fgets (fp,length)取得档案指标fp所指的行并传回该行内长度为length-1 的字串,上例中就是1024-1=1023;然后利用字串比对剖析函式ereg()查找$source中是否含有<img ...src=".../...gif | jpg"> 这样的标记(关于该函式在上篇中有详细的介绍);假如找到的话,则利用split()函式按一定的规则执行两次拆分,去掉标记中的<img…src=字符和"字符,结果得到数组 splitres,其中的每一个元素都是以图形路径+文件名开头的数组;用for循环在屏幕上输出每个数组的第一个元素值,即我们所需要的所有图形路径+ 文件名。- U a2 w) ^+ J% [ e7 F4 I4 C- y
; f# t: ^ V2 {$ y% N
其中函式sizeof($splitres)返回个数;在for循环中,依次将数组splitres的每个元素(也是数组)赋给数组变量imgname,并输出imgname的第一个元素值(为找到的一个图形路径+文件名),当执行下次循环时,删除变量imgname,达到重复使用的目的。大家可以仔细研究其中的奥妙。
! q! _* o. q8 C6 p3 q, r* r- n6 j* r3 L2 a: x! m$ g
好了,写好后,将abstractSRCfrompage.php3存到你的服务器指定目录下,启动Apache服务器,在浏览器中打开它,随便输入一个存在的网页名称或是远程URL,看看效果如何。
8 b5 h, Z# W7 A! p" d( t0 @ d9 W5 I/ f9 n& ]
如果有兴趣,你可以尝试析取HTML文档中的任意感兴趣的信息,如果稍加改装,做一个网站文本搜索引擎岂不更妙? |
|