標籤

4GL (1) 人才發展 (10) 人物 (3) 太陽能 (4) 心理 (3) 心靈 (10) 文學 (31) 生活常識 (14) 光學 (1) 名句 (10) 即時通訊軟體 (2) 奇狐 (2) 音樂 (2) 產業 (5) 郭語錄 (3) 無聊 (3) 統計 (4) 新聞 (1) 經濟學 (1) 經營管理 (42) 解析度 (1) 遊戲 (5) 電學 (1) 網管 (10) 廣告 (1) 數學 (1) 機率 (1) 雜趣 (1) 證券 (4) 證券期貨 (1) ABAP (15) AD (1) agentflow (4) AJAX (1) Android (1) AnyChart (1) Apache (14) BASIS (4) BDL (1) C# (1) Church (1) CIE (1) CO (38) Converter (1) cron (1) CSS (23) DMS (1) DVD (1) Eclipse (1) English (1) excel (5) Exchange (4) Failover (1) FI (57) File Transfer (1) Firefox (2) FM (2) fourjs (1) gladiatus (1) google (1) Google Maps API (2) grep (1) Grub (1) HR (2) html (23) HTS (8) IE (1) IE 8 (1) IIS (1) IMAP (3) Internet Explorer (1) java (3) JavaScript (22) jQuery (6) JSON (1) K3b (1) LED (3) Linux (112) Linux Mint (4) Load Balance (1) Microsoft (2) MIS (2) MM (51) MSSQL (1) MySQL (27) Network (1) NFS (1) Office (1) Oracle (125) Outlook (3) PDF (6) Perl (59) PHP (33) PL/SQL (1) PL/SQL Developer (1) PM (3) Postfix (2) postfwd (1) PostgreSQL (1) PP (50) python (1) QM (1) Red Hat (4) Reporting Service (28) ruby (11) SAP (234) scp (1) SD (16) sed (1) Selenium-WebDriver (5) shell (5) SQL (4) SQL server (8) SQuirreL SQL Client (1) SSH (2) SWOT (3) Symantec (2) T-SQL (7) Tera Term (2) tip (1) tiptop (22) Tomcat (6) Trouble Shooting (1) Tuning (5) Ubuntu (33) ufw (1) utf-8 (1) VIM (11) Virtual Machine (2) vnc (3) Web Service (2) wget (1) Windows (19) Windows (1) WM (6) youtube (1) yum (2)

2011年9月25日 星期日

linux wget 抓取 网站网页

http://www.justwinit.cn/post/4593/

wget 是一个命令行的下载文件工具,它支持HTTP,HTTPS和FTP协议,可以使用HTTP代理。Linux用户经常需要使用它。下此介绍几个wget使用的技巧。
wget技巧大全:
1>下载 http://www.linux.com 网站上 packs 目录中的所有文件
$ wget -r -np -nd http://www.linux.com/packs/
-np 的作用是不遍历父目录
-nd 表示不在本机重新创建目录结构。

2>下载整个http或者ftp站点
$ wget -r -x http://www.linux.com
-x 的作用强制建立服务器上一模一样的目录
这个命令会按照递归的下载服务器上所有的目录和文件,就是下载整个网站。在下载的时候,被下载网站指向的所有地址都会被下载,如果这个网站引用了其他网站,被引用的网站也会被下载下来!!!
注意: 可以用-l number参数来指定下载的层次。例如只下载两层,那么使用-l 2。
如: wget -r -x -l 2 http://www.linux.com

3>wget选择性的只下载某类文件
$ wget -r -np -nd –accept=iso http://www.linux.com/i386/
–accept=iso 选项,这指示wget仅下载 i386 目录中所有扩展名为 iso 的文件。你也可以指定多个扩展名,只需用逗号分隔即可。

4>批量下载
wget -i downloads.txt
如果有多个文件需要下载,那么把所有需要下载文件的地址放到downloads.txt中(每个文件的URL写一行),然后 wget 就会自动为你下载所有文件了。

5>断点续传
$ wget -c -t 100 -T 120 http://www.linux.com/big-file.iso
当文件特别大或者网络特别慢的时候,往往一个文件还没有下载完,连接就已经被切断,此时就需要断点续传。wget的断点续传是自动的。
-c 选项的作用为断点续传。
-t 参数表示重试次数(例如需要重试100次,那么就写-t 100,如果设成-t 0,那么表示无穷次重试,直到连接成功。)
-T 参数表示超时等待时间,例如-T 120,表示等待120秒连接不上就算超时。

6>镜像一个网站
$ wget -m -k (-H) http://www.linux.com/
如果网站中的图像是放在另外的站点,那么可以使用 -H 选项。

沒有留言:

張貼留言