
Python 實現(xiàn)網(wǎng)站信息批量爬取培訓(xùn)
通過 Python 實現(xiàn)一個命令行參數(shù)控制的爬蟲程序,
可以批量爬取網(wǎng)站的 URLs、JS 文件及其中的端點、
子域名和 DNS 有關(guān)的數(shù)據(jù)信息等,
能夠匹配自定義正則表達(dá)式的字符串,
還支持將終結(jié)果導(dǎo)出為 JSON 格式或 CSV 格式。
1
課程介紹及項目結(jié)構(gòu)
1.項目代碼結(jié)構(gòu)解析
2.項目用法演示
2
命令行參數(shù)解析
1.命令行終端顯示顏色
2.使用argparse模塊實現(xiàn)命令行參數(shù)解析
3.通過tempfile模塊創(chuàng)建臨時文件
4.Python中的父子進程
3
請求并返回響應(yīng)體
1.處理用戶提供的URL
2.定義用戶代理
3.處理請求并返回響應(yīng)體
4.從響應(yīng)體中提取具體的信息
4
爬取及打印輸出
1.從robotstxt和sitemapxml文件中提取鏈接
2.處理URLs并使用線程池來執(zhí)行函數(shù)
3.爬取及打印輸出
5
插件及效果演示
1.插件之查找子域名
2.插件之dnsdumpster
3.插件之支持結(jié)果導(dǎo)出
4.組合插件
5.效果演示

請
登錄
后發(fā)表評論
新評論
全部
第1節(jié)
第2節(jié)
第3節(jié)
第4節(jié)
第5節(jié)
第6節(jié)
第7節(jié)
第8節(jié)
第9節(jié)
第10節(jié)
第11節(jié)
第12節(jié)
第13節(jié)
第14節(jié)
第15節(jié)
第16節(jié)
第17節(jié)
我的報告 / 所有報告