MediaCrawler 是一個功能強大的多平台自媒體爬蟲工具,由 NanmiCoder 開發維護。該項目基於 Playwright 技術,能夠抓取多個主流社交媒體平台的公開信息,包括內容、評論等數據。
項目採用 Playwright 搭橋的方式,保留登錄成功後的上下文瀏覽器環境,通過執行 JavaScript 表達式獲取一些加密參數。這種方式免去了復現核心加密 JS 代碼的複雜工作,大大降低了逆向工程的難度。
項目新增了 uv
來管理項目依賴,可以使用 uv 來替代傳統的 pip 進行依賴安裝,更加方便快捷。
# 進入項目根目錄
cd MediaCrawler
# 創建虛擬環境
python -m venv venv
# 激活虛擬環境
# macOS & Linux
source venv/bin/activate
# Windows
venv\Scripts\activate
# 安裝依賴
pip install -r requirements.txt
# 安裝playwright瀏覽器
playwright install
# 執行數據庫初始化(僅首次執行)
python db.py
# 關鍵詞搜索爬取
python main.py --platform xhs --lt qrcode --type search
# 指定帖子ID爬取
python main.py --platform xhs --lt qrcode --type detail
# 查看幫助信息
python main.py --help
config/base_config.py
中修改 ENABLE_GET_COMMENTS
變量config/base_config.py
中查看,均有中文註釋說明data/
目錄下的CSV格式文件data/
目錄下的JSON格式文件項目還提供了 MediaCrawlerPro 版本,相較於開源版本具有以下優勢:
MediaCrawler 不僅僅是一個爬蟲工具,更是一個優秀的學習項目: