MediaCrawler는 NanmiCoder가 개발 및 유지 관리하는 강력한 다중 플랫폼 자가 미디어 크롤러 도구입니다. 이 프로젝트는 Playwright 기술을 기반으로 하며, 콘텐츠, 댓글 등 데이터를 포함하여 여러 주요 소셜 미디어 플랫폼의 공개 정보를 수집할 수 있습니다.
프로젝트는 Playwright를 사용하여 로그인 성공 후의 컨텍스트 브라우저 환경을 유지하고, JavaScript 표현식을 실행하여 일부 암호화된 매개변수를 획득합니다. 이 방식은 핵심 암호화 JS 코드를 재현하는 복잡한 작업을 피하고, 역공학의 난이도를 크게 낮춥니다.
프로젝트는 uv
를 추가하여 프로젝트 의존성을 관리합니다. uv를 사용하여 기존의 pip를 대체하여 의존성을 설치하는 것이 더 편리하고 빠릅니다.
# 프로젝트 루트 디렉토리로 이동
cd MediaCrawler
# 가상 환경 생성
python -m venv venv
# 가상 환경 활성화
# macOS & Linux
source venv/bin/activate
# Windows
venv\Scripts\activate
# 의존성 설치
pip install -r requirements.txt
# playwright 브라우저 설치
playwright install
# 데이터베이스 초기화 실행 (최초 실행 시에만)
python db.py
# 키워드 검색 크롤링
python main.py --platform xhs --lt qrcode --type search
# 지정된 게시물 ID 크롤링
python main.py --platform xhs --lt qrcode --type detail
# 도움말 정보 보기
python main.py --help
config/base_config.py
에서 ENABLE_GET_COMMENTS
변수를 수정하십시오.config/base_config.py
에서 확인할 수 있으며, 모두 한국어 주석으로 설명되어 있습니다.data/
디렉토리 아래의 CSV 형식 파일로 저장data/
디렉토리 아래의 JSON 형식 파일로 저장프로젝트는 또한 MediaCrawlerPro 버전을 제공하며, 오픈 소스 버전에 비해 다음과 같은 장점이 있습니다.
MediaCrawler는 단순한 크롤러 도구일 뿐만 아니라 훌륭한 학습 프로젝트입니다.