ConardLi/easy-datasetPlease refer to the latest official releases for information GitHub Homepage
대규모 언어 모델 미세 조정 데이터 세트 생성을 위해 설계된 강력한 도구로, 지능형 문서 처리, 문제 생성 및 다양한 형식으로 내보내기를 지원합니다.
NOASSERTIONJavaScript 9.1kConardLieasy-dataset Last Updated: 2025-07-02
Easy Dataset - 대규모 언어 모델 미세 조정 데이터 세트 생성 도구
프로젝트 개요
Easy Dataset은 대규모 언어 모델(LLM) 미세 조정 데이터 세트 생성을 위해 특별히 설계된 전문 도구입니다. 직관적인 인터페이스를 제공하여 특정 분야의 파일을 업로드하고, 콘텐츠를 스마트하게 분할하고, 질문을 생성하고, 고품질의 훈련 데이터를 생성하여 모델 미세 조정 과정을 쉽고 효율적으로 만듭니다.
Easy Dataset을 통해 사용자의 전문 지식을 구조화된 데이터 세트로 변환하고, 모든 OpenAI 형식의 LLM API와 호환되도록 하여 미세 조정 과정을 더욱 편리하고 효율적으로 만들 수 있습니다.
핵심 기능
🧠 스마트 문서 처리
- Markdown 파일 업로드 및 의미 있는 조각으로 자동 분할 지원
- 문서 구조 및 콘텐츠 계층을 스마트하게 식별
❓ 스마트 질문 생성
- 각 텍스트 조각에서 관련 질문 자동 추출
- 일괄 질문 생성 지원으로 처리 효율성 향상
💬 답변 생성
- LLM API를 사용하여 각 질문에 대한 포괄적인 답변 생성
- 사용자 정의 시스템 프롬프트 단어를 사용하여 모델 응답 지침
✏️ 유연한 편집
- 처리 과정의 모든 단계에서 질문, 답변 및 데이터 세트 편집 가능
- 직관적인 사용자 인터페이스를 통한 콘텐츠 관리 제공
📤 다양한 형식으로 내보내기
- 다양한 데이터 세트 형식(Alpaca, ShareGPT) 지원
- 다양한 파일 형식(JSON, JSONL) 지원
🔧 광범위한 모델 지원
- 모든 OpenAI 형식의 LLM API와 호환
- Ollama 로컬 모델 배포 지원
👥 사용자 친화적인 인터페이스
- 기술 및 비기술 사용자를 위해 설계된 직관적인 UI
- 완전한 한국어 및 영어 국제화 지원
기술 아키텍처
기술 스택
- 프런트엔드 프레임워크: Next.js 14.1.0
- UI 라이브러리: React 18.2.0
- 컴포넌트 라이브러리: Material UI 5.15.7
- 데이터베이스: 로컬 파일 데이터베이스
- 라이선스: Apache License 2.0
프로젝트 구조
easy-dataset/
├── app/ # Next.js 애플리케이션 디렉토리
│ ├── api/ # API 라우트
│ │ ├── llm/ # LLM API 통합
│ │ │ ├── ollama/ # Ollama API 통합
│ │ │ └── openai/ # OpenAI API 통합
│ │ └── projects/ # 프로젝트 관리 API
│ │ └── [projectId]/
│ │ ├── chunks/ # 텍스트 블록 작업
│ │ ├── datasets/ # 데이터 세트 생성 및 관리
│ │ ├── questions/ # 질문 관리
│ │ └── split/ # 텍스트 분할 작업
│ └── projects/ # 프런트엔드 프로젝트 페이지
│ └── [projectId]/
│ ├── datasets/ # 데이터 세트 관리 인터페이스
│ ├── questions/ # 질문 관리 인터페이스
│ ├── settings/ # 프로젝트 설정 인터페이스
│ └── text-split/ # 텍스트 처리 인터페이스
├── components/ # React 컴포넌트
│ ├── datasets/ # 데이터 세트 관련 컴포넌트
│ ├── home/ # 홈 컴포넌트
│ ├── projects/ # 프로젝트 관리 컴포넌트
│ ├── questions/ # 질문 관리 컴포넌트
│ └── text-split/ # 텍스트 처리 컴포넌트
├── lib/ # 핵심 라이브러리 및 도구
│ ├── db/ # 데이터베이스 작업
│ ├── i18n/ # 국제화
│ ├── llm/ # LLM 통합
│ │ ├── common/ # LLM 공통 도구
│ │ ├── core/ # 핵심 LLM 클라이언트
│ │ └── prompts/ # 프롬프트 단어 템플릿
│ └── text-splitter/ # 텍스트 분할 도구
├── locales/ # 국제화 리소스
│ ├── en/ # 영어 번역
│ └── zh-CN/ # 중국어 번역
└── local-db/ # 로컬 파일 데이터베이스
└── projects/ # 프로젝트 데이터 저장
설치 및 배포
시스템 요구 사항
- Node.js 18.x 이상 버전
- pnpm(권장) 또는 npm
로컬 개발
- 저장소 복제:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
- 종속성 설치:
npm install
- 개발 서버 시작:
npm run build
npm run start
Docker 배포
- 저장소 복제:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
- Docker 이미지 빌드:
docker build -t easy-dataset .
- 컨테이너 실행:
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
주의:
{YOUR_LOCAL_DB_PATH}
를 로컬 데이터베이스를 저장할 실제 경로로 바꾸십시오.
- 애플리케이션 액세스:
브라우저를 열고
http://localhost:1717
로 이동합니다.
데스크톱 애플리케이션 다운로드
Windows | MacOS | Linux |
---|---|---|
Setup.exe | Intel / M | AppImage |
사용 절차
1. 프로젝트 생성
- 홈페이지에서 "프로젝트 생성" 버튼 클릭
- 프로젝트 이름 및 설명 입력
- 선호하는 LLM API 설정 구성
2. 텍스트 업로드 및 분할
- "텍스트 분할" 섹션에서 Markdown 파일 업로드
- 자동 분할된 텍스트 조각 보기
- 필요에 따라 분할 결과 조정
3. 질문 생성
- "질문" 섹션으로 이동
- 질문을 생성할 텍스트 조각 선택
- 생성된 질문 보기 및 편집
- 태그 트리를 사용하여 질문 구성
4. 데이터 세트 생성
- "데이터 세트" 섹션으로 이동
- 데이터 세트에 포함할 질문 선택
- 구성된 LLM을 사용하여 답변 생성
- 생성된 답변 보기 및 편집
5. 데이터 세트 내보내기
- 데이터 세트 섹션에서 "내보내기" 버튼 클릭
- 선호하는 형식(Alpaca 또는 ShareGPT) 선택
- 파일 형식(JSON 또는 JSONL) 선택
- 필요한 경우 사용자 정의 시스템 프롬프트 단어 추가
- 데이터 세트 내보내기
특징적인 기능
스마트 프롬프트 단어 시스템
프로젝트에는 다양한 언어에 대한 전문 프롬프트 단어 템플릿이 내장되어 있습니다.
- 한국어 질문 생성 프롬프트 단어
- 영어 질문 생성 프롬프트 단어
- 한국어 답변 생성 프롬프트 단어
- 영어 답변 생성 프롬프트 단어
다중 LLM 지원
- OpenAI API 지원
- Ollama 로컬 배포 지원
- 모든 OpenAI 형식의 API와 호환
유연한 데이터 형식
- Alpaca 형식: 명령어 미세 조정에 적합
- ShareGPT 형식: 대화 훈련에 적합
- JSON/JSONL 출력 형식 선택