728x90

2024-01-11 80th Class

LLM DPO

#️⃣ 소스 분석

DPO

Sakura-SOLAR-DPO github (링크)
trl github (링크)
mergekit (링크)

LLM

KoAlpaca
TinyLlama
TinyLlama github

  • 코랩 A100 100 컴퓨팅으로 sakura solar 모델 1 epoch 학습시킬 수 있을 듯 -> 1 epoch 당 12000 원?!!! 😱

  • SoLAR DPO 기준으로 파인튜닝+DPO 하는 방법 분석중

  • 모델

    • polyglot(lora_target_modules를 못찾았음…)
    • sakura(로컬 4060ti 서버에서 안돌아감, quantize 방법이 있을지 확인중인데 아직까진 줄여도 안켜짐, 코랩에서 켰을때는 GPU 메모리가 35 gb 필요함… 😨 A100 미만에서는 어려울수도…?)
    • tinyllama(1B라서 제일 빨리 학습이 돌아가는데, 한국어모델은 어떻게 해야할 지…)
  • 데이터는 수집중

    • 제품데이터
    • 리뷰데이터
    • 성분데이터
  • (뉴 둥둥이 팀원이 성분 데이터는 수집을 해줬음)

#️⃣ 내일~주말 할일 (팀)

  1. 데이터 수집: 제품데이터, 리뷰데이터
  2. 데이터 가공: 챗GPT 프롬프팅으로 제품데이터, 리뷰데이터, 성분데이터를 Q&A 형태나 선호 비선호 답변 (For DPO)으로 변환하는 방법 파악해서 만들기
  3. UI: Streamlit에서 채팅화면 만들기, Fastapi와 데이터 주고받기, 상품명, 이미지 링크 받아서 스트림릿에 렌더링하기 (기능3개 구현)
  4. 추천시스템: 제품데이터 수집 완료되면 -> 협업필터링 코드 조사해서 1)데이터 전처리 2)추천코드 만들기 (주말동안)
  5. FineTuning: 데이터셋과 맞춰보기… 등등
  6. RAG: 주말에 시간되면 서비스용 코드 준비
  7. DPO: 소스분석해서 학습 및 추론코드 만들기, 필요한 데이터셋 형태 확정되면 수집된 데이터로 가공하기 (chatGPT로 형태 변형)
  8. PPT: 파란색,베이지색 톤앤매너로 템플릿 만들기, 목차 및 프로젝트 배경, 소개 페이지 작성
반응형