6 분 소요

layout: single
title:  "[LLM] 해부학 PDF 질의응답 RAG W17-20"
categories: [Programming, LLM, RAG, Project]
tag: [Programming, LLM, RAG, Project]
toc: true
author_profile: false
sidebar:
    nav: "docs"

텍스트 기법

No 텍스트 설명
1 AdaLoRA SVD 개념 사용가중치 중요도에 따라 파라미터 자원 다르게 할당
2 DyLoRA LoRA와 다르게 랭크 크기를 동적으로 바꿀 수 있음
3 GaLore 가중치를 압축압축된 정보를 optimizer에 저장가중치 업데이트 시 다시 복원

멀티모달 기법

No 멀티모달 설명
1 MM-LoRA 비전용, 텍스트용 병렬 LoRA 구성
2 QLadder CLIP 인코더로 추출한 특징과 QLadder에서 얻은 시각적 특징 결합이미지의 계층적 이해

MoE 기법(추후 적용)

No MoE 설명
1 MixLoRA 독립적인 attention-layer LoRA 활용 → 멀티태스크 학습에서 성능 향상각 태스크마다 최적의 전문가 선택(정적)
2 DynMoLE 하이브리드 라우팅 메커니즘을 통해 전문가 선택을 동적으로 조절라우터의 선택에 따름확신이 있는 경우 Top-K 전문가 선택(가장 확률 높은 K개)확신이 없는 경우 Top-P 전문가 고려(확률이 P 이상인 전문가)
3 HMoRA 계층적 MoE와 LoRA 결합예시 : 문장 전체의 의미와 단어 하나의 의미를 동시에 파악해야 하는 경우 → 각 단계의 전문가들이 협력
4 TT-LoRA MoE Tensor-Train 분해를 LoRA 가중치에 적용 → 네트워크 메모리 사용량 감소적은 메모리로 많은 전문가 운영
5 X-LoRA 지식이 복합적으로 필요한 문제에서 전문가를 조합하여 더 정확하고 포괄적인 답변 제공

기법 종류

  1. 도메인 특화 언어 모델 구축 방법
    1. Base Model을 사용한 RAG보다 Fine Tuning을 결합했을 때 점수가 더 높았다.
  2. 특정 도메인에 맞는 언어모델은 어떻게 만들까?
    1. Data : 해당 도메인 데이터 많을수록 좋음. 4GB와 8GB, 12GB 사이에 유의미한 차이가 있지는 않다는 연구결과 있음. 1GB는 256K개의 기사가 필요
    2. Tokenizer :
      1. 기존 tokenizer의 vocab을 그대로 쓴다
      2. Vocab을 새로 만든다
      3. 기존 tokenizer의 vocab에 새로운 단어 추가
    3. Difficulty of Task
      1. easy : base model 사용해도 무방
      2. difficult : Domain Specific LM 사용
  3. 파인튜닝과 RAG로 완성하는 도메인 맞춤형 LLM 서비스 개발
  4. KaFT: Knowledge-aware Fine-tuning for Boosting LLMs’ Domain-specific Question-Answering Performance
    1. LLM의 기존 내제된 지식과 학습용 데이터 간의 충돌 발생
    2. 충돌이 크면 적은 가중치 적용(모델이 알고 있으면)
    3. 충돌이 작으면 큰 가중치 적용(모델이 모르면)
  5. BLADE: Enhancing Black-Box Large Language Models with Small Domain-Specifc Models
    1. 도메인 특화 소형모델 학습
    2. 소형모델의 생성 결과를 대형모델에 전달
    3. 지식과 답변 품질 모두 향상할 수 있음
  6. SLearnLLM: A Self-Learning Framework for Efficient Domain-Specific Adaptation of Large Language Models
    1. LLM이 파인튜닝 데이터셋의 질문들에 먼저 답변
    2. LLM이 자신의 답변을 평가해서 틀린 QA쌍을 걸러냄
    3. 틀린것들(모르는 지식)만 골라서 파인튜닝
  7. ChatEndoscopist: A Domain-Specific Chatbot with Images for Gastrointestinal Diseases
    1. 이미지 생성 챗봇 예시
    2. 페이지를 key로 검색된 청크의 페이지에 존재하는 이미지 가져옴
  8. QLoRA: Efficient Finetuning of Quantized LLMs
    1. LoRA + Quantization
    2. LLaMA 65B 모델의 경우 사전학습할 때, 2,048대의 A100을 21동안 사용
    3. QLoRA 적용 → 단일 48GB GPU로 65B 모델 튜닝 가능
  9. LoftQ
    1. LoRA + Quantization
    2. 양자화로 인해 잃은 정보를 보완하는 방법 제시
    3. original high-precision weight(W)와 Q + AB^t(양자화 weight + LoRA 어댑터 추가) 간의 차이를 구한 뒤, W를 Q + AB^t로 근사시킴
  10. AdaLoRA
    1. SVD 개념 사용
    2. 기존의 PEFT 방법은 가중치 행렬에 균등하게 자원을 분배 → 각 weight의 중요도를 고려하지 않음
    3. 가중치 행렬의 중요도에 따라 파라미터 자원을 다르게 할당한다는 아이디어
  11. DyLoRA
    1. 기존 LoRA는 훈련 후에 랭크 크기를 수정할 수 없어서 처음부터 다시 훈련
    2. 최적의 랭크를 찾기 위해 exhaustive search가 필요
    3. DyLoRA는 단일 랭크가 아닌 여러 랭크 범위에서 LoRA 블록을 훈련 → 훈련 중에 어댑터 모듈이 정렬
    4. 하나의 모델로 다양한 랭크 지원 & 훈련 후 랭크 조정 가능
  12. DoRA
    1. 벡터의 크기와 방향 개념 이용
    2. LoRA : 벡터의 크기와 방향을 동시에 조절 → 어떤 부분이 크기 변화인지, 방향 변화인지 구분 불가
    3. DoRA : 벡터의 크기와 방향을 따로 조절
    4. 전체 파인튜닝 : magnitude(각 뉴런의 중요도), direction(패턴 인식) 간의 음의 상관관계를 보임
      1. 특정 뉴런은 더 강하게 반응하지만, 방향은 덜 바뀜
      2. 특정 뉴런은 덜 강하게 반응하지만, 방향이 많이 바뀜
  13. GaLore
    1. LLM에서 메모리를 가장 많이 먹는 부분은 optimizer 단계
    2. 각 파라미터마다 momentum과 variance를 저장해야 함 → 파라미터 개수의 3배 메모리가 필요
    3. 신경망의 gradient는 단순한 패턴을 가진다
      1. 4096x4096 크기의 행렬 → 1600만개의 숫자
      2. 실제로는 64x64개 정도의 에센셜이 있다
      3. 나머지는 핵심정보의 확장
    4. step
      1. 원본 gradient에서 중요한 패턴을 찾음(64x64)
      2. 4000개 숫자만 optimizer에 저장
      3. 실제 업데이트 할 때는 다시 1600만개로 복원
  14. 임베딩 모델 파인튜닝
    1. 네거티브 샘플링
    2. 모델 융합

적용 가능

핵심 기법

  1. DoRA
  • ECT/KEPIC 문서의 전문 용어와 개념에 대한 미세조정
  • LoRA대비 20-30% 향상된 성능으로 ECT 전문 지식을 더 정확하게 학습
  • 방향과 크기 분리로 도메인 특화 가중치 최적화
  1. QLoRA + 4비트 양자화
  • 제한된 하드웨어에서 대용량 ECT 문서 학습
  • 메모리 사용량 절약으로 더 큰 모델 학습 가능

멀티모달

논문에 따르면 MM-LoRA, QLadder의 조합이 시각적 인지 및 언어 이해 측면에서 효과적임

  1. MM-LoRA(Multi-modal LoRA)
  • 비전용, 텍스트용 두개의 병렬 LoRA로 구성
  • ECT 문서의 텍스트와 이미지를 동시에 학습
  • 회로도, 절차서의 이미지와 설명문을 연관 학습
  1. QLadder
  • CLIP 인코더로부터 추출한 특징 Fc와 QLadder에서 얻은 시각적 특징 결합
  • ECT 이미지의 다층적 특징 추출
  • 회로도의 세부 구성요소부터 전체 시스템까지 계층적 이해

최적화 기법

  1. DPO(Direct Preference Optimization)
  • ECT 전문가의 선호도 데이터로 직접 최적화
  • 보상 모델 없이 도메인 전문성 향상
  • 정확한 ECT 답변과 부정확한 답변 쌍으로 선호도 학습
  1. KTO(Kahneman-Tversky Optimization)
  • ECT 답변의 좋음/나쁨 평가로 학습
  • 이진 피드백으로 평가 체계 구축

지속적 학습

  1. O-LoRA
  • 문서 업데이트, 규정 추가 시 활용
  • 기존 지식 손실 없이 새로운 지식 추가
  • 직교 부공간에서 새로운 태스크 학습으로 Catastrophic Forgetting 방지
  1. LLaMA PRO
  • 기존 모델 파라미터에서 기존의 블록을 얼리고 새로운 블럭을 추가
  • 확장되는 블럭은 기존 블럭을 복사하고 linear layer의 일부만 0으로 초기화
  • ECT 특화 레이어 추가로 도메인 지식 주입
  • 기본 언어 능력 유지하면서 도메인 전문성 강화

모델 병합 및 조합

  1. MergeKit
  • 여러 하위 도메인 전문 어댑터 통합
  • TIES, SLERP 등 다양한 병합 방법으로 최적 조합 탐색

##


검증 필요

1. 고급 PEFT 기법들 → 지금 task에는 불필요

Mixture of Experts (MoE) 기반 LoRA

  • MixLoRA: LoRA 기반 MoE 방법으로 독립적인 attention-layer LoRA 어댑터를 활용하여 멀티태스크 학습에서 9% 정도 성능 향상 ScaleGitHub
  • DynMoLE: Tsallis entropy를 활용한 하이브리드 라우팅 메커니즘으로 전문가 선택을 동적으로 조절
  • HMoRA: 계층적 MoE와 LoRA 결합으로 토큰/태스크 레벨 라우팅을 통합 OpenreviewOpenreview
  • TT-LoRA MoE: tensor-train 분해를 통해 메모리 사용량을 30% 감소시키면서 전문가 네트워크 관리 [TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts AI Research Paper Details](https://www.aimodels.fyi/papers/arxiv/tt-lora-moe-unifying-parameter-efficient-fine)
  • X-LoRA: 과학/기술 도메인에 특화된 동적 전문가 조합 시스템 PEFT: Parameter-Efficient Fine-Tuning Methods for LLMs

고급 LoRA 변형

  • Möbius-inspired LoRA: Möbius 기하학에서 영감을 받은 PEFT로 다중모달 생성 모델의 유연성과 표현력 향상 [Parameter Efficient Fine-Tuning for Multi-modal Generative Vision Models with Möbius-Inspired Transformation International Journal of Computer Vision](https://link.springer.com/article/10.1007/s11263-025-02398-3)
  • Spectrum: Signal-to-Noise Ratio 분석으로 가장 정보량이 많은 레이어만 선택적으로 파인튜닝 How to fine-tune open LLMs in 2025 with Hugging Face

2. 모델 병합 및 조합 기법

LoRA 어댑터 병합

Knowledge Distillation 활용

  • 대형 모델의 지식을 소형 특화 모델로 증류
  • 다중 전문가 모델에서 단일 효율적 모델로 지식 압축

3. 고급 정렬 기법

RLHF 대안들

향상된 PPO 구현

4. 해석가능성 및 제어

Mechanistic Interpretability

라우팅 시스템

  • Expert Orchestration: 여러 특화 모델을 지능적으로 라우팅하는 시스템 [Apart x Martian Mechanistic Router Interpretability Hackathon Apart Research](https://apartresearch.com/sprints/apart-x-martian-mechanistic-router-interpretability-hackathon-2025-05-30-to-2025-06-01)
  • Judge 모델을 통한 능력 평가 및 최적 전문가 선택

5. Continual Learning

Progressive Prompts

  • 대부분의 파라미터를 고정하고 각 새로운 태스크에 대해 고정된 수의 토큰(프롬프트)만 학습

DAPT

  • 이중 주의 프레임워크로 LoRA 파라미터의 학습과 선택을 정렬

Domain incremental CIT

  • 도메인별 지시를 순차적으로 파인튜닝하여 새로운 도메인의 태스크 해결 능력 획득

6. Curriculum Learning

  • 데이터를 쉬운 것부터 어려운 것 순서로 제시하여 모델이 점진적으로 학습하도록 하는 방법

업데이트:

댓글남기기