18 분 소요

W9

실험 변수

  • RAG 시스템의 성능에 영향을 미치는 다양한 요소를 체계적으로 실험하기 위해 다음과 같은 실험 변수를 설정

  • 종속

PDF 언어 LLM 문서 분할 여부 검색 방식(고민)
한국어 파인튜닝 분할 O 벡터 검색
영어 non 파인튜닝 분할 X 하이브리드 검색
      원본 데이터 입력
  • 독립
검색 깊이 Rerank
단일 단계 검색 LLM 이용
반복적 검색 Cohere reranker
  미적용

모델 속도 저하 문제 및 해결

raw 파일을 그대로 입력하는 방식에서 1분대가 결렸지만, hybrid search를 적용하고 난 뒤 시간이 4분대로 증가하는 성능 저하 문제 발생

output = model.generate(
                input_ids=input_ids,
                attention_mask=attention_mask,
                max_new_tokens=200,
                min_length=5,
                length_penalty=0.5,
                no_repeat_ngram_size=2,
                temperature=0.3,
                do_sample=True,
                top_p=0.85,
                repetition_penalty=1.2,
                early_stopping=True,
                num_beams=2,
                pad_token_id=tokenizer.pad_token_id,
                eos_token_id=tokenizer.eos_token_id,
            )
  • max_new_tokens 1000 → 200
  • no_repeat_ngram_size 적용
  • length_penalty 적용
  • do_sample False → True
  • num_beam 적용
  • min_length 적용

위 파라미터를 적용한 결과, 4분대에서 약 1분 30초로 감소

하이브리드 검색 실험

  • 하이브리드 검색 로직:
    • 키워드 점수 : BM25 Score

    • 벡터 점수 : Vector Score

    • 두 점수를 정규화한 뒤, 가중합 적용

    • # 점수 정규화
              if np.max(bm25_scores) > 0:
                  bm25_scores = bm25_scores / np.max(bm25_scores)
              if np.max(vector_scores) > 0:
                  vector_scores = vector_scores / np.max(vector_scores)
              # 가중 평균 계산
              combined = alpha * bm25_scores + (1 - alpha) * vector_scores
      
  • 벡터 검색과 키워드 검색을 결합한 하이브리드 검색 → alpha값 조정하여 최적의 설정 실험

  • alpha값 0.0~1.0 값 조정 실험

  • 실험 모델(성능지표에 작성)
    • cogito-qwen-32b
    • gemma3:27b

PDF 언어 통합 구현

  • 다음과 같이 함수의 파라미터에 원본 파일의 언어를 입력할 수 있도록 수정
  • language = “ko” → 프롬프트 : 한글 & LLM이 생성한 결과를 그대로 반환
  • language = “en” → 프롬프트 : 영어 & LLM이 생성한 결과를 한글로 해석한 뒤 반환
def generate_response(self, query, category, top_n=5, alpha=0.5, language="ko"):

# W10

벡터DB 구축

  • W9에 DB 없이 실험 → 데이터 확장을 위한 VectorDB 구축
  • DB를 추가하며 발견한 점은 ChromaDB의 자체 default 임베딩 기능은 성능이 좋지 않음을 발견 → 사용자 정의 클래스 CustomEmbeddingFunction를 만들어 기존 임베딩 모델을 사용

대용량 영어 PDF 탐색

Medicina - Gray’s Anatomy 16thed.pdf

13 5월 2025, 10:11 오전

  • 기존 실험하던 90페이지 샘플 PDF의 결과 잘나옴
  • 데이터 확장 → 추후의 다단계 검색 기능 테스트를 위해 복잡한 질문을 할 수 있는 주제의 PDF 탐색
  • 852페이지의 해부학 PDF

다단계 검색 기능

가장 기초적인 RAG의 경우 두가지 한계점이 있다

  • 표준 RAG의 한계
    • 고차원적인 질문을 처리하기에 역부족
    • 한 번의 검색만으로 검색 결과가 부족할 수 있음
  • 해결방안
    • 하나의 복합적인 질문을 여러 개의 질문으로 분해한 후 검색
1. 복잡한 질문 Q -> | LLM | -> SubQuery A -> content A -> | LLM | -> Answer
                          -> SubQuery B -> content B ______↑
                          -> SubQuery C -> content C ______↑

PDF 예상 질문 리스트

852페이지의 분량의 문서에서 시작 부분, 중간 부분, 마지막 부분 각각 20개씩 질문, 답변, 문서 내용 데이터 구축

문맥 필터링 기능

  • 다단계 검색 과정에서 원본 질문을 하위 질문들로 분할한 뒤 검색을 수행하니까 문맥이 길어져서 답변의 품질이 떨어짐 → LLM을 사용해 질문과 관련된 검색내용만 필터링 하는 로직 추가
  • LLM이 검색 내용이 질문과 얼마나 관련 있는지 점수를 메기도록 함 → 관련도가 임계치(0.7)를 넘어가는 문서만 필터링

PyMuPDF4LLM

  • 기존의 PyMuPDF을 사용했을 때, 문서의 구조가 망가지는 현상 발생
  • PDF를 마크다운 언어로 변환해주는 도구 → PyMuPDF4LLM

오픈소스 번역모델 성능 평가

  • 평가용 문장
# 번역 평가용 한국어 문장 리스트
korean_sentences = [
    "현대 사회에서 인공지능 기술의 급속한 발전은 우리의 일상생활뿐만 아니라 산업 전반에 걸쳐 혁명적인 변화를 가져오고 있으며, 이러한 변화에 적응하지 못하는 기업들은 시장에서 도태될 가능성이 높아지고 있다.",
    "글로벌 기후 변화로 인한 극단적인 기상 현상이 증가함에 따라, 전 세계 정부와 기관들은 지속 가능한 발전 목표를 달성하기 위해 다양한 환경 정책을 수립하고 국제적 협력을 강화하고 있으나, 여전히 많은 국가들이 경제적 이익을 우선시하는 경향이 있다.",
    "한국의 전통문화는 오랜 역사를 통해 형성된 독특한 예술 형태와 철학적 개념을 포함하고 있으며, 특히 한식, 한복, 한옥과 같은 문화적 요소들은 현대 사회에서도 그 가치를 인정받아 세계적으로 주목받고 있는 중이다.",
    "급변하는 디지털 환경 속에서 정보 보안의 중요성은 날로 증가하고 있으며, 개인 정보 유출 사고가 빈번하게 발생함에 따라 기업들은 더욱 강화된 보안 시스템을 구축하고 있지만, 동시에 해커들의 공격 방식도 더욱 교묘해지고 있어 끊임없는 기술적 발전이 요구된다.",
    "현대 교육 시스템은 학생들의 창의성과 비판적 사고력을 키우는 데 중점을 두고 있으나, 여전히 많은 국가에서는 표준화된 시험과 암기식 학습에 의존하고 있어, 이러한 불균형을 해소하기 위한 교육 개혁의 필요성이 계속해서 제기되고 있다.",
    "글로벌 경제의 상호연결성이 증가함에 따라 한 국가의 경제적 위기는 빠르게 다른 국가들에게도 영향을 미치게 되었으며, 이로 인해 국제 금융 기관들은 위기 관리 시스템을 강화하고 각국 정부는 경제 안정화 정책을 더욱 중요시하게 되었다.",
    "현대 의학 기술의 발전으로 평균 수명이 크게 늘어났지만, 동시에 노인 인구 증가로 인한 사회적, 경제적 부담도 증가하고 있어 각국 정부는 노인 복지 정책과 의료 시스템의 효율성 개선에 많은 노력을 기울이고 있다.",
    "디지털 플랫폼의 확산은 사람들 간의 소통 방식을 근본적으로 변화시켰으며, 소셜 미디어를 통한 정보 공유가 활발해지면서 정보의 신뢰성 문제와 개인 정보 보호에 대한 우려가 함께 증가하고 있어 디지털 리터러시 교육의 중요성이 더욱 강조되고 있다.",
    "과학기술의 급속한 발전은 의료, 농업, 에너지 등 다양한 분야에서 혁신을 가져왔지만, 동시에 윤리적 문제와 직업 시장의 변화 등 새로운 사회적 도전들을 야기하고 있어, 이러한 변화에 대응하기 위한 사회적 합의와 제도적 준비가 필요하다.",
    "언어는 단순한 의사소통의 도구를 넘어 문화적 정체성과 세계관을 형성하는 중요한 요소로, 세계화가 진행됨에 따라 많은 소수 언어들이 사라질 위기에 처해있으며, 이는 인류 문화 다양성 보존의 관점에서 중요한 문제로 대두되고 있다."
]
# 번역 평가용 영어 문장 리스트
english_sentences = [
    "The rapid advancement of artificial intelligence technology in modern society is bringing revolutionary changes not only to our daily lives but also across industries, and companies that fail to adapt to these changes are increasingly likely to be eliminated from the market.",
    "As extreme weather phenomena increase due to global climate change, governments and institutions worldwide are establishing various environmental policies and strengthening international cooperation to achieve sustainable development goals, yet many countries still tend to prioritize economic interests.",
    "Korean traditional culture encompasses unique art forms and philosophical concepts formed throughout its long history, and cultural elements such as Korean cuisine, hanbok (traditional clothing), and hanok (traditional houses) are being recognized globally for their value even in modern society.",
    "The importance of information security is increasing day by day in the rapidly changing digital environment, and as personal information leakage incidents frequently occur, companies are building enhanced security systems, but at the same time, hackers' attack methods are becoming more sophisticated, requiring continuous technological advancement.",
    "The modern education system focuses on developing students' creativity and critical thinking skills, but many countries still rely on standardized tests and rote learning, leading to ongoing calls for educational reform to address this imbalance.",
    "As the interconnectedness of the global economy increases, an economic crisis in one country quickly affects others, leading international financial institutions to strengthen crisis management systems and governments to place greater emphasis on economic stabilization policies.",
    "While advancements in modern medical technology have significantly extended average life expectancy, the simultaneous increase in the elderly population has increased social and economic burdens, prompting governments to invest heavily in policies for elderly welfare and improving the efficiency of healthcare systems.",
    "The proliferation of digital platforms has fundamentally changed how people communicate, and as information sharing through social media becomes more active, concerns about information reliability and personal data protection have also increased, emphasizing the importance of digital literacy education.",
    "The rapid development of science and technology has brought innovation in various fields such as medicine, agriculture, and energy, but it has also created new social challenges such as ethical issues and changes in the job market, requiring social consensus and institutional preparation to respond to these changes.",
    "Language is more than just a tool for communication; it is an important element that forms cultural identity and worldview, and as globalization progresses, many minority languages are in danger of disappearing, which is emerging as an important issue from the perspective of preserving human cultural diversity."
]

  • 번역 결과(jbochi/madlad400-3b-mt 모델)
  1. “현대 사회에서 인공지능 기술의 급속한 발전은 우리의 일상생활뿐만 아니라 산업 전반에 걸쳐 혁명적인 변화를 가져오고 있으며, 이러한 변화에 적응하지 못하는 기업들은 시장에서 도태될 가능성이 높아지고 있다.”
현대 사회에서 인공 지능 기술의 급속한 발전은 우리의 일상 생활뿐만 아니라 산업 전반에 혁명적인 변화를 가져오고 있으며, 이러한 변화에 적응하지 못하는 기업은 점점 시장에서 제거 될 가능성이 높아지고 있습니다.
  1. “글로벌 기후 변화로 인한 극단적인 기상 현상이 증가함에 따라, 전 세계 정부와 기관들은 지속 가능한 발전 목표를 달성하기 위해 다양한 환경 정책을 수립하고 국제적 협력을 강화하고 있으나, 여전히 많은 국가들이 경제적 이익을 우선시하는 경향이 있다.”
지구 기후 변화로 인해 극한 기상 현상이 증가함에 따라 전 세계 정부와 기관들은 지속 가능한 개발 목표를 달성하기 위해 다양한 환경 정책을 수립하고 국제 협력을 강화하고 있지만, 여전히 많은 국가들이 경제적 이익을 우선시하는 경향이 있습니다.
  1. “한국의 전통문화는 오랜 역사를 통해 형성된 독특한 예술 형태와 철학적 개념을 포함하고 있으며, 특히 한식, 한복, 한옥과 같은 문화적 요소들은 현대 사회에서도 그 가치를 인정받아 세계적으로 주목받고 있는 중이다.”
한국 전통 문화는 오랜 역사를 통해 형성된 독특한 예술 형태와 철학적 개념을 포함하고 있으며, 한국 요리, 한복, 한옥과 같은  문화 요소는 현대 사회에서도 그 가치를 인정받고 있습니다.
  1. “급변하는 디지털 환경 속에서 정보 보안의 중요성은 날로 증가하고 있으며, 개인 정보 유출 사고가 빈번하게 발생함에 따라 기업들은 더욱 강화된 보안 시스템을 구축하고 있지만, 동시에 해커들의 공격 방식도 더욱 교묘해고 있어 끊임없는 기술적 발전이 요구된다.”
빠르게 변화하는 디지털 환경에서 정보 보안의 중요성은 날이 갈수록 증가하고 있으며, 개인 정보 유출 사건이 자주 발생함에 따라  기업들은 향상된 보안 시스템을 구축하고 있지만, 동시에 해커의 공격 방법은 지속적인 기술 발전이 필요한 더 정교해지고 있습니다.
  1. “현대 교육 시스템은 학생들의 창의성과 비판적 사고력을 키우는 데 중점을 두고 있으나, 여전히 많은 국가에서는 표준화된 시험과 암기식 학습에 의존하고 있어, 이러한 불균형을 해소하기 위한 교육 개혁의 필요성이 계속해서 제기되고 있다.”
현대 교육 시스템은 학생들의 창의성과 비판적 사고 능력을 개발하는 데 초점을 맞추고 있지만, 많은 국가들은 여전히 표준화된 시험과 암기 학습에 의존하고 있으며, 이러한 불균형을 해결하기 위해 교육 개혁을 요구하고 있다.
  1. “글로벌 경제의 상호연결성이 증가함에 따라 한 국가의 경제적 위기는 빠르게 다른 국가들에게도 영향을 미치게 되었으며, 이로 인해 국제 금융 기관들은 위기 관리 시스템을 강화하고 각국 정부는 경제 안정화 정책을 더욱 중요시하게 되었다.”
세계 경제의 상호 연결성이 증가함에 따라 한 나라의 경제 위기는 다른 나라에 빠르게 영향을 미치고,  국제 금융 기관은 위기 관리 시스템을 강화하고 정부는 경제 안정 정책에 더욱 중점을 두게 된다.
  1. “현대 의학 기술의 발전으로 평균 수명이 크게 늘어났지만, 동시에 노인 인구 증가로 인한 사회적, 경제적 부담도 증가하고 있어 각국 정부는 노인 복지 정책과 의료 시스템의 효율성 개선에 많은 노력을 기울이고 있다.”
현대 의료 기술의 발전은 평균 수명을 크게 연장시켰지만, 동시에 노인 인구의 증가는 사회적, 경제적 부담을 증가시켰으며,  정부는 노인 복지 정책과 의료 시스템의 효율성 개선에 막대한 투자를 해야 했다.
  1. “디지털 플랫폼의 확산은 사람들 간의 소통 방식을 근본적으로 변화시켰으며, 소셜 미디어를 통한 정보 공유가 활발해지면서 정보의 신뢰성 문제와 개인 정보 보호에 대한 우려가 함께 증가하고 있어 디지털 리터러시 교육의 중요성이 더욱 강조되고 있다.”
디지털 플랫폼의 확산은 사람들이 소통하는 방식을 근본적으로 변화시켰으며, 소셜 미디어를 통한 정보 공유가 활성화됨에 따라  정보 신뢰성과 개인 데이터 보호에 대한 우려도 증가하여 디지털 문해력 교육의 중요성이 강조되고 있습니다.
  1. “과학기술의 급속한 발전은 의료, 농업, 에너지 등 다양한 분야에서 혁신을 가져왔지만, 동시에 윤리적 문제와 직업 시장의 변화 등 새로운 사회적 도전들을 야기하고 있어, 이러한 변화에 대응하기 위한 사회적 합의와 제도적 준비가 필요하다.”
과학기술의 급속한 발전은 의학, 농업, 에너지와 같은 다양한 분야에서 혁신을 가져왔지만, 윤리적 문제와 직업 시장의 변화와 같은  새로운 사회적 도전을 만들어 냈으며, 이러한 변화에 대응하기 위해 사회적 합의와 제도적 준비가 필요합니다.
  1. “언어는 단순한 의사소통의 도구를 넘어 문화적 정체성과 세계관을 형성하는 중요한 요소로, 세계화가 진행됨에 따라 많은 소수 언어들이 사라질 위기에 처해있으며, 이는 인류 문화 다양성 보존의 관점에서 중요한 문제로 대두되고 있다.”
언어는 단순한 의사소통 도구가 아니라 문화적 정체성과 세계관을 형성하는 중요한 요소이며, 세계화가 진행됨에 따라 많은 소수민족 언어가 사라질 위험에 처해 있으며, 이는 인류 문화적 다양성을 보존하는 관점에서 중요한 문제로 부상하고 있다.

번역 문제 발생

몸통은 척추의 가장 큰 부분이며, 약간 원통형이다.그 위와 아래 표면은 평평하고 거칠며, 척추 사이의 섬유 연골에 부착되어 있으며, 각각은 둘레 주위에 테두리를 가지고 있다.몸은 앞에서 옆으로 볼록하고 위에서 아래로 오목하다.뒷면은 위에서 아래로 평평하고 옆에서 옆으로 약간 오목하다.그 전면은 영양 혈관의 통과를위한 몇 가지 작은 구멍을 제시;척추의 뒤쪽 표면에는 큰 불규칙한 개구부가 하나 또는 때때로 하나 이상 있으며, 척추의 몸에서 척추근 정맥이 나오는 곳이다.메시지 머릿말 목록을 스레드 형태로 표시( t)
  • 마지막 문장에 “메시지 머릿말 목록을 스레드 형태로 표시( t)”라는 문장이 포함됨
  • 문장을 구두점 단위로 분할할 때, 리스트 마지막에 [’‘]이 들어감 → 제거 후 문제 증상은 사라짐

Hypothetical Document Embeddings(HyDE)

  • 사용자의 질문을 통해 질문에 답변하기 위한 가상의 내용을 생성 후, 생성된 가상 문서를 바탕으로 검색하는 기법
  • 기존의 질문의 임베딩과 문서의 임베딩을 통해 검색을 할 경우 놓치는 부분 발생할 가능성
  • (가상)문서의 임베딩-(실제)문서의 임베딩을 검색하여 검색 결과의 정확성과 의미적 일치를 높인다.

HyDE 문제점

  • 생성된 문서의 길이가 길 경우, 통째로 임베딩 했을 때, 검색 성능 감소
  • 가상문서를 생성하는 모델이 모르는 정보가 있을때 리스크가 매우 크다

W11

HyDE 검색 성능

  • 지난 실험에서 가상 문서 전체를 임베딩 했을 때 성능 저하 → 평가용 질문 점수 0/30
  • 가상으로 생성된 문서의 각 문장을 분할 → 평균 적용(결과는 성능지표에 기록)

  • 검색 결과에 정답 페이지가 포함되는지 여부 평가
  • HyDE, mean
질문/가중치 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1 O O O O O O O O O O O
2 O O O O O O O O O O O
3 X O O O O O O O O O O
4 O O O O O O O O O O O
5 X X O O O O O O O O O
6 O O X O O O O O O O O
7 O O O X O X O X O O O
8 O O O O O O O O O O O
9 X X X O X O X X X X X
10 O O O O O O O O O O O
11 X X X X X X O O O O O
12 X X O O O O O O O O X
13 X X X X O O O O O O O
14 X X X X X X X O O O O
15 X X X X O O O O O O O
16 X X X O O O O O O O O
17 X X X X X X X O O O O
18 X X X X X X X O O O O
19 X X O O O O O O O O O
20 X X X X X O O O O O O
21 X X X X X X O O O O O
22 X X X O O O X O O X X
23 X X X X X O O O O O O
24 X X X X X X O X X X X
25 X X X X X X O O O O O
26 X X X X X X X X X X X
27 X X X X X O O O O O O
28 X X X X X X X X X X X
29 X X X X X X O O X X O
30 X X X X X O X X O O O
합계 7 8 10 13 15 19 22 24 25 24 24

Non-HyDE 검색 성능

  • non-HyDE
질문/가중치 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1 O O O O O O O O O O O
2 O O O O O O O O O O O
3 O O O O O O O O O O O
4 O O O O O O O O O O O
5 O O O O O O O O O X X
6 O O O O O O O O O O X
7 O O O O O O O X X O O
8 O O O O O O O O O O O
9 O O O O O O O O O O X
10 O O O O O O O O O O O
11 X X X X X X X X O O O
12 X X X X X O O O O O O
13 X X X X X X O O O O O
14 X X X X X X X X X X X
15 X X X X X X O O O O O
16 X X X X X X X X O O O
17 X X X X X X X X O O O
18 X X X X X X X X O O O
19 X X X O O O O O O O O
20 X X X X X X O O O O O
21 X X X X X X X X X X X
22 X X X X X O O O O O O
23 X X X X X X O O O O O
24 X X X X X X O X O O O
25 X X X X X X O O O O O
26 X X X X X X X X X X O
27 X X X X X X X X X O O
28 X X X X X X X X X X X
29 X X X X X X X X X O O
30 X X X X X X X X X X O
합계 10 10 10 11 11 13 19 17 22 24 24

결과

0.7 0.8 0.9 1.0                
검색 출처명시 답변 검색 출처명시 답변 검색 출처명시 답변 검색 출처명시 답변
24 20 14 25 19 9 24 20 10 24 24 8
  • 키워드 점수의 비중이 유사도 점수 비중보다 높은 경우 더 좋은 결과

문서 분할

목차 : 0~5 Embryology : 6 ~ 36(31) Osteology : 37 ~ 173(137) Syndesmology : 174 ~ 242(69) Myology : 243 ~ 332(90) Angiology : 333 ~ 361(29) The Arteries : 362 ~ 424(63) The Veins : 425 ~ 450(26) The Lymphatic System : 451 ~ 472(22) Neurology : 473 ~ 622(150) The Organs of the Senses and the Common Integument : 623 ~ 673(51) Splanchnology : 674 ~ 815(142) Surface Anatomy and Surface Markings : 816 ~ 852(37)
  • 12개의 문서를 각각 컬렉션에 저장
  • 모든 컬렉션에 대해 top_n개씩 검색
  • 60개의 결과 중 유사도 상위 top_n개 사용

번역 모델 결과 비교

평가 문장 : According to page 37, “the flat bones are: the occipital, parietal, frontal, nasal, lacrimal, vomer, scapula, os coxæ ( hip bone ), sternum, ribs, and, according to some, the patella.” Also on page 37, “short bones” are mentioned, and described as being found “in the carpus and tarsus”. The document also mentions “metacarpals, metatarsals, and phalanges” and “long bones” on page 37 and 45 respectively. Therefore, the four main classes of bones are flat, short, long, and bones such as the metacarpals, metatarsals, and phalanges.

모델 결과
구글 번역기 37페이지에 따르면, "평평골은 후두골, 두정골, 전두골, 비골, 누골, 서골, 견갑골, 고관절(os coxæ, 엉덩이뼈), 흉골, 갈비뼈, 그리고 일부에서는 슬개골을 말합니다." 또한 37페이지에는 "짧은뼈"가 언급되어 있으며, "손목뼈와 발목뼈"에서 발견된다고 설명되어 있습니다. 이 문서는 또한 37페이지와 45페이지에 각각 "중수골, 중족골, 지골"과 "장골"을 언급합니다. 따라서 네 가지 주요 뼈 종류는 평편골, 짧은골, 긴골, 그리고 중수골, 중족골, 지골과 같은 뼈입니다.
facebook/nllb-200-3.3B 37 페이지에 따르면, 평한 뼈는: 두개골, 앞면, 코, 눈물 같은 토하는 것, 어깨뼈 골반 (하프 뼈), 흉부 갈비뼈, 그리고, 어떤 사람들은 발목뼈 또한 37 페이지 짧은 뼈가 언급되어 있습니다. 그리고 카푸스와 타르수스에서 발견된다고 설명했습니다. 이 문서에는 또한 메타카르팔, 다리뼈, 그리고 팔목과 긴 뼈은 각각 37페이지와 45페이지에 있습니다. 따라서, 네 가지 주요 뼈 종류는 평평합니다. 짧은 길고 그리고 팔꿈치와 같은 뼈들, 다리뼈, 그리고 팔꿈치.
facebook/mbart-large-50-many-to-many-mmt 37頁에 따르면, “평평한 뼈는: 후두엽, 측두엽, 전두엽, 코, 측두엽, 嘔吐, 측두엽, 엉덩이뼈, 엉덩이뼈, 엉덩이뼈, 어깨뼈, 그리고, 몇몇의 경우, 엉덩이뼈입니다. 또한 37쪽에서 "short bones"가 언급되어 있고, "carpus and tarsus"에서 발견된 것으로 설명됩니다. 이 문서는 또한 "metacarpals, metatarsals, and phalanges"와 "long bones"를 37면과 45면에 나와있습니다. 그래서 뼈의 4가지 주요 범위는 평평하고, 짧고, 길고, 그리고 뼈는 메타카르팔, 메타타르살, 그리고 파란치입니다.
jbochi/madlad400-3b-mt 37 페이지에 따르면, "평평한 뼈는 다음과 같습니다 : 후두, 두개골, 전두, 코, 눈물, vomer, 커플러, os coxæ ( 엉덩이 뼈 ), 흉골, 갈비뼈, 그리고, 일부에 따라, 고관절." 또한, 2009 년 12 월 31 일, 30 년 동안의 연구에 의해, "짧은 뼈"가 언급되고, "손가락과 발가락"에서 발견되는 것으로 설명된다. 이 문서는 또한 각각 37쪽과 45쪽에 "중손목, 중발목, 팔꿈치"와 "긴 뼈"를 언급하고 있다. 따라서, 뼈의 네 가지 주요 클래스는 평평한, 짧은, 긴, 그리고 손목, 발목, 손가락과 같은 뼈입니다.
NHNDQ/nllb-finetuned-en2ko 37페이지에 따르면. 평평한 뼈는 후두, 정수리, 정면, 코, 코. 눈물. 보머. 견갑골. 오스 콕세(힙 뼈), 흉골. 갈비. 그리고. 어떤 사람들은. 슬개골. 37페이지에도 있습니다. "짧은 뼈"가 언급되어 있습니다. 그리고 "마디와 타르수스"에서 발견되는 것으로 설명된다. 이 문서는 또한 "메타카르팔스"를 언급한다. 중족골, 37페이지와 45페이지에 각각 "골격"과 "장골"이 있다. 그래서. 네 가지 주요 종류의 뼈는 평평합니다. 짧게. 길게. 그리고 대뇌와 같은 뼈, 중족골, 그리고 지골.
facebook/nllb-200-distilled-1.3B 37 페이지에 따르면, 평평한 뼈는: 후두뼈, 부피, 앞면 코, 눈물 머 발목, (히프 뼈) 가슴뼈 갈비뼈 그리고, 어떤 사람들은 잎자루 또한 37 면, 단한 뼈에 언급되어 있습니다. 그리고 카퍼스와 타르소에서 발견된 것으로 묘사되었습니다. 이 문서에는 또한 메타카르파스, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목 그리고 팔랑자 그리고 장 뼈 각각 37쪽과 45쪽. 따라서, 네 가지 주요 골급은 평평합니다. 짧은, 길게 손목과 같은 뼈를 두었노라 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목, 발목 그리고 발랑지
facebook/mbart-large-cc25 to page-----------------------------and--and--and-and-and--and------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- the flat bonesthe …생략…

# W12

이미지 검색

  • 이미지를 추출한 뒤, 이미지가 포함된 문서의 위치에 이미지 경로를 일일이 집어넣는 방식 적용하려 했음
  • 수작업으로 넣지 않아도 이미지를 출력해 낼 수 있는 방법 찾음
  • 검색된 청크의 메타데이터(페이지)를 이용해 해당 페이지에 존재하는 이미지를 찾아서 반환하는 방법

image-20250726145756880

의료 임베딩모델 & 일반 임베딩 모델 비교

| 사용 모델** | medicalai/ClinicalBERT | abhinand/MedEmbed-large-v0.1 | NeuML/pubmedbert-base-embeddings | BAAI/bge-m3 | gsarti/biobert-nli | pritamdeka/S-PubMedBert-MS-MARCO | dmis-lab/biobert-v1.1 | emilyalsentzer/Bio_ClinicalBERT | allenai/scibert_scivocab_uncased | allenai/scibert_scivocab_cased | microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext | | ———– | ———————- | —————————- | ——————————– | ———– | —————— | ——————————– | ——————— | ——————————- | ——————————– | —————————— | ———————————————————— |

  • 코사인 유사도 분포 시각화
    • ClinicalBERT : 0.983 ± 0.008
    • MedEmbed : 0.584 ± 0.078
    • pubmedbert : 0.412 ± 0.158
    • bge-m3 : 0.410 ± 0.130 → 평균 유사도가 가장 낮고 분산이 크다 → 클러스터링 했을 때 문서 간 구분을 잘 함
    • BiobertNLI : 0.478 ± 0.159
    • SPubMedBertMS : 0.850 ± 0.038
    • BioBertV1.1 : 0.802 ± 0.083
    • BioClinicalBert : 0.743 ± 0.102
    • ScibertScivocabUncased : 0.609 ± 0.153
    • ScibertScivocabCased : 0.626 ± 0.162
    • BioMedNLPPubMedBert : 0.874 ± 0.052

image-0250726145808841

  • t-SNE & UMAP

image-20250726145817528

→ t-SNE, UMAP 시각화 결과에서도 bge-m3 임베딩 모델의 군집 경계가 비교적 뚜렷한 편

  • Silhouette Score
    • 모든 모델이 군집이 20개였을 때 실루엣 점수가 가장 높았음

image-20250726145837099

댓글남기기