Microsoft에서 발표한 Phi-4 SLM 에 관하여

2024년 12월 발표한 Phi-4는 기존 Phi 모델들과 같이, 경량화 모델에 초점을 두었습니다. Phi-4는 140억 개의 매개 변수를 가진 고품질 모델로 STEM 중심의 Q&A 문제에 대해 GPT-4 를 능가하는 성능을 보인다고 발표를 하였습니다.

주요 특징들을 정리해 보면 아래와 같습니다.

데이터 생성 및 학습

합성 데이터 (Synthetic Data) 활용:
- 합성 데이터를 사용해 추론 중심 작업에서 성능을 극대화.
- multi-agent 프롬프팅, self-revision workflows 등의 기술로 생성.
효율적 학습 설계:
- 학습 커리큘럼과 데이터 혼합 비율을 최적화해 더 나은 성능 확보.
DPO & SFT
- 지도 학습(SFT)을 개선하고, Direct Preference Optimization(DPO) 기술의 Combination 적용

합성 데이터 접근법

주요 데이터 원천:
- 학습 데이터의 40%가 합성 데이터로 구성.
- 강력한 문제 해결 능력을 유도하도록 설계됨.
합성데이터의 Advanced 생성 기술:
- 다중 에이전트 협력 방식으로 데이터를 생성.
- 데이터를 스스로 수정(self-revision)하는 워크플로우 적용.
- 데이터 생성 중 명령을 반대로 적용하는 혁신적 기법 도입. (?) --> 조금 더 리서치 후 따로 글을 쓰도록 하겠습니다.

데이터 큐레이션

유기적 데이터 필터링:
- 웹 콘텐츠, 서적, 코드 저장소 등에서 고품질 데이터를 선별.
- 필터링된 데이터를 기반으로 더 나은 합성 데이터를 생성.
심층적 추론 강조:
- 데이터를 정제해 심층적인 문제 해결 및 추론 능력을 끌어냄.

사후 학습(Post-Training)

지도 학습(SFT) 개선:
- 더 정교한 버전의 데이터셋을 사용해 학습 성능 강화.
Direct Preference Optimization(DPO):
- 핵심 토큰을 검색해 중요한 학습 데이터를 생성.
- 학습 데이터 쌍을 다시 최적화하여 모델의 선호도를 조정.

성능

추론 작업에서 우위:
- 추론 작업에서 더 큰 모델(GPT-4, Gemini 등)을 능가.
- GPQA(대학원 수준 STEM Q&A) 및 MATH(수학 경시 문제) 벤치마크에서 최고의 성과.
고성능 벤치마크:
- 수학 및 과학 문제에서 전문적으로 설계된 대규모 모델보다 뛰어난 성능 입증.

주요 기술 특징

140억 개의 매개변수:
- 대형 모델에 비해 작지만 효율적 설계. (정제안된 노이즈 데이터 최소화)
문맥 처리 능력:
- 기본 문맥 길이 4,096, 학습 중간에 16,000까지 확장.
- 4,000 토큰까지 완전 어텐션 처리 지원.
다중 언어 지원:
- Tiktoken 토크나이저를 사용해 다양한 언어를 효과적으로 처리.
- 지원 언어: English, German, Spanish, French, Portuguese, Italian, Hindi, Japanese (한글 지원 X)

학습 세부 사항

학습 데이터 비율:
- 합성 데이터: 40%
- 웹 데이터 및 개정 데이터: 30%
- 코드 데이터: 20%
- 학술 데이터 및 서적: 10%

출저: https://arxiv.org/pdf/2412.08905

길게 적어두었지만, 이번 Phi-4 모델의 핵심 포인트는 '합성 데이터'입니다. 학습의 대부분의 데이터를 매우 정제된 합성 데이터로 학습하였으며, 학습 데이터를 정제 및 만들기 위해 더 많은 연구와 새로운 방안들을 적용하였습니다. 데이터를 심층적으로 정제하여, 비교적 적은 매개변수를 이용하였음에도 높은 성능을 끌어냈습니다.

마이크로소프트에서 제공하는 벤치마크 점수외에 실제 성능을 사용해본 후 느낀점은
1) STEM 문제에서는 확실히 강점을 보였습니다. (풀이와 설명이 디테일하며, GPT-4 에 비교하여도 맞춘 정답 기준으로 퀄리티가 더 좋은 경우도 있었습니다.)
2) 모델 사이즈가 작을수록 프롬프트가 길어지면 프롬프트를 잘 따르지않는 특성이 있습니다. 하지만, Phi-4는 긴 프롬프트로 테스트해보았을때 준수한 성능을 보여주었습니다.
3) 코드 생성은 만족할 만 한 수준은 아니였으며, 다른 모델에 비해 떨어지는 성능을 보였습니다.
4) 일반질의에 대한 답변으로는 경량모델의 한계가 느껴졌으며, 전체적인 답변이 정제되었다는 느낌은 받았지만 대부분의 답변에서 GPT 또는 다른 LLM 모델 대비 만족할 만한 답변을 주지는 못했습니다.

=====================================================================================

결론

현재 LLM 시장은 점점 더 큰 모델을 만드는 데 집중하고 있습니다. 대형 언어 모델은 광범위한 데이터와 복잡한 작업을 처리할 수 있는 능력 때문에 많은 주목을 받고 있지만, Phi-4와 같은 소형 모델의 등장은 이와는 다른 새로운 가능성을 제시합니다. 특히, 데이터의 품질과 학습 전략의 정교함이 모델 성능에 미치는 영향을 명확히 보여주며, 모델 크기 외적인 요소가 AI 발전에 얼마나 중요한지를 입증하고 있습니다.
Phi-4는 효율성과 특화성을 바탕으로 고품질 데이터를 활용하여 특정 작업(STEM 문제)에서 대형 모델과 견줄 수 있는 성능을 보여줍니다. 이는 "모델 크기가 성능을 결정짓는 유일한 요소가 아니다"라는 중요한 메시지를 전달합니다. 이러한 연구는 LLM 시장에 새로운 방향성을 제시하며, 앞으로는 단순히 모델 크기를 키우는 것에 집중하는 시대를 넘어설 가능성을 열어줍니다.

범용성에서의 한계

그러나 Phi-4는 특정 작업에서는 우수한 성과를 보이지만, 범용성에서는 아직 아쉬운 점이 드러납니다. 특히, 코드 생성과 일반 질의 응답에서의 성능은 기대에 미치지 못하며, 대형 모델 대비 부족함이 명확히 느껴집니다. 이는 Phi-4가 특정 영역에서는 최적화된 성능을 발휘하지만, 다양한 작업과 응용에서의 범용적인 활용성에는 아직 한계가 있다는 점을 보여줍니다.
Phi-4는 대형 모델이 가지는 "모든 것을 다 잘하는" 범용적 성격을 대체하기보다는, 특정 작업에 초점이 맞춰진 소형 특화 모델로 이해되어야 합니다. 이는 효율성과 성능 간의 균형을 맞춘 설계로 높은 평가를 받을 수 있지만, 대규모 언어 모델처럼 다양한 응용과 환경에서 동일한 수준의 성과를 내기는 어렵습니다.
결론적으로, Phi-4는 데이터 품질과 학습 효율성에서 중요한 가능성을 보여주었지만, 범용성을 요구하는 작업에서는 여전히 개선이 필요합니다.

저작자표시 비영리 변경금지 (새창열림)

히또's 데이터연구소