를 적당히 샘플링하여 만들었음.
문제는, lm-eval 점수는 Meta의 것보다 낮으나, 실제로 정성평가를 해보면 나쁘지 않은 모델이었음.
Logickor는 ChatGPT api 금액을 다써서 실험 못해봄.
해당 모델은 DPO 학습되지 않았음.
Chat template
Files info
Base model