AI 챗GPT o1-프리뷰, 수능 국어 1등급 성적 기록
오픈AI의 최신 모델인 챗GPT o1-프리뷰가 2025학년도 대학수학능력시험에서 국어 영역 1등급을 받을 수 있는 성능을 보여주었다. 19일 공개된 '수능 국어 LLM 리더보드'에 따르면 o1-프리뷰는 원점수 97점을 기록하며, 단 한 문제만 틀린 것으로 나타났다. 이 모델은 선택 과목으로 '화법과 작문'을 채택했으며, 해당 과목의 추정 등급 컷은 93~95점으로 알려졌다.
이전 AI 모델들은 수능 국어 시험에서 3~9등급 사이의 저조한 성적을 보였으나, o1-프리뷰는 비약적으로 발전한 추론 능력 덕분에 고득점을 기록하게 되었다. 과거 모델인 GPT-4o는 2023~2024학년도 수능에서 4등급을 기록하는 데 그쳤다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행되었으며, 10년간의 수능 국어 시험 데이터를 기반으로 LLM의 성능을 평가하는 것이 목표였다.
마커AI의 개발자는 블로그를 통해 o1-프리뷰가 97점을 기록한 것은 인간을 초월할 수 있는 언어 능력이 머지않았음을 시사한다고 언급했다. 테스트에서는 두 모델인 o1-프리뷰와 GPT-4o의 성능을 비교하기 위해 일부 수능 국어 문제를 제시했다. 비문학 지문에 대한 분석이 필요한 문제에서 o1-프리뷰는 적절한 키워드를 추출하여 정답을 도출했고, GPT-4o는 이 과정에서 어려움을 겪었다.
또한, 문학 문제에서도 o1-프리뷰만이 정답을 선정할 수 있었다. 이는 주어진 지문들을 비교·분석해야하는 방식으로, 두 모델이 비슷한 유형의 문제에서 결과 차이를 보인 사례였다. 국어 교사 출신인 교육 평가는 문제의 난이도를 설명하며, 복잡한 정보를 이해하는 데 어려움이 있을 수 있다고 말했다.
모의고사 출제 경험이 풍부한 연구원 역시 문제의 정보량이 많아 시간이 많이 소요될 수 있음을 지적했다. o1-프리뷰는 문제 해결에 시간이 더 걸렸으며, 6개의 문제를 풀기 위해 평균 1분 10초가 소요되었다. 오픈AI는 모델의 훈련 과정에서 문제 해결 전에 충분한 사고 시간을 주도록 조정했다고 설명했다.
한 AI 개발자는 o1-프리뷰 모델의 성능 향상이 인상적이라며, 성능이 개선된 것을 수치로 확인하게 되어 흥미롭다고 전했다. 그러나 그는 o1 모델의 느린 추론 속도와 높은 비용으로 인해 대규모 작업에는 적합하지 않을 것이라고 덧붙였다.
│
이 포스트는 피시아(PHYSIA) 사에서 운영하는 게임메이커.KR 게임 개발 뉴스 블로그에서 작성되었으며, 공공의 이익에 기여하는 목적을 제외한 다른 용도의 무단 배포 및 수정을 금합니다. 참조 - 피시아(PHYSIA), 게임메이커.KR, 게임투비즈(GameToBiz), 게임S/W에이전시, 저널CTL코리아