AI, 수능 국어 1등급 도달…추론 능력 비약적 향상
인공지능(AI)의 추론 능력이 상당히 향상되면서, 수능 국어 영역에서 1등급을 받을 수 있는 수준에 도달한 것으로 나타났다. 최근 발표된 '수능 국어 LLM 리더보드'에 따르면, 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 시험에서 원점수 97점을 기록하며 1등급 권에 진입했다. 이는 해당 모델이 수능 국어 문제에서 단 한 문제만 틀리고 모두 정답을 맞춘 것을 의미한다. 이 모델은 '화법과 작문' 과목을 선택하여 평가받았고, 이 과목의 예상 등급 컷은 93~95점으로 확인되었다.
기존의 AI 모델들은 복잡한 추론을 요하는 수능 국어 시험에서 주로 3~9등급 사이의 점수를 기록하는 데 그쳤다. 그러나 최근 AI의 추론 능력이 비약적으로 발전하면서, o1-프리뷰 모델은 높은 점수를 획득했다. 이전 모델인 GPT-4o는 지난해와 올해 수능에서 모두 중위권 수준인 4등급을 기록해 주목받지 못했다. 이번 테스트는 국내 AI 개발 기업 마커AI가 추진하며, 10년치 수능 국어 시험을 분석하는 데 목적이 있다.
테스트 과정에서는 이전 모델인 GPT-4o와 새로운 모델 o1-프리뷰의 성능이 비교되었다. 특히 다양한 관점이 담긴 비문학 지문을 포함한 문제에서 o1-프리뷰가 정답을 도출했으나 GPT-4o는 오답을 선택한 사례가 나타났다. o1-프리뷰는 지문을 읽고 주요 키워드를 정리한 후 문제에 접근한 반면, GPT-4o는 이러한 세부적인 과정 없이 바로 답변을 도출한 것으로 확인되었다.
또한 문학 영역의 문제에서도 o1-프리뷰만 정답을 도출한 사례가 있었다. 이 문제는 여러 지문을 비교 분석해야 하는 유형으로, 주어진 정보량이 많아 이해하기 어려운 구조였다. 국어 교사 출신의 전문가들은 이러한 복잡한 문제에서 AI가 세부적인 이해를 바탕으로 해야 할 필요성이 크다고 지적했다. 예를 들어, 지문의 분량이 길어지거나 지엽적인 부분을 찾아야 하는 문제는 시간이 더 필요하다고 전했다.
또한 o1-프리뷰 모델은 답변을 제공하는 데 시간이 더 걸리기도 했다. 22~27번 문제를 해결하기 위해 약 1분 10초가 소요되었으며, 이는 AI가 문제 해결에 있어 더 많은 시간을 고려하여 철저히 사고하는 훈련을 받았기 때문이다. 오픈AI는 '사람처럼 문제를 해결하기 위해 더 많은 시간을 생각하도록 훈련시켰다'고 설명했다. 다만 실제 사람보다 훨씬 빠른 속도로 문제를 해결할 수 있는 것으로 평가받고 있다.
이번 챗GPT의 수능 결과에 대해 AI 개발자들은 성능의 향상을 체감하며 흥미로운 성과라고 평가했다. 그러나 o1 모델의 추론 속도가 느리고 운영 비용이 높은 점을 지적하며 대규모 작업에는 적합하지 않다는 의견도 나왔다. 이러한 변화는 AI의 국어 영역 능력이 향후 인간의 언어능력을 초월할 가능성을 시사하고 있다.
│
이 포스트는 피시아(PHYSIA) 사에서 운영하는 게임메이커.KR 게임 개발 뉴스 블로그에서 작성되었으며, 공공의 이익에 기여하는 목적을 제외한 다른 용도의 무단 배포 및 수정을 금합니다. 참조 - 피시아(PHYSIA), 게임메이커.KR, 게임투비즈(GameToBiz), 게임S/W에이전시, 저널CTL코리아