대답하기 전에 생각하는 오픈AI o1(오원)의 IQ는 얼마일까?

오픈AI는 지난 12일(현지시간) 블로그를 통해 추론 능력을 대폭 강화한 최신 모델 o1(오원) 프리뷰 버전과 미니 버전을 공개했다.

오픈 AI는 o1이 ‘딸기’라는 프로젝트를 통해 AI로는 처음으로 ‘대답하기 전에 생각하는’ 능력을 강화했다고 밝혔다. ‘사고 사슬’을 사용하여 생산적으로 사고하는 방법을 훈련하는 대규모 강화학습 알고리즘(LLM)을 적용한 결과다.

o1은 복잡한 작업을 추론하고 과학, 수학, 코딩에서 이전 모델보다 더 어려운 문제를 풀었다. o1의 추론 능력을 평가하기 위해 사람들이 치루는 여러 시험을 풀어봤다.

2024년 미국 수학 올림피아드(AIME) 시험에서는 83%를 받았다. AIME에 응시한 학생 3만 명 기준으로 500위 정도의 실력으로 상당히 높은 수학적 능력을 지닌 것이다. 이전 모델인 GPT-4o는 12%에 그쳤다.

물리학, 화학, 생물학 분야의 전문성을 측정하는 GPQA 다이아몬드 테스트에서도 박사학위 전문가 수준을 능가했다. 단 이 결과는 o1이 박사 학위 전문가가 풀 수 있는 일부 문제 수준을 더 잘 풀었다는 의미이며 모든 면에서 박사 학위보다 더 유능하지는 않다고 밝혔다.

AI의 성향을 추적하는 사이트인 AI트래킹은 노르웨이 멘사 테스트로 o1의 추론 능력을 평가했는데 아이큐(IQ)가 120으로 나타났다. 노르웨이 멘사 테스트는 일반적인 인지 능력을 85에서 145 사이의 점수로 표시한다. 사람의 평균 아이큐는 100이다. o1의 120은 전세계 인구 중 상위 9% 이내에 드는 수준이자, 사람의 평균 아이큐를 뛰어 넘은 최초의 인공지능이기도 하다.

하지만 IQ 테스트가 인간 사고의 복잡성과 다양성을 측정하는 데에는 한계가 있다. 샘 올트먼 오픈AI CEO는 o1에 대해 “여전히 결함이 있고 제한적”이라며 인간 수준의 AI인 범용인공지능(Artificial General Intelligence)을 개발하기 위한 하나의 과정이라고 설명했다.

Search

대답하기 전에 생각하는 오픈AI o1(오원)의 IQ는 얼마일까?

노르웨이 멘사 테스트에서 120 받아 상위 9% 수준, 범용인공지능을 향한 과정

공유하기