AI 벤치마크 OpenAI | | 약 12분 분량

GPT-5.5는 정말 최강 AI일까: 벤치마크 점수와 실무의 간극

점수표는 분명 좋아졌습니다. 하지만 어떤 시험에서 이겼고, 어떤 시험에서 졌는지를 나눠 보면 실무 선택 기준은 조금 달라집니다.

벤치마크 막대그래프와 코드 리뷰 화면이 나란히 놓인 AI 모델 평가 이미지
커버 이미지: AI 이미지 생성 도구로 제작한 에디토리얼 일러스트 (META TOUR 편집부 제작)

새 AI 모델이 나오면 발표 자료에는 늘 막대그래프가 먼저 등장합니다. GPT-5.5도 그랬습니다. OpenAI는 2026년 4월 23일 GPT-5.5를 공개했고, 다음 날 API 제공을 시작했습니다. 발표 자료만 보면 에이전트형 코딩, 지식 업무, 장문 처리에서 전작보다 또렷하게 올라섰습니다.

그런데 점수표를 자세히 보면 다른 신호도 있습니다. GPT-5.5는 Terminal-Bench 2.0과 GDPval에서는 Claude Opus 4.7을 앞섰지만, 실제 코드베이스 수정에 더 가까운 SWE-Bench Pro에서는 58.6%로 Opus 4.7의 64.3%보다 낮았습니다. 이후 2026년 5월 28일 나온 Claude Opus 4.8은 같은 항목에서 69.2%를 기록했습니다.

GPT-5.5가 내세운 것

OpenAI는 GPT-5.5를 복잡한 전문 업무와 코딩에 맞춘 프런티어 모델로 설명합니다. 개발자 문서 기준으로 gpt-5.5는 텍스트와 이미지 입력을 지원하고, 105만 토큰 컨텍스트 창과 12만 8천 토큰 최대 출력을 제공합니다. Responses API에서는 웹 검색, 파일 검색, 이미지 생성, 코드 인터프리터, 호스티드 셸, 컴퓨터 사용, MCP 같은 도구도 지원합니다.

발표의 핵심은 에이전트형 작업 성능입니다. OpenAI 발표 표에서 GPT-5.5는 Terminal-Bench 2.0 82.7%, GDPval 84.9%, CyberGym 81.8%를 기록했습니다. 같은 표에서 Claude Opus 4.7은 각각 69.4%, 80.3%, 73.1%였습니다. 터미널 환경에서 작업을 수행하거나 지식 노동 과제를 처리하는 시험에서는 신형 모델의 강점이 분명히 보입니다.

GDPval과 Terminal-Bench 2.0은 GPT-5.5가 앞서고, SWE-Bench Pro는 Claude Opus 4.7이 앞선 막대그래프입니다. 출시 시점 비교: GPT-5.5 vs Claude Opus 4.7 GPT-5.5 Opus 4.7 84.9 80.3 GDPval 82.7 69.4 Terminal-Bench 2.0 58.6 64.3 SWE-Bench Pro
출처: OpenAI GPT-5.5 발표 및 개발자 문서, 2026년 6월 3일 확인.

이 그래프의 핵심은 평균이 아닙니다. 어떤 종류의 일을 측정했는지입니다. GPT-5.5가 앞선 항목은 도구를 쓰고, 맥락을 따라가고, 여러 단계를 수행하는 능력에 가깝습니다. 반대로 뒤진 항목은 실제 저장소의 문제를 고치고 테스트를 통과시키는 코드 수정 완성도에 더 가깝습니다.

그래서 GPT-5.5를 평가할 때는 "코딩 모델"이라는 한 단어로 묶으면 안 됩니다. 터미널에서 여러 명령을 실행하고 자료를 찾고 결과를 정리하는 작업은 에이전트형 작업입니다. 반면 운영 중인 저장소에서 여러 파일의 의존성을 맞추고, 테스트 실패를 줄이고, 기존 스타일을 지키는 일은 코드 수정 작업입니다. 두 작업은 모두 개발자 업무 안에 있지만 실패 방식이 다릅니다.

평가 항목 GPT-5.5 신호 실무에서 읽는 법
Terminal-Bench 2.0 82.7%로 Opus 4.7보다 높음 명령 실행, 도구 사용, 단계적 문제 해결에 강점이 있습니다.
GDPval 84.9%로 Opus 4.7보다 높음 지식 업무, 보고서형 판단, 자료 해석에 유리한 신호입니다.
SWE-Bench Pro 58.6%로 Opus 4.7보다 낮음 복잡한 저장소 패치, 여러 파일 수정, 테스트 통과는 별도 검증이 필요합니다.

실제 코딩 시험에서 갈린 점수

SWE-Bench Pro는 이 글에서 가장 중요한 신호입니다. OpenAI 발표의 코딩 평가 표에서 GPT-5.5는 SWE-Bench Pro 58.6%를 기록했습니다. 같은 표의 Claude Opus 4.7은 64.3%였습니다. 신형 모델이 모든 코딩 시험에서 이긴 것이 아니라, 하필 실제 코드베이스 수정에 가까운 항목에서 경쟁사 구형 모델보다 낮은 점수를 낸 셈입니다.

이 차이는 "GPT-5.5가 코딩을 못한다"는 뜻이 아닙니다. 오히려 Terminal-Bench 2.0에서는 GPT-5.5가 크게 앞섭니다. 다만 터미널 작업을 잘하는 것과 여러 파일을 정확히 고쳐서 완성도 높은 패치를 만드는 것은 같은 일이 아닙니다. 실무에서 개발자가 체감하는 품질은 후자에 더 가까운 경우가 많습니다.

예를 들어 "로그를 보고 원인 후보를 세 가지로 정리해줘" 같은 요청은 GPT-5.5가 잘할 가능성이 큽니다. 문제를 구조화하고, 관련 명령을 제안하고, 다음 확인 순서를 만드는 일이기 때문입니다. 반대로 "이 인증 모듈을 새 라이브러리로 바꾸고 테스트까지 맞춰줘"는 훨씬 어렵습니다. 기존 코드 스타일, 예외 처리, 테스트 픽스처, 타입 정의, 배포 영향까지 동시에 맞춰야 합니다.

SWE-Bench Pro가 중요한 이유도 여기에 있습니다. 이 시험은 단순 알고리즘 문제보다 실제 저장소 수정에 가까운 과제를 다룹니다. 그래서 점수 차이가 바로 모든 팀의 결과 차이로 이어진다고 단정할 수는 없지만, "큰 코드베이스를 맡길 때 더 세게 확인해야 한다"는 경고로는 충분합니다.

읽는 법

AI 모델 벤치마크는 "높은 점수"보다 "내 업무와 닮은 시험인가"가 중요합니다. 문서 분석과 장문 리서치가 많다면 GPT-5.5의 긴 문맥과 도구 사용 능력이 더 의미 있고, 코드 수정 완성도가 핵심이라면 SWE-Bench Pro의 약세를 더 무겁게 봐야 합니다.

실무자들이 말하는 게으른 코딩

벤치마크 밖에서 나온 불만도 있습니다. 개발자 커뮤니티에서는 GPT-5.5가 긴 수정 요청을 받았을 때 코드를 일부만 돌려주거나, 핵심 부분을 생략하거나, "나머지는 기존과 동일"처럼 처리한다는 경험담이 나왔습니다. 이런 현상을 흔히 게으른 코딩이라고 부릅니다.

이 대목은 조심해서 읽어야 합니다. 사용자 보고는 정량 벤치마크가 아닙니다. 프롬프트가 모호했을 수도 있고, 사용자가 너무 큰 범위를 한 번에 맡겼을 수도 있고, 모델이 실제로 약했을 수도 있습니다. 따라서 "GPT-5.5는 항상 코드를 덜 한다"는 결론으로 쓰면 안 됩니다.

다만 이 경험담은 SWE-Bench Pro 약세와 같은 방향을 가리킵니다. 둘 다 "겉으로는 작업이 진행된 것처럼 보이지만, 실제로는 마지막 완성도가 부족할 수 있다"는 신호입니다. 개발자가 AI를 쓸 때 가장 위험한 순간은 모델이 틀리는 순간이 아닙니다. 덜 끝낸 작업을 끝낸 것처럼 보이게 만드는 순간입니다.

그래서 GPT-5.5로 코딩을 시킬 때는 요청 방식을 바꾸는 편이 낫습니다. "전체를 알아서 고쳐줘"보다 "수정 범위를 파일별로 먼저 계획해줘", "패치 전후로 테스트해야 할 항목을 표로 써줘", "생략 없이 바뀐 함수 전체를 보여줘"처럼 확인 가능한 산출물을 요구해야 합니다. 모델이 강해질수록 사람의 검토 기준도 더 구체적이어야 합니다.

6주 만에 바뀐 순위

벤치마크 1위라는 문구에는 유효기간이 있습니다. GPT-5.5 공개 후 약 5주가 지난 2026년 5월 28일, Anthropic은 Claude Opus 4.8을 공개했습니다. Anthropic은 Opus 4.8이 전작보다 여러 벤치마크에서 개선됐고 같은 가격으로 제공된다고 설명했습니다.

Vellum이 Claude Opus 4.8 시스템 카드 기반으로 정리한 SWE-Bench Pro 표에 따르면 Opus 4.8은 69.2%를 기록했습니다. GPT-5.5의 58.6%보다 10.6포인트 높습니다. 한 달 남짓한 기간에 "최신 모델"의 비교 구도가 다시 바뀐 것입니다.

Claude Opus 4.8, Claude Opus 4.7, GPT-5.5의 SWE-Bench Pro 점수를 비교한 가로 막대그래프입니다. SWE-Bench Pro: 코드 수정 완성도 신호 Opus 4.8 69.2 2026-05-28 공개 Opus 4.7 64.3 GPT-5.5 출시 시점 비교 대상 GPT-5.5 58.6
출처: OpenAI 발표, Anthropic 발표, Vellum의 Claude Opus 4.8 벤치마크 정리, 2026년 6월 3일 확인.

이 장면은 GPT-5.5의 실패라기보다 AI 모델 시장의 속도를 보여줍니다. 순위표는 상태가 아니라 스냅숏입니다. 한 번의 발표 자료로 장기 도입을 결정하기보다, 주기적으로 같은 내부 작업 세트에서 다시 재는 습관이 더 중요합니다. Claude Opus 4.8 자체 변화는 Claude Opus 4.8 출시 분석에서 따로 정리했습니다.

그래도 GPT-5.5가 잘하는 일

GPT-5.5를 낮게 평가할 이유만 있는 것은 아닙니다. 오히려 강점은 꽤 선명합니다. 첫째는 긴 문맥 처리입니다. 개발자 문서 기준 gpt-5.5는 105만 토큰 컨텍스트 창을 지원합니다. 긴 계약서, 여러 문서 묶음, 대형 코드베이스 설명 자료를 한 번에 넣고 질의하는 작업에서는 이 숫자가 실제 체감으로 이어질 수 있습니다.

둘째는 일상형 ChatGPT 기본 모델의 정확도 개선입니다. OpenAI는 2026년 5월 5일 GPT-5.5 Instant를 ChatGPT 기본 모델로 적용한다고 발표했습니다. 이 발표에서 GPT-5.5 Instant는 의학, 법률, 금융 같은 고위험 프롬프트에 대한 내부 평가에서 GPT-5.3 Instant보다 환각성 주장을 52.5% 줄였다고 설명했습니다.

다만 이 수치는 OpenAI 내부 평가입니다. 독립 기관이 같은 조건에서 재현한 결과가 아니라는 점을 함께 봐야 합니다. 그래서 "환각이 절반 사라졌다"가 아니라 "OpenAI가 정한 특정 내부 평가에서 환각성 주장이 크게 줄었다"로 읽는 것이 안전합니다. AI 환각을 줄이는 질문 습관은 환각 줄이는 프롬프트 습관에서 더 자세히 다뤘습니다.

강점 확인된 신호 실무 해석
긴 문맥 105만 토큰 컨텍스트 창 긴 문서 묶음, 대형 프로젝트 설명, 복잡한 자료 비교에 유리합니다.
도구 사용 웹 검색, 파일 검색, 코드 인터프리터, 컴퓨터 사용, MCP 지원 단순 답변보다 여러 단계를 거치는 업무 보조에 가깝습니다.
일상 답변 정확도 GPT-5.5 Instant 내부 평가에서 환각성 주장 52.5% 감소 고위험 정보는 여전히 출처 검증이 필요하지만, 기본 모델 품질 개선 신호로 볼 수 있습니다.

가격이라는 또 다른 현실

실무 도입에서 벤치마크만큼 중요한 것은 가격입니다. OpenAI 개발자 문서 기준 gpt-5.5의 표준 API 가격은 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러입니다. gpt-5.4는 입력 2.5달러, 출력 15달러이므로 표준 단가는 정확히 두 배입니다.

더 중요한 부분은 장문 요율입니다. OpenAI 문서는 gpt-5.5에서 입력 프롬프트가 27만 2천 토큰을 넘으면 전체 세션에 대해 입력 2배, 출력 1.5배 요율이 적용된다고 설명합니다. GPT-5.5의 강점인 긴 문맥 작업이 바로 이 구간에 들어갈 수 있습니다.

모델 입력 100만 토큰 출력 100만 토큰 메모
gpt-5.5 $5.00 $30.00 표준 요율
gpt-5.5 장문 세션 $10.00 $45.00 입력 27만 2천 토큰 초과 시
gpt-5.5-pro $30.00 $180.00 고정확도 작업용 상위 모델
gpt-5.4 $2.50 $15.00 직전 세대 비교

따라서 "긴 문서도 한 번에 넣을 수 있다"는 말은 장점이면서 비용 리스크입니다. 긴 문맥을 실제로 자주 쓴다면, 모델 단가보다 작업 하나를 끝내는 데 든 총 토큰량과 재작업 시간을 함께 계산해야 합니다.

간단한 예를 들어 보겠습니다. 긴 리서치 자료를 넣고 30만 토큰 프롬프트를 보내면 장문 요율 구간에 들어갑니다. 이 경우 입력 토큰은 표준 5달러가 아니라 10달러 기준으로 계산됩니다. 출력도 표준 30달러가 아니라 45달러 기준입니다. 한 번의 요청만 보면 큰 금액이 아닐 수 있지만, 팀 단위로 하루 수십 번 반복하면 월 비용은 빠르게 커집니다.

반대로 비용을 토큰 단가로만 봐도 안 됩니다. GPT-5.5가 긴 문서를 한 번에 읽어 사람의 자료 정리 시간을 줄인다면, 더 비싼 단가가 오히려 총비용을 낮출 수도 있습니다. 중요한 것은 모델 가격표가 아니라 "한 작업을 끝내는 데 들어간 총비용"입니다. 여기에는 API 비용, 사람이 다시 검토한 시간, 틀린 결과를 고친 시간까지 포함해야 합니다.

업무별로 어떻게 골라야 하나

결국 선택 기준은 모델 이름이 아니라 작업 종류입니다. GPT-5.5는 장문과 도구 사용에 강점이 있고, 코드 수정 완성도에서는 더 강한 검증이 필요합니다. 이 차이를 업무별로 나누면 판단이 훨씬 쉬워집니다.

업무 GPT-5.5 적합도 운영 팁
긴 문서 요약·비교 높음 출처별 요약, 쟁점 표, 불확실한 부분 표시를 같이 요구합니다.
리서치와 보고서 초안 높음 최신 수치와 날짜는 별도 출처 확인 단계로 분리합니다.
테스트 실패 원인 분석 중간 이상 로그, 최근 변경 파일, 재현 명령을 함께 주고 원인 후보를 좁힙니다.
여러 파일 코드 수정 주의 필요 패치 전 계획, 수정 파일 목록, 테스트 기준을 먼저 요구합니다.
대규모 마이그레이션 검증 필수 한 번에 맡기지 말고 모듈 단위로 나눠 사람 리뷰를 붙입니다.

개인 사용자는 더 단순하게 볼 수 있습니다. 긴 글을 읽히고, 회의록을 정리하고, 자료를 비교하고, 복잡한 질문을 단계별로 풀어야 한다면 GPT-5.5의 장점이 드러납니다. 반대로 실제 코드 변경을 맡길 때는 "완료"라는 답을 그대로 믿기보다, 테스트와 diff를 직접 확인해야 합니다.

조직은 작은 평가 세트를 만들어 두는 편이 좋습니다. 예를 들어 최근 2주 동안 사람이 실제로 처리한 업무 10개를 고릅니다. 문서 요약 3개, 데이터 분석 2개, 코드 리뷰 2개, 버그 수정 2개, 고객 응대 초안 1개처럼 섞습니다. 같은 입력을 기존 모델과 GPT-5.5에 넣고, 완수율·수정 시간·비용·검토자 만족도를 기록합니다. 이 정도만 해도 발표 자료보다 훨씬 현실적인 판단이 가능합니다.

그래서 GPT-5.5를 써야 할까

작업이 긴 문서 읽기, 다단계 리서치, 도구를 쓰는 업무 보조라면 GPT-5.5는 테스트할 가치가 큽니다. 컨텍스트 창이 크고, 공식 문서상 도구 지원 범위도 넓습니다. ChatGPT 기본 모델로 들어온 GPT-5.5 Instant도 일상 답변 정확도 개선이라는 분명한 방향을 보여줍니다.

반대로 여러 파일을 정확히 고치는 코딩 작업이 핵심이라면 더 조심스럽게 봐야 합니다. GPT-5.5가 Terminal-Bench에서는 강하지만 SWE-Bench Pro에서는 Opus 4.7과 Opus 4.8보다 낮은 점수를 냈기 때문입니다. 코드 생성보다 코드 수정, 테스트 통과, 리뷰 품질이 중요한 팀이라면 자체 평가가 필요합니다.

가장 현실적인 방법은 작은 비교 실험입니다. 최근 실제 작업 5개를 골라 같은 입력을 기존 모델과 GPT-5.5에 넣고, 완수율, 오류 수, 수정 후 재작업 시간, 토큰 비용을 기록합니다. 순위표보다 이 표가 더 정확한 벤치마크입니다.

자주 묻는 질문

GPT-5.5는 언제 출시됐나요?

OpenAI는 2026년 4월 23일 GPT-5.5를 공개했습니다. 2026년 4월 24일 업데이트에서 API 제공도 시작됐다고 밝혔습니다.

GPT-5.5가 모든 벤치마크에서 1위인가요?

아닙니다. OpenAI 발표 기준 Terminal-Bench 2.0과 GDPval에서는 Claude Opus 4.7보다 높았지만, SWE-Bench Pro에서는 GPT-5.5가 58.6%, Opus 4.7이 64.3%였습니다.

Claude Opus 4.8이 GPT-5.5보다 낫다는 뜻인가요?

코드 수정 완성도에 가까운 SWE-Bench Pro 기준으로는 Opus 4.8이 앞섭니다. 다만 긴 문맥, 도구 사용, 일상 답변 정확도처럼 GPT-5.5가 강점을 보이는 영역도 있어 작업 종류별로 판단해야 합니다.

GPT-5.5 API 가격은 얼마인가요?

2026년 6월 3일 OpenAI 개발자 문서 기준 gpt-5.5 표준 가격은 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러입니다. 입력이 27만 2천 토큰을 넘는 장문 세션은 입력 2배, 출력 1.5배 요율이 적용됩니다.

일반 ChatGPT 사용자도 GPT-5.5를 쓰나요?

OpenAI는 2026년 5월 5일 GPT-5.5 Instant를 ChatGPT의 기본 모델로 적용한다고 발표했습니다. 유료 사용자는 이전 GPT-5.3 Instant를 일정 기간 설정에서 계속 사용할 수 있습니다.

결론: 모델 순위보다 내 작업의 재현성이 중요합니다

GPT-5.5는 강한 모델입니다. 긴 문맥, 도구 사용, 일상형 정확도 개선은 실무에서 분명한 의미가 있습니다. 하지만 "최강"이라는 한 단어로 부르기에는 점수표가 더 복잡합니다. 특히 SWE-Bench Pro에서 드러난 약점과 빠르게 바뀌는 경쟁 구도는 무시하기 어렵습니다.

오늘 해볼 일은 단순합니다. 내가 자주 시키는 작업 표본 몇 개를 정하고, GPT-5.5와 기존 모델에 같은 입력을 던져 보세요. 비용, 재작업 시간, 오류 수를 적으면 됩니다. 그 기록이 발표 자료보다 나에게 더 정확한 벤치마크가 됩니다.

참고 자료

  1. OpenAI, "Introducing GPT-5.5", 2026-04-23, retrieved 2026-06-03, 자료 보기
  2. OpenAI API Docs, "GPT-5.5 Model", retrieved 2026-06-03, 자료 보기
  3. OpenAI API Docs, "Pricing", retrieved 2026-06-03, 자료 보기
  4. OpenAI, "GPT-5.5 Instant: smarter, clearer, and more personalized", 2026-05-05, retrieved 2026-06-03, 자료 보기
  5. Anthropic, "Introducing Claude Opus 4.8", 2026-05-28, retrieved 2026-06-03, 자료 보기
  6. Vellum, "Claude Opus 4.8 Benchmarks Explained", 2026-05-28, retrieved 2026-06-03, 자료 보기