업
크크벳

오늘 나온 GPT-4.5 요약

등급아이콘 레벨아이콘 유머자료 0 108 03.01 03:00

안구정화 그림

안구정화 그림
 

grok3한테 GPQA, AIME 벤치 10~30% 격차정도로 따임. (심지어 AIME 벤치는 grok3 mini한테 밀리는 모습)

 

 

안구정화 그림

에이전트 코딩 벤치도 sonnet 3.7한테 따이고, 몇달전에 출시된 sonnet 3.6이라고 놀림받는 sonnet 3.5(new) 랑 비비는 모습

 

 

안구정화 그림

안구정화 그림

​arc-agi 벤치 또한 sonnect 3.7과 점수는 거의 동일한데 비해 cost per task(가격 대비) 측면에서 압도적으로 뒤떨어짐

 

 

안구정화 그림

가격은.....10~30배 이상 상승

 

 

1. 기존의 모델 크기(파라미터 수, 층 쌓기)와 컴퓨팅 파워만을 늘리는 스케일 법칙은 더 이상 유효하지 않을 가능성이 굉장히 높다.

 

2. openai는 더 이상 "베이스모델" 에서의 성능 이점을 잡고 있다고 보기 힘들다.


 

물론 여기서 말하는 베이스모델은 test time compute 추론모델을 제외한 것이며, 추론모델은 아직까지 지표상으로는 o3가 가장 높지만.

Comments

번호 제목 글쓴이 날짜 조회
10202 母와 女의 차이 등급아이콘 레벨아이콘 유머자료 03.01 113
10201 우리가 5살 이전을 기억못하는 이유 등급아이콘 레벨아이콘 유머자료 03.01 116
10200 고기 매니아들 사이에서 반반 갈린다는 질문 등급아이콘 레벨아이콘 유머자료 03.01 114
10199 흔한 남편의 와이프 자랑 등급아이콘 레벨아이콘 유머자료 03.01 139
10198 농장에서 탈출한 암소 ㅠㅠ 등급아이콘 레벨아이콘 유머자료 03.01 113
10197 암호화폐 거래소 업비트 근황 .jpg 등급아이콘 레벨아이콘 유머자료 03.01 114
10196 백종원 유튜브 댓글 근황 등급아이콘 레벨아이콘 유머자료 03.01 113
10195 초콜렛으로 무엇이든 만든다!! 등급아이콘 레벨아이콘 유머자료 03.01 108
10194 며느리덕에 63빌딩 처음 가본 시부모님 등급아이콘 레벨아이콘 유머자료 03.01 207
10193 미국에선 부자들의 상징이라는 <커튼 열고 사는 삶>.jpg 등급아이콘 레벨아이콘 유머자료 03.01 93
10192 동네에 하나씩 꼭 있는 호프집 등급아이콘 레벨아이콘 유머자료 03.01 110
10191 머스크의 DOGE가 없앴다는 미국 공공부서 목록은 진실일까? 등급아이콘 레벨아이콘 유머자료 03.01 119
10190 유튜브 수입막혔으니 합의금땡기겠다 이거군 등급아이콘 레벨아이콘 유머자료 03.01 89
10189 백종원 기사 근황 등급아이콘 레벨아이콘 유머자료 03.01 105
10188 신입사원 미경이 등급아이콘 레벨아이콘 유머자료 03.01 102
10187 근래 나혼자산다 반응 제일 좋은 출연자의 하루..jpg 등급아이콘 레벨아이콘 유머자료 03.01 190
10186 현재 큰일 났다는 ADHD 환자들 등급아이콘 레벨아이콘 유머자료 03.01 117
10185 역효과 나서 바이럴이 되어버린 1점 리뷰 등급아이콘 레벨아이콘 유머자료 03.01 113
10184 카놀라유 이름의 어원 등급아이콘 레벨아이콘 유머자료 03.01 118
열람중 오늘 나온 GPT-4.5 요약 등급아이콘 레벨아이콘 유머자료 03.01 109