Anthropic이 Claude Opus 4.7 기반 시각 디자인 도구를 출시하며 멀티모달 영역을 확장했다. 동시에 토큰 세분화로 세션당 비용이 20~30% 증가했으며, 오픈소스 Qwen3.6이 로컬 환경에서 이미지 생성 품질을 앞서는 벤치마크 결과도 등장했다.
| 지표 | 4.6 | 4.7 | 변화 |
|---|---|---|---|
| 평균 토큰 배율 | 1.0x | 1.3~1.45x | +30~45% |
| 80턴 세션 비용 | $6.65 | $7.86~$8.76 | +20~30% |
| IFEval 준수도 | 기준 | +5%p | 형식 오류 감소 |
| 가격 단가 | 변동 없음 | - | |
펠리컨 벤치마크는 풍자적 평가 방법으로 시작되었으나, 모델 일반화 능력과의 상관관계가 관측되어 왔다. 다만 이번 결과에 대해서는 Qwen의 과적합 가능성과 양자화 로컬 vs 클라우드 비교의 공정성 논란이 공존한다.