OpenAI 오픈 소스 BrowseComp, 에이전트 브라우저 리뷰 재창조

오늘 새벽 2시에 OpenAI는 에이전트 브라우저 - BrowseComp의 기능 전용 테스트 벤치마크를 오픈 소싱했습니다. 이 테스트 벤치마크는 매우 어렵습니다. 심지어 OpenAI의 자체 GPT-4o와 GPT-4.5는 정확도가 0.6%, 0.9%에 거의 0에 불과하며 브라우저 기능이 있는 GPT-4o를 사용하는 경우에도 1.9%에 불과합니다. 하지만 OpenAI의 최신 에이전트 모델 딥 리서치는 정확도가 51.5%로 자율 검색, 정보 통합, 정확도 보정이 우수합니다. (AIGC