OpenAI는 대형 모델의 악의적인 행동을 막기 위해 CoT 모니터링을 해제합니다.

OpenAI가 최신 연구를 발표했습니다. CoT(생각하는 사슬) 모니터링을 사용하면 대형 모델이 말도 안 되는 소리를 하고 본심을 숨기는 등 악의적인 행동을 예방할 수 있습니다. 또한 슈퍼 모델을 모니터링하는 데 효과적인 도구 중 하나입니다. OpenAI는 새로 출시된 최첨단 모델 o3-mini를 모니터링 개체로 사용하고 약한 GPT-4o 모델을 모니터로 사용합니다. 테스트 환경은 코딩 작업으로, AI가 단위 테스트를 통과하기 위해 코드베이스에서 기능을 구현해야 합니다. 결과는 CoT 모니터가 체계적인 "보상 해킹" 동작을 감지할 때 성능이