sweep 코맨드는 --pause 및 --resume 과 같은 플래그를 사용하여 새로운 W&B run 을 생성하는 스윕의 기능을 제어하며, 기존 run 에는 다음과 같은 각기 다른 영향을 미칩니다:
--pause: 스윕을 일시 중지하면, 스윕을 재개할 때까지 에이전트가 새로운 run 을 생성하지 않습니다. 기존에 실행 중인 run 은 정상적으로 계속 실행됩니다.--resume: 스윕을 재개하면, 에이전트가 탐색 전략에 따라 새로운 run 을 다시 생성하기 시작합니다.--stop: 스윕을 중지하면, 에이전트가 새로운 run 생성을 중단합니다. 기존에 실행 중인 run 은 완료될 때까지 계속됩니다.--cancel: 스윕을 취소하면, 에이전트가 현재 실행 중인 모든 run 을 즉시 종료하고 새로운 run 생성을 중단합니다.
스윕 일시 중지
새로운 run 생성을 일시적으로 중단하려면 스윕을 일시 중지합니다. 이미 실행 중인 run 은 완료될 때까지 계속 실행됩니다. 스윕을 일시 중지하려면wandb sweep --pause 코맨드를 사용하세요. 일시 중지하려는 스윕 ID를 입력합니다.
스윕 재개
일시 중지된 스윕을wandb sweep --resume 코맨드로 재개합니다. 스윕은 탐색 전략에 따라 다시 새로운 run 을 생성하기 시작합니다. 재개하려는 스윕 ID를 입력합니다:
스윕 중지
현재 실행 중인 run 은 정상적으로 종료되도록 두면서 새로운 run 생성을 중단하려면 스윕을 종료합니다.wandb sweep --stop 코맨드를 사용하세요:
스윕 취소
실행 중인 모든 run 을 즉시 종료하고 새로운 run 생성을 중단하려면 스윕을 취소합니다. 이는 기존 run 을 강제로 종료하는 유일한 스윕 코맨드입니다. 스윕을 취소하려면wandb sweep --cancel 코맨드를 사용하세요. 취소하려는 스윕 ID를 입력합니다.
스윕 및 run 상태 이해하기
Sweeps 는 하이퍼파라미터 조합을 탐색하기 위해 여러 run 을 조율합니다. 하이퍼파라미터 최적화를 효과적으로 관리하려면 스윕 상태와 run 상태가 어떻게 상호작용하는지 이해하는 것이 중요합니다.주요 차이점
- 스윕 상태는 새로운 run 의 생성 여부를 제어합니다 (Running, Paused, Stopped, Cancelled, Finished, Failed, Crashed)
- Run 상태는 개별 run 의 실행 상태를 나타냅니다 (Pending, Running, Finished, Failed, Crashed, Killed)
모범 사례
- 실행 중인 실험을 잃지 않고 탐색을 일시적으로 중단하고 싶을 때는 취소 대신
--pause를 사용하세요. - 시스템 오류를 식별하기 위해 개별 run 상태를 모니터링하세요.
- 만족스러운 하이퍼파라미터를 찾았을 때 정상적인 종료를 위해
--stop을 사용하세요. - Run 이 과도한 리소스를 소비하거나 오류를 생성하는 긴급 상황을 위해
--cancel을 남겨두세요.