OSWorld
정의
GUI 기반 컴퓨터 사용 과제를 통해 모델의 실제 조작 능력을 평가하는 벤치마크
#OSWorld#컴퓨터 사용 벤치마크#GUI 벤치마크#Computer Use
OSWorld란?
OSWorld는 모델이 운영체제 화면을 이해하고 실제로 컴퓨터 작업을 수행하는 능력을 평가하는 벤치마크입니다. 클릭, 입력, 창 전환 같은 GUI 상호작용이 포함됩니다.
어떤 능력을 검증하나요?
지시 이해, 화면 상태 판단, 순서 기반 작업 실행, 실수 후 복구 같은 실제 사용 시나리오를 다룹니다. 그래서 일반 텍스트 QA 벤치마크와 성격이 다릅니다.
왜 중요한가요?
데스크톱 자동화, 업무 도우미, 컴퓨터 사용형 에이전트를 도입할 때 텍스트 성능만으로는 부족합니다. OSWorld는 실제 조작 능력을 보는 기준으로 쓰입니다.
AI 검색에 내 사이트는 노출되고 있을까?
ChatGPT·Perplexity·Gemini가 내 브랜드를 어떻게 답하는지 무료로 확인해 보세요.
지금 진단 시작 →관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
에이전틱 AI (Agentic AI)
스스로 목표를 분해하고 도구를 사용해 다단계 작업을 자율 수행하는 AI 시스템 범주
자연어 처리 (NLP)
연쇄 추론 유도 (Chain-of-Thought Elicitation)
모델이 답변 전 사고 과정을 단계별로 드러내도록 유도하는 프롬프트 기법
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계