2025.09.25 (목)

  • 맑음동두천 25.8℃
  • 구름조금강릉 27.3℃
  • 맑음서울 26.6℃
  • 구름많음대전 25.0℃
  • 흐림대구 22.6℃
  • 흐림울산 23.8℃
  • 구름많음광주 24.8℃
  • 흐림부산 27.2℃
  • 구름조금고창 25.2℃
  • 제주 24.5℃
  • 구름많음고산 25.2℃
  • 흐림성산 25.1℃
  • 구름많음서귀포 29.5℃
  • 맑음강화 25.7℃
  • 구름많음보은 24.4℃
  • 구름많음금산 25.9℃
  • 구름많음강진군 26.3℃
  • 흐림경주시 22.1℃
  • 구름많음거제 25.3℃
기상청 제공

경제

삼성전자, AI 업무 생산성 벤치마크 트루벤치 공개

삼성전자가 자체 개발한 AI 업무 생산성 벤치마크 ‘트루벤치(TRUEBench, Trustworthy Real-world Usage Evaluation Benchmark)’를 공개했다. 이번 벤치마크는 삼성전자 DX부문 선행 연구개발 조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 토대로 개발한 것으로, 실제 오피스 환경에서 AI 모델의 업무 생산성 성능을 평가하는 데 초점을 맞췄다.

 

 

삼성전자는 기존 AI 벤치마크가 주로 영어 중심의 단발성 대화 위주로 구성돼 실제 업무 활용도를 반영하기 어렵다는 한계를 지적했다. 이에 트루벤치는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 기업 실무와 밀접한 10개 카테고리, 46개 업무, 2485개 세부 항목으로 평가 기준을 세분화했다. 이를 통해 짧은 요청부터 최대 2만 자 분량의 장문 요약까지 실제 비즈니스 상황을 폭넓게 다룬다.

 

트루벤치는 한 번에 최대 5개 AI 모델을 비교할 수 있으며, 응답 길이 등 효율성 지표까지 제공해 성능을 다각도로 확인할 수 있다. 또한 총점뿐 아니라 카테고리별 세부 점수까지 공개해 기존 벤치마크보다 정밀한 평가가 가능하다. 지원 언어는 영어, 한국어, 일본어, 중국어, 스페인어 등 12개 언어이며, 여러 언어가 혼합된 교차 언어 번역 평가도 지원한다.

 

삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 트루벤치 데이터 샘플과 리더보드를 공개해 전 세계 연구자와 개발자가 결과를 공유하고 비교할 수 있도록 했다. 평가 기준 검증에는 AI를 활용해 오류나 편향을 줄이고 일관성을 높였으며, 교차 검증을 통해 지속적으로 정교화를 추진하고 있다.

 

전경훈 삼성리서치장은 “트루벤치는 실제 업무 생산성 측면에서 AI 모델을 평가할 수 있는 새로운 기준을 제시한다”며 “이를 통해 삼성전자의 AI 기술 리더십을 강화하고 글로벌 시장에서 생산성 AI의 새로운 표준을 만들어 나가겠다”고 밝혔다.

 

기업이 업무 생산성을 고려해 AI를 도입할 때 객관적 지표를 확보할 수 있다는 점이 주목된다.