삼성전자, AI 업무 생산성 벤치마크 트루벤치 공개

삼성전자가 자체 개발한 AI 업무 생산성 벤치마크 ‘트루벤치(TRUEBench, Trustworthy Real-world Usage Evaluation Benchmark)’를 공개했다. 이번 벤치마크는 삼성전자 DX부문 선행 연구개발 조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 토대로 개발한 것으로, 실제 오피스 환경에서 AI 모델의 업무 생산성 성능을 평가하는 데 초점을 맞췄다.

삼성전자는 기존 AI 벤치마크가 주로 영어 중심의 단발성 대화 위주로 구성돼 실제 업무 활용도를 반영하기 어렵다는 한계를 지적했다. 이에 트루벤치는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 기업 실무와 밀접한 10개 카테고리, 46개 업무, 2485개 세부 항목으로 평가 기준을 세분화했다. 이를 통해 짧은 요청부터 최대 2만 자 분량의 장문 요약까지 실제 비즈니스 상황을 폭넓게 다룬다.

트루벤치는 한 번에 최대 5개 AI 모델을 비교할 수 있으며, 응답 길이 등 효율성 지표까지 제공해 성능을 다각도로 확인할 수 있다. 또한 총점뿐 아니라 카테고리별 세부 점수까지 공개해 기존 벤치마크보다 정밀한 평가가 가능하다. 지원 언어는 영어, 한국어, 일본어, 중국어, 스페인어 등 12개 언어이며, 여러 언어가 혼합된 교차 언어 번역 평가도 지원한다.

삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 트루벤치 데이터 샘플과 리더보드를 공개해 전 세계 연구자와 개발자가 결과를 공유하고 비교할 수 있도록 했다. 평가 기준 검증에는 AI를 활용해 오류나 편향을 줄이고 일관성을 높였으며, 교차 검증을 통해 지속적으로 정교화를 추진하고 있다.

전경훈 삼성리서치장은 “트루벤치는 실제 업무 생산성 측면에서 AI 모델을 평가할 수 있는 새로운 기준을 제시한다”며 “이를 통해 삼성전자의 AI 기술 리더십을 강화하고 글로벌 시장에서 생산성 AI의 새로운 표준을 만들어 나가겠다”고 밝혔다.

기업이 업무 생산성을 고려해 AI를 도입할 때 객관적 지표를 확보할 수 있다는 점이 주목된다.

경제

삼성전자, AI 업무 생산성 벤치마크 트루벤치 공개

많이 본 기사

현대차 아이오닉 9, 독일 아우토 자이퉁 전동화 SUV 비교 평가서 경쟁 모델 제치고 호평

의정부시 세정과, 지방세 연구원 숏폼 공모전 최우수상…상금 200만 원 전액 기부

두산에너빌리티, 엑스-에너지 SMR 핵심 소재 예약 계약 체결…주기기 제작 단계 본격화

부산은행, 해수부 부산 이전 기념해 ‘내맘대로예금’ 특판…최대 연 3.00% 제공

염소고기 제품 생산업체 특별 점검에서 9곳 적발…위생·표시 위반 드러나

NFT

NFT의 진짜 경쟁자는 블록체인이 아니라 AI 자체다

NFT가 사라진 게 아니라 ‘백엔드 기술’이 되었다

NFT, 디지털 소유권의 약속과 환상 사이

한국 NFT 시장의 현재와 과제

NFT는 죽지 않았다 – 진화하는 디지털 자산의 미래

HK한담

내 손안의 행복은 안 보이더라

요즘 어른들은 너무 바쁘다

오늘을 무사히 건너는 게 행복이다

유튜브 1인 크리에이터 되는 법 — 콘텐츠보다 ‘구조’를 만들어라