Abstract 대규모 텍스트-이미지 모델 발전텍스트 프롬프트와 레퍼런스 이미지를 활용한 이미지 생성 기술이 주목받음평가 기준의 필요성이미지가 프롬프트의 핵심 개념과 레퍼런스 이미지의 특성을 정확히 반영해야 함기존 평가 지표의 한계DINO, CLIP: 전체 유사성은 측정하지만, 질감이나 얼굴 특징 등 세부 부분에서 인간 평가와 불일치우리의 아이디어: DREAMBENCH++인간 평가와 일치하는 평가 지표로 제시됨멀티모달 GPT 모델(예: GPT-4o)을 활용하여 자세한 평가 지침과 내부 사고 과정을 통해 점수를 산출개인화된 이미지 생성 평가의 한계를 극복하며, 인간 선호도에 가까운 결과 제공 Contribution & Method DINO의 한계점 시각화: 전체적인 형태나 색상은 잘 보존하는 이미지에 ..