반응형

2025/02 4

Prompt-to-Prompt Image Editing with Cross Attetion Control 리뷰

0. Abstract대규모 텍스트 기반 이미지 합성 모델의 발전관련 기술에 대한 수요로 주목받고 있으나, 텍스트 프롬프트의 작은 변화에도 결과가 크게 달라지는 문제 발생기존 이미지 편집 방법의 한계사용자가 편집 영역을 직접 마스크해야 하는 번거로움 존재 (Inpainting 기법)또한 편집되는 원본의 Attention 구조를 받아오지 못해 실제 결과랑 이질감이 발생마스크 내부의 구조적 정보를 효과적으로 활용하지 못함주장하는 방법prompt-to-prompt 로 직관적으로 이미지를 편집할 수 있는 새로운 방법 개발1. Introdution 그림 1은 Prompt-to-Prompt 편집 기능의 다양성을 보여주는 예시 그림 사용자는 텍스트 프롬프트만으로 이미지 픽셀 공간에 대한 어떠한 정보 없이 diffusi..

paper review 2025.02.24

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 리뷰

0. Abstract최근 text-to-image 생성 모델은 다양한 시각적인 창의성을 발휘할 수 있도록 했지만 스토리 시각화, 게임 개발, 에셋 디자인, 광고 등과 같은 실생활 문제들에 적용될 수 있는 일관된 캐릭터 (consistent character) 생성에는 어려움이 있음본 논문에서는 일관된 캐릭터 생성을 자동으로 수행할 수 있는 기법을 제안입력으로는 오직 텍스트 프롬프트만을 사용반복적인 과정을 수행하며 각 단계마다 유사한 특성을 가지는 연관된 이미지 세트를 식별하고 해당 세트로부터 일관된 특성을 추출정량적 결과에서 프롬프트 일치도와 특성 유지 사이에서 기존 베이스라인 기법들보다 더 균형있는 결과를 보임1. IntroductionText-to-Image 생성 모델의 능력은 갈수록 인상적으로 되고..

paper review 2025.02.18

GPT에 돈 아끼는법! deep-research 리뷰

안녕하세요 오늘은 deep-research라는 openai에서 월 200$요금제에서  쓸 수 있는 모델을 오픈소스로 구현하여 LLM모델을 붙이기만 하면 쓸 수 있는 레포지토리를 발견하여 소개하고자 합니다. https://github.com/dzhng/deep-research GitHub - dzhng/deep-research: An AI-powered research assistant that performs iterative, deep research on any topic by combiningAn AI-powered research assistant that performs iterative, deep research on any topic by combining search engines, web..

Contents 2025.02.17

이제 영어 못한다고 논문 안읽겠단 핑계 대지말자. PDFMathTranslate 리뷰

안녕하세요 평소같이 간간히 링크드인을 보다가 pdf양식이 깨지지 않게 논문을 번역해주는 오픈소스를 소개하는 글을 발견했습니다.늘 영어에 막혀 논문의 10%도 제대로 이해 못하는 경우가 많았는데, 영어라는 언어 장벽 때문에 논문의 내용 대부분을 놓치곤 하던 제게 정말 반가운 소식이었습니다.  PDFMathTranslate란?PDFMathTranslate는 PDF 형태의 논문이나 과학 자료를 번역할 때, 원본의 레이아웃, 수식, 이미지 등 모든 요소를 깔끔하게 보존해주는 혁신적인 도구입니다. GitHub 페이지에서 “PDF scientific paper translation with preserved formats”라는 타이틀로 소개되고 있듯, 단순한 텍스트 번역을 넘어 포맷의 일관성을 유지해주는 점이 큰 ..

Contents 2025.02.10
반응형