반응형

paper review 10

FFN FUSION: RETHINKING SEQUENTIAL COMPUTATION INLARGE LANGUAGE MODELS 리뷰

원문 https://arxiv.org/abs/2503.18908 FFN Fusion: Rethinking Sequential Computation in Large Language ModelsWe introduce FFN Fusion, an architectural optimization technique that reduces sequential computation in large language models by identifying and exploiting natural opportunities for parallelization. Our key insight is that sequences of Feed-Forward Networkarxiv.org Abstract대규모 언어 모델(LLM)의 확장..

paper review 2025.04.01

Multi-Concept Customization of Text-to-Image Diffusion 실습

Githubhttps://github.com/HelloAcorn/custom-diffusion-pogny custom-diffusion-pogny/outputs/txt2img-samples/samples at main · HelloAcorn/custom-diffusion-pognypogny 캐릭터로 학습 돌린 컨텐츠. Contribute to HelloAcorn/custom-diffusion-pogny development by creating an account on GitHub.github.com  참고 블로그Custom Diffusion 실습 Custom Diffusion 실습일단은 먼저 가상환경을 pyenv로 만들어 보자 conda가 default 로 설정 되었기 때문에 밑에 명령어를 통해 비활성..

paper review 2025.03.19

DREAMBENCH++: A Human-Aligned Benchmark for Personalized Image Generation 리뷰

Abstract 대규모 텍스트-이미지 모델 발전텍스트 프롬프트와 레퍼런스 이미지를 활용한 이미지 생성 기술이 주목받음평가 기준의 필요성이미지가 프롬프트의 핵심 개념과 레퍼런스 이미지의 특성을 정확히 반영해야 함기존 평가 지표의 한계DINO, CLIP: 전체 유사성은 측정하지만, 질감이나 얼굴 특징 등 세부 부분에서 인간 평가와 불일치우리의 아이디어: DREAMBENCH++인간 평가와 일치하는 평가 지표로 제시됨멀티모달 GPT 모델(예: GPT-4o)을 활용하여 자세한 평가 지침과 내부 사고 과정을 통해 점수를 산출개인화된 이미지 생성 평가의 한계를 극복하며, 인간 선호도에 가까운 결과 제공  Contribution & Method  DINO의 한계점 시각화: 전체적인 형태나 색상은 잘 보존하는 이미지에 ..

paper review 2025.03.18

Multi-Concept Customization of Text-to-Image Diffusion 리뷰

사전 지식 - Cross-attention Controlhttps://wzacorn.tistory.com/116 Prompt-to-Prompt Image Editing with Cross Attetion Control 리뷰0. Abstract대규모 텍스트 기반 이미지 합성 모델의 발전관련 기술에 대한 수요로 주목받고 있으나, 텍스트 프롬프트의 작은 변화에도 결과가 크게 달라지는 문제 발생기존 이미지 편집 방법의 한wzacorn.tistory.com이전에 관련해서 리뷰해둔 내용이 있으니 참고하면 좋을 것 같다.Inpainting 기법(지정한 영역의 이미지의 일부만을 생성)은 기존 attention map 정보가 없다는 단점을 보완하는 방식.prompt to prompt로 제어할 수 있는 강력한 장점 존재...

paper review 2025.03.04

Prompt-to-Prompt Image Editing with Cross Attetion Control 리뷰

0. Abstract대규모 텍스트 기반 이미지 합성 모델의 발전관련 기술에 대한 수요로 주목받고 있으나, 텍스트 프롬프트의 작은 변화에도 결과가 크게 달라지는 문제 발생기존 이미지 편집 방법의 한계사용자가 편집 영역을 직접 마스크해야 하는 번거로움 존재 (Inpainting 기법)또한 편집되는 원본의 Attention 구조를 받아오지 못해 실제 결과랑 이질감이 발생마스크 내부의 구조적 정보를 효과적으로 활용하지 못함주장하는 방법prompt-to-prompt 로 직관적으로 이미지를 편집할 수 있는 새로운 방법 개발1. Introdution 그림 1은 Prompt-to-Prompt 편집 기능의 다양성을 보여주는 예시 그림 사용자는 텍스트 프롬프트만으로 이미지 픽셀 공간에 대한 어떠한 정보 없이 diffusi..

paper review 2025.02.24

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 리뷰

0. Abstract최근 text-to-image 생성 모델은 다양한 시각적인 창의성을 발휘할 수 있도록 했지만 스토리 시각화, 게임 개발, 에셋 디자인, 광고 등과 같은 실생활 문제들에 적용될 수 있는 일관된 캐릭터 (consistent character) 생성에는 어려움이 있음본 논문에서는 일관된 캐릭터 생성을 자동으로 수행할 수 있는 기법을 제안입력으로는 오직 텍스트 프롬프트만을 사용반복적인 과정을 수행하며 각 단계마다 유사한 특성을 가지는 연관된 이미지 세트를 식별하고 해당 세트로부터 일관된 특성을 추출정량적 결과에서 프롬프트 일치도와 특성 유지 사이에서 기존 베이스라인 기법들보다 더 균형있는 결과를 보임1. IntroductionText-to-Image 생성 모델의 능력은 갈수록 인상적으로 되고..

paper review 2025.02.18

Direct Preference Optimization: Your Language Model is Secretly a Reward Model논문 리뷰.

안녕하세요 오늘 소개해드릴 논문 리뷰는 이미 많은 사람들이 리뷰한 논문인 Direct Preference Optimization: Your Language Model is Secretly a Reward Model입니다. 배경색은 의미를 내포하고 있습니다! 파란 배경 : 중요하다 생각하는 부분 빨간 배경 : 내 의견이 반영된 부분 기존 RLHF의 방법은 불안정한 절차, 사람의 견해가 들어간 비 일관성, 높은 리소스의 한계 등 여러 단점이 있었음. 하지만 DPO(직접 선호도 최적화) 방식을 통해 높은 안정성과 적은 리소스의 이점을 취하면서 본 논문에서 언급되겠지만, 일반적인 RLHF보다 좋은 퍼포먼스를 보여준다고 주장함. 논문 링크 : https://arxiv.org/abs/2305.18290 Direct..

paper review 2024.03.12

Large Language Models for Data Annotation: A Survey 논문 리뷰

안녕하세요 오늘 소개해드릴 논문 리뷰는 Large Language Models for Data Annotation: A Survey 입니다. 데이터 주석에 대한 다양한 관점에서 조사가 이루어졌고, 각 분야에 대한 최신 연구 동향을 소개해주는 논문입니다. 배경색은 의미를 내포하고 있습니다! 파란 배경 : 중요하다 생각하는 부분 빨간 배경 : 내 의견이 반영된 부분 논문 링크 : https://arxiv.org/abs/2402.13446 Abstract 데이터 주석은 머신러닝 모델의 성능을 향상시키기 위해 필수적인 과정입니다. 그러나 이 작업은 시간과 비용을 많이 소모합니다. 그렇기에 최신 LLM 모델인 GPT-4를 사용하여 자동화 하는 많은 방법론들이 탄생하고 있습니다. 이 백서는 데이터 주석을 위한 LL..

paper review 2024.03.05

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 논문 리뷰

오늘 리뷰할 논문은 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits입니다. Geeknews에서도 소개되었고, 유튜버 조코딩님께서도 라이브에서 언급했던 만큼 제법 이슈가 있고, 엣지 디바이스에서 LLM을 이용하여 서비스를 이용하고자 하는 사람들에게는 유용한 내용인 것 같아 소개해봅니다. 링크 https://news.hada.io/topic?id=13573 1비트 LLM 시대: 비용 효율적인 컴퓨팅을 위한 삼진 파라미터 | GeekNews 1비트 대형 언어 모델의 시대: 모든 대형 언어 모델은 1.58비트에 있다최근 연구인 BitNet은 1비트 대형 언어 모델(LLMs)의 새로운 시대를 열고 있음.이 연구에서는 모든 단일 매개변수(또는 가..

paper review 2024.03.05
반응형