반응형

전체 글 35

FFN FUSION: RETHINKING SEQUENTIAL COMPUTATION INLARGE LANGUAGE MODELS 리뷰

원문 https://arxiv.org/abs/2503.18908 FFN Fusion: Rethinking Sequential Computation in Large Language ModelsWe introduce FFN Fusion, an architectural optimization technique that reduces sequential computation in large language models by identifying and exploiting natural opportunities for parallelization. Our key insight is that sequences of Feed-Forward Networkarxiv.org Abstract대규모 언어 모델(LLM)의 확장..

paper review 2025.04.01

Multi-Concept Customization of Text-to-Image Diffusion 실습

Githubhttps://github.com/HelloAcorn/custom-diffusion-pogny custom-diffusion-pogny/outputs/txt2img-samples/samples at main · HelloAcorn/custom-diffusion-pognypogny 캐릭터로 학습 돌린 컨텐츠. Contribute to HelloAcorn/custom-diffusion-pogny development by creating an account on GitHub.github.com  참고 블로그Custom Diffusion 실습 Custom Diffusion 실습일단은 먼저 가상환경을 pyenv로 만들어 보자 conda가 default 로 설정 되었기 때문에 밑에 명령어를 통해 비활성..

paper review 2025.03.19

DREAMBENCH++: A Human-Aligned Benchmark for Personalized Image Generation 리뷰

Abstract 대규모 텍스트-이미지 모델 발전텍스트 프롬프트와 레퍼런스 이미지를 활용한 이미지 생성 기술이 주목받음평가 기준의 필요성이미지가 프롬프트의 핵심 개념과 레퍼런스 이미지의 특성을 정확히 반영해야 함기존 평가 지표의 한계DINO, CLIP: 전체 유사성은 측정하지만, 질감이나 얼굴 특징 등 세부 부분에서 인간 평가와 불일치우리의 아이디어: DREAMBENCH++인간 평가와 일치하는 평가 지표로 제시됨멀티모달 GPT 모델(예: GPT-4o)을 활용하여 자세한 평가 지침과 내부 사고 과정을 통해 점수를 산출개인화된 이미지 생성 평가의 한계를 극복하며, 인간 선호도에 가까운 결과 제공  Contribution & Method  DINO의 한계점 시각화: 전체적인 형태나 색상은 잘 보존하는 이미지에 ..

paper review 2025.03.18

Multi-Concept Customization of Text-to-Image Diffusion 리뷰

사전 지식 - Cross-attention Controlhttps://wzacorn.tistory.com/116 Prompt-to-Prompt Image Editing with Cross Attetion Control 리뷰0. Abstract대규모 텍스트 기반 이미지 합성 모델의 발전관련 기술에 대한 수요로 주목받고 있으나, 텍스트 프롬프트의 작은 변화에도 결과가 크게 달라지는 문제 발생기존 이미지 편집 방법의 한wzacorn.tistory.com이전에 관련해서 리뷰해둔 내용이 있으니 참고하면 좋을 것 같다.Inpainting 기법(지정한 영역의 이미지의 일부만을 생성)은 기존 attention map 정보가 없다는 단점을 보완하는 방식.prompt to prompt로 제어할 수 있는 강력한 장점 존재...

paper review 2025.03.04

Prompt-to-Prompt Image Editing with Cross Attetion Control 리뷰

0. Abstract대규모 텍스트 기반 이미지 합성 모델의 발전관련 기술에 대한 수요로 주목받고 있으나, 텍스트 프롬프트의 작은 변화에도 결과가 크게 달라지는 문제 발생기존 이미지 편집 방법의 한계사용자가 편집 영역을 직접 마스크해야 하는 번거로움 존재 (Inpainting 기법)또한 편집되는 원본의 Attention 구조를 받아오지 못해 실제 결과랑 이질감이 발생마스크 내부의 구조적 정보를 효과적으로 활용하지 못함주장하는 방법prompt-to-prompt 로 직관적으로 이미지를 편집할 수 있는 새로운 방법 개발1. Introdution 그림 1은 Prompt-to-Prompt 편집 기능의 다양성을 보여주는 예시 그림 사용자는 텍스트 프롬프트만으로 이미지 픽셀 공간에 대한 어떠한 정보 없이 diffusi..

paper review 2025.02.24

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 리뷰

0. Abstract최근 text-to-image 생성 모델은 다양한 시각적인 창의성을 발휘할 수 있도록 했지만 스토리 시각화, 게임 개발, 에셋 디자인, 광고 등과 같은 실생활 문제들에 적용될 수 있는 일관된 캐릭터 (consistent character) 생성에는 어려움이 있음본 논문에서는 일관된 캐릭터 생성을 자동으로 수행할 수 있는 기법을 제안입력으로는 오직 텍스트 프롬프트만을 사용반복적인 과정을 수행하며 각 단계마다 유사한 특성을 가지는 연관된 이미지 세트를 식별하고 해당 세트로부터 일관된 특성을 추출정량적 결과에서 프롬프트 일치도와 특성 유지 사이에서 기존 베이스라인 기법들보다 더 균형있는 결과를 보임1. IntroductionText-to-Image 생성 모델의 능력은 갈수록 인상적으로 되고..

paper review 2025.02.18

GPT에 돈 아끼는법! deep-research 리뷰

안녕하세요 오늘은 deep-research라는 openai에서 월 200$요금제에서  쓸 수 있는 모델을 오픈소스로 구현하여 LLM모델을 붙이기만 하면 쓸 수 있는 레포지토리를 발견하여 소개하고자 합니다. https://github.com/dzhng/deep-research GitHub - dzhng/deep-research: An AI-powered research assistant that performs iterative, deep research on any topic by combiningAn AI-powered research assistant that performs iterative, deep research on any topic by combining search engines, web..

Contents 2025.02.17

이제 영어 못한다고 논문 안읽겠단 핑계 대지말자. PDFMathTranslate 리뷰

안녕하세요 평소같이 간간히 링크드인을 보다가 pdf양식이 깨지지 않게 논문을 번역해주는 오픈소스를 소개하는 글을 발견했습니다.늘 영어에 막혀 논문의 10%도 제대로 이해 못하는 경우가 많았는데, 영어라는 언어 장벽 때문에 논문의 내용 대부분을 놓치곤 하던 제게 정말 반가운 소식이었습니다.  PDFMathTranslate란?PDFMathTranslate는 PDF 형태의 논문이나 과학 자료를 번역할 때, 원본의 레이아웃, 수식, 이미지 등 모든 요소를 깔끔하게 보존해주는 혁신적인 도구입니다. GitHub 페이지에서 “PDF scientific paper translation with preserved formats”라는 타이틀로 소개되고 있듯, 단순한 텍스트 번역을 넘어 포맷의 일관성을 유지해주는 점이 큰 ..

Contents 2025.02.10

TinyML(3) - WakeWord Detection

안녕하세요 민윤홍 입니다. 이번에는 TinyML을 사용해서 WakeWord Detection을 진행한 포스팅입니다.당시 회사에서 회사제품을 이용한 프로젝트를 잘 만들면 순금을 주는 제도가 있었는데, 금을 받고싶기도 했고, 저 스스로를 증명하고 싶어서 이를 갈고 제작했던 프로젝트입니다. 당시 회사에서 압도적인 최고점을 받고 1등을 하여 순금 2돈을 포상으로 받았던 기억이 있었던 만큼, 좋았던 기억도 있지만 허점도 있었던 만큼 여러모로 저한테는 감회가 색달랐던 프로젝트입니다.  https://maker.wiznet.io/Acorn_/projects/tinyml%2Dwakeword%2Ddetection/ TinyML - WakeWord DetectionLet’s do wakeword detection with..

AIoT 2024.12.27

TinyML(2) - using low-sensitivity sensor to predict high-performance sensor

안녕하세요 민윤홍입니다. 고감도 센서 데이터의 패턴을 학습하여 저감도 센서 여러개로 고감도 센서처럼 사용할 수 있을까? 라는 의문에서 시작된 프로젝트 입니다. 사실 TinyML 입문 진입장벽이 있어서 그렇지 한번 입문하고 여기까지 응용하는데 그렇게 어렵지는 않았지만, 당시 처음부터 이거 구현하는데 2달이나 걸린 기억이 있습니다.(순수 Workday로 환산해도 2주일은 잡아먹은 것 같습니다.) 이렇게도 활용할 수 있구나~ 하고 가볍게 스크롤 쭉쭉 내리시면서 읽어보시면 좋을 것 같습니다. 원본https://maker.wiznet.io/Acorn_/projects/tinyml%2Dhygropredict%2D1%2Ddata%2Dvisualization%2Dand%2Dvalidation/ TinyML(2) - u..

AIoT 2024.12.24
반응형