반응형

Tech 10

Text-to-SQL 질문 증강 및 워크플로우 구현 방법

랭그래프를 사용하여 질문 증강하기.안녕하세요 민윤홍입니다.이 포스팅에서는 사용자의 발화 의도가 Text-To-SQL인지 여부에 따라 질문을 처리하는 방식을 다룹니다. 마케팅 전문가가 아니거나 DB 지식이 부족한 사용자도 충분히 활용할 수 있도록, 애매하거나 모호한 질문을 구체화하고 내용을 보완하여 LLM이 더 적합한 응답을 생성하도록 돕는 과정을 설명합니다. 워크플로우  Start프로세스가 시작됩니다.Categorized입력된 질문이 common_conversation 또는 SQLQuery 중 하나로 분류됩니다.이 분류는 코드에서 behavior_Classification 함수에 의해 처리됩니다.LLM 처리:ChatOpenAI를 통해 Categorized라는 데이터 모델을 사용하여 질문의 의도를 분류합니..

Tech 2024.11.18

랭체인을 사용하여 나만의 LLM 구축하기(1)

안녕하세요 민윤홍입니다. 정말.. 정말 오랜만에 블로그 포스트를 하게 되었습니다!사실 블로그 포스트에 손을 뗀지는 조금 오래 되긴 하였지만, 이번에 카카오임팩트에서 진행하는 누구나데이터 LAB을 참가하게 되었고, 좋은 기회로 포스팅도 같이 하게되어 다시 열심히 작성해보고자 합니다!여기까지는 주저리주저리였고, 아래 내용을 확인하시면 됩니다. sqlcoder-8b 적용하기sqlcoder-8b 모델은 Llama3 기반으로 설계되었으며, 텍스트 입력을 SQL 쿼리로 변환하는 Text-to-SQL 작업에 특화된 강점을 가지고 있습니다. 이 모델을잘 활용한다면 궁극적인 목적인 자연어로 데이터베이스에 질의할 수 있어, 데이터 접근성을 크게 높일 수 있습니다. https://huggingface.co/defog/lla..

Tech 2024.10.28

RAG로 욕설 탐지를 할 수 있다??

안녕하세요 에이콘입니다.이직하고나서 정말 간만에 포스팅을 해보는데요,오늘은 RAG를 사용하여 욕설을 탐지하는 재밌는 주제를 가지고 왔습니다.  https://github.com/2runo/Curse-detection-data GitHub - 2runo/Curse-detection-data: 문장의 욕설 여부를 분류한 한글 데이터셋입니다.문장의 욕설 여부를 분류한 한글 데이터셋입니다. Contribute to 2runo/Curse-detection-data development by creating an account on GitHub.github.com우선 오픈소스에 있는 욕설 데이터셋을 가져옵니다. 데이터는 일간베스트(일베), 오늘의 유머와 같은 각종 커뮤니티 사이트의 댓글에 대해 총 5,825문장이 ..

Tech 2024.06.26

L2P - LLM to Pico(1)

안녕하세요 민윤홍입니다. 오늘은 저희 회사 WIZnet의 제품인 W5500-EVB-Pico를 사용해서 OpenAI API를 호출하여 사용해보려고 합니다. W5500이 저렴한 가격에 S2E를 지원하는 제품인만큼, PC나 클라우드를 연동하여 사용하여 서비스를 구현하면 가격대비 굉장히 매력있는 컨텐츠가 나올 수 있다 생각합니다. 이미 STM32나 SparkFun Edge같은 제품의 경우 AIoT를 많은 부분에서 적용하였고, 실제로 많은 AIoT 컨텐츠들이 시중에 나와있으나, 아직 LLM과 보드를 융합시키는 움직임은 보이지 않는 것 같습니다. 그래서 저희 제품인 W5500-EVB-Pico를 사용해 정말 저렴하게 언어모델을 사용할 수 있는 방법에 대해 소개해보고자 합니다. https://maker.wiznet.i..

Tech 2024.02.19

나만의 챗봇 Service해보기(1) - 결과부터 보자.

안녕하세요. 개인 공부 겸 토이 프로젝트로 간단하게 챗봇 관련 서비스를 배포하는 프로젝트를 진행 해보았습니다. 이번 프로젝트는 LLM, 특히 RAG를 통한 CustomChatbot 제작을 위한 공부를 하고, Streamlit을 통해 서비스화 시키는 간단한 프로젝트 입니다, Streamlit은 데이터 사이언스와 머신 러닝을 위한 빠르고 사용하기 쉬운 앱 프레임워크입니다. Python 기반으로 작동하기 때문에, 저와 같은 개발자들에게 친숙한 환경에서 작업할 수 있었습니다. Langchain은 최신의 언어 모델을 사용하여 다양한 언어 작업을 수행할 수 있는 라이브러리입니다. 이 두 도구를 결합하여, 쉽고 빠르게 서비스화할 수 있는 챗봇 프로젝트를 제작하였습니다. 아래 사이트는 제가 제작한 챗봇 사이트입니다. ..

Tech 2024.02.11

챗봇 개발일지 - 데이터 정제 과정

안녕하세요! 즐거운 설날 연휴 보내고 있으신가요? 오늘은 챗봇 파인튜닝을 위한 데이터 정제 과정에 대한 심도 있는 분석을 공유하려 합니다. 데이터 정제는 고품질 챗봇 개발의 핵심 요소로, 본 글에서는 이 과정을 체계적으로 접근하는 방법을 탐구합니다. 아래는 제가 기획하면서 만들었던 prototype 설계 과정입니다. 혼자 화이트보드에 끄적이며 설계했던 과정. 먼저, 고객과 매니저 간의 일상적 대화를 효과적인 학습 데이터셋으로 변환하는 전처리 작업의 중요성을 강조하고자 합니다. 이 과정에서 다양한 전처리 방법론을 모색하고 GPT의 일반화 능력을 활용하여 이를 최적화하는 방안을 모색했습니다. 그래서 간단하게 GPTs를 통해 확인을 해보았습니다. 대화뭉치를 Q와 A로 구분해주는 GPTs 고객-엔지니어 대화 뭉..

Tech 2024.02.11

나만의 챗봇 Service해보기(2) : WIZnet Doc에 있는 데이터를 학습시키자!

안녕하세요! 오늘은 저번 시간에 이어서 나만의 챗봇을 학습하기 위한 데이터를 가져오는 방법을 알려드리려고 합니다. 우선 데이터를 구축하기 위한 예시로 WIZnet의 doc를 가져와봅시다. 아래 Github링크를 들어가면 WIZnet의 doc를 마크다운 파일로 확인할 수 있습니다. https://github.com/Wiznet/document_framework GitHub - Wiznet/document_framework Contribute to Wiznet/document_framework development by creating an account on GitHub. github.com 이중 W5500를 예시로 가져왔습니다. ## W5500 ![W5500 Photo 1](/img/products/w5..

Tech 2024.02.06

Git 커밋의 기술: 신입 개발자(나)를 위한 가이드

개발자로서 우리의 일상은 코드를 작성하고, 수정하고, 개선하는 과정에서 이루어집니다. 이 모든 과정은 Git과 같은 버전 관리 시스템을 통해 관리됩니다. Git의 중심 기능 중 하나는 '커밋(commit)'인데, 이는 우리의 변경 사항을 기록하는 중요한 단계입니다. 그러나 많은 신입 개발자들이 이 과정을 어떻게 해야 할지, 또는 어떻게 하면 효과적으로 할 수 있을지에 대해 종종 혼란을 겪습니다. 오늘은 Git에서 커밋을 하는 법과, 특히 '개발자다운' 커밋을 하는 방법에 대해 알아보려 합니다. Git 커밋이란? Git 커밋은 버전 관리 시스템에서 변경 사항을 기록하는 행위입니다. 커밋을 통해 우리는 코드의 변경 내역, 변경 이유, 그리고 그 변경이 언제 이루어졌는지를 추적할 수 있습니다. 이는 협업하는 ..

Tech 2024.01.10

30분이면 자막을 입힌다고?? Whisper AI를 사용해보자

안녕하세요. 오늘은 Whisper AI를 사용하여 쉽고 빠르고 정확하게 자막을 만드는 방법을 알아보겠습니다. Whisper AI란? OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델입니다. 2022년 9월에 오픈 소스로 공개했으며, 2024년 1월 현재는 더욱 개선된 large-v3 모델까지 출시 되었습니다. 여담으로 한국어는 단어 오류율(WER) 통계를 기준으로 27위에 해당한다고 합니다. 순위 통계만 27위일 뿐, 성능은 왠만한 음성 인식 기능보다 뛰어나니 크게 신경쓸 문제는 아닙니다. 1. Google Colab를 사용하여 Whisper AI 설치하기 내 컴퓨터에 설치하는 방식이 아닌, Google Colab 서비스를 이용해 클라우드에 설치합..

Tech 2024.01.05

WIZnet Chatbot 개발 일지 - 제품 이름 환각현상 해결하기

안녕하세요 민윤홍 입니다. 오늘은 WIZnet에서 서비스중인 WIZnet Chatbot의 개발 과정을 살짝 공유해 드리고자 합니다. Chatbot을 개발할 때 가장 중요시 해야되는 점은 hallucination, 환각현상 입니다. 특히 기업의 챗봇의 경우 모르는 정보를 마치 사실인 마냥 제공하는 행위는 기업의 이미지와 가치하락으로 이어질 수 있는 문제이기도 합니다. WIZnet의 경우에도 환각현상을 피해갈 수는 없습니다. 저희 회사 Chip제품 명의 경우 W5500, W5500EVB,W5100S, W6100등 이름이 유사하다는 특징이 있습니다. 이는 hallucination을 발생하기 딱 좋은 상황입니다. 환각현상이 일어나는지 GPT에게 이 세상에 없는 제품인 W6300, W6500을 물어보았습니다. 이..

Tech 2023.12.29
반응형