꾸물꾸물

블로그 이전

네이버 블로그에서 깃허브 블로그로 이전 네이버 블로그에서 취미활동을 하다가 보니 어느새 컴퓨터 관련 포스트만 늘어나고 있었다. 그사이에 네이버의 포스트 시스템도 많이 바뀌었지만 실상 포스트가 잘 나오는것도 아니고 정작 코드 작성이나 수식작성등이 너무 불편하였다. 대신 커뮤니케이션이나 포스팅 자체는 편리해서 고민을 많이하다가 블로그를 나눠서 관리하...

클라우드 환경에서 pytorch DDP 사용하기

모델을 빠르게 학습하고 피드백하려면 어떻게 해야할까? 더 좋은 GPU를 사용할 수도 있고 더 많은 GPU를 하나의 시스템에 설치할 수도 있다. 하지만 그 성능과 물량은 물리적으로 제한이 있다. 영상처리 모델을 학습해야하는데 모델의 크기와 데이터 하나의 크기는 크지 않지만 (LLM과 비교해서) 데이터의 개수가 6백만장에 가까워서 빠른 학습 및 검증을 ...

간단히 살펴보는 프롬프트 튜닝

프롬프트 튜닝 사이클 프롬프트 튜닝 사이클은 단순히 프롬프팅을 작성하는데 시간을 투자하는것이 아니다. 반복적으로 테스트를 진행해서 프롬프트의 결과를 평가하며 개선해 나가는것이 중요하다. test-driven 으로 접근하는것이 좋다. 우선 task의 목적을 명확히 해야한다. 다음으로 평가를 위한 테스트 케이스를 구성해야한다. 이때 특이한 ed...

GPT는 왜 모르는 글자가 없을까? - BBPE (Byte-level Byte-Pair Encoding)

GPT를 활용한 챗봇을 개발하며 문득 이런 생각이 들었다. 정해진 vocabulary 안에서 나오지 않는 단어나 이모티콘은 어떻게 처리해 하나? 복잡한 테이블이나 코딩의 기호들은? 궁금증에 앞서 일단 토그나이저의 동작이 어떻게 이루어지는지 간략하게 다시 살펴보았다. (요즘 기억력이 점점 안좋아지는것 같다..) Tokenizer met...

Production에서의 ML과 MLOps tools 🚀

이 포스트는 주관적인 견해로 작성하였습니다. 더 좋은 정보가 있다면 댓글로 알려주세요! Production의 ML과 Research ML의 차이 연구실에서 연구 목적을 위한 모델의 학습과 회사에서 프로덕트 적용을 위한 모델 학습을 하면서 많은 차이점을 느끼게 되어서 정리겸 작성을 해본다. 일반적으로 연구실에서의 학습은 정해진 데이터셋을 가지고 ...