일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 헥사고날아키텍처 #육각형아키텍처 #유스케이스
- 자원부족
- mp4fpsmod
- 오블완
- 달인막창
- kotlin
- python
- 코루틴 컨텍스트
- 코루틴 빌더
- PersistenceContext
- terminal
- PytestPluginManager
- 겨울 부산
- k8s #kubernetes #쿠버네티스
- Spring Batch
- JanusWebRTCGateway
- table not found
- preemption #
- 개성국밥
- VARCHAR (1)
- vfr video
- JanusGateway
- JanusWebRTCServer
- JanusWebRTC
- taint
- Value too long for column
- 깡돼후
- pytest
- tolerated
- 티스토리챌린지
목록Data Analysis/LLM (7)
너와 나의 스토리
2024.08.10 - [Data Analysis/LLM] - [LLM] RAG with OpenAI 쉬운 구현 방법과 설명 FaissFacebook AI Research에서 개발한 효율적인 벡터 검색 및 클러스터링 라이브러리이는 대규모 디비에서 유사한 벡터를 빠르게 검색하는 데 사용된다.주요 기능고차원 벡터 근접 이웃 탐색(Approximate Nearest Neighbor Search, ANN)대규모 데이터 처리인덱스 및 클러스터링여러 가지 알고리즘을 조합하여 사용 가능 CPU와 GPU 모두 동작할 수 있게 설계되어 있음이러한 기능을 CPU에서 실행할 수 있도록 한 버전 -> Faiss-cpu LangChain에서 벡터 저장소를 이용해 문서를 검색할 때, 다양한 옵션을 설정하는 예제1. MMR(Max..
웹 페이지에서 데이터 가져오기import 문import bs4from langchain import hubfrom langchain_chroma import Chromafrom langchain_community.document_loaders import WebBaseLoaderfrom langchain_core.output_parsers import StrOutputParserfrom langchain_core.runnables import RunnablePassthroughfrom langchain_openai import OpenAIEmbeddingsfrom langchain_text_splitters import RecursiveCharacterTextSplitterWebBaseLoader 이용..
LLM Conditioning조건화(conditioning)모델을 특정 작업에 맞게 조정하거나 모델 출력이 기대한 대로 일치하는지 확인하는 과정모델의 출력 생성을 지시하기 위해 사용하는 다양한 방법의 모음조건화의 두 가지 방법미세 조정(fine tuning)프롬프트 기술정렬(alignment)LLM의 일반적인 행동, 의사 결정과정 및 출력이 좀 더 넓은 인간의 가치, 윤리 원칙 등에 부합하도록 훈련하고 수정하는 과정과 목표를 가리킨다.조건화와 동의어가 아님.조건화는 파인 튜닝을 포함할 수 있으며, 상호 작용의 다양한 층에서 모델을 영향을 주는 것에 중점을 두지만,정렬은 모델의 행동을 인간의 윤리와 안전 기준에 대한 기본적이고 전체적인 교정에 관심이 있다. 파인 튜닝사전 훈련된 모델의 모든 매개변수를 전문..
프롬프트 엔지니어링(Prompt Engineering)LLM이 정확하고 유용한 출력을 반환하도록 유도하는 입력(프롬프트)를 만드는 것.프롬프트 엔지니어링에는 언어의 뉘앙스, 작업 중인 특정 도메인, LLM의 능력과 한계를 이해하는 기술이 필요하다. 언어 모델에서 정렬(Alignment)정렬: 모델이 사용자가 예상한 것과 일치하는 방식으로 입력 프롬프트를 이해하고 답변하는 것.표준 언어 모델링에서 모델은 선행 단어의 맥락을 기반으로 다음 단어나 단어의 시퀀스를 예측하도록 훈련되었으나, 이 접근 방식으로만은 정렬할 수 없음. 추가적인 정렬 기능과 함께 개발된 언어 모델을 사용하면 질문-답변이나 언어 번역과 같은 애플리케이션을 더 유용하게 만들 수 있다.예: RLAIF 프롬프트 엔지니어링 방법간결하면서도 명..
텍스트 임베딩(Text Embedding)단어나 구문을 맥락적 의미를 기반으로 다차원 공간에서 기계가 읽을 수 있는 수치 벡터로 표현하는 방법 작업비대칭적 의미 기반 검색의미 기반 검색 시스템사용자 쿼리의 의미와 맥락을 이해하고, 이를 검색 가능한 문서의 의미 및 맥락과 대조할 수 있다.정확한 키워드나 n-gram 일치에 의존하지 않고도 디비에서 관련된 결과를 찾아낼 수 있으며, 사전 훈련된 LLM을 이용하여 쿼리와 문서/정보의 뉘앙스를 이해한다.'비대칭적' 의미 기반 검색?입력 쿼리의 의미 정보와 검색 시스템이 검색해야 하는 문서/정보 사이에 불균형이 있다. 문서 청킹큰 문서를 임베딩하기 위해 더 작고 관리 가능한 청크로 나누는 것을 의미한다.문서 청킹 방법:최대 토큰 범위 분할(Max Token W..
Chat Completion APIopenAI의 gpt-3/4 모델 기반의 api이 API는 사용자와 AI 간의 대화 흐름을 관리하는데 사용된다.대화 형식system: 대화의 맥락이나 모델의 행동을 설정하는데 사용됨user: 실제 사용자가 입력한 텍스트assistant: 모델이 생성한 응답 -> 이전 대화 내용을 전달하기 위해 사용됨[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Who won the world series in 2020?"}, {"role": "assistant", "content": "The Los Angeles Dodgers won the World Serie..
NLP(Natural Language Processing)컴퓨터가 인간의 언어를 이해하고 생성하며 분석할 수 있도록 하는 인공지능의 한 분야.NLP는 넓은 분야를 의미하고, LLM은 그 중 하나의 접근 방식이다. LLM(Large Language Mechanism)방대한 양의 데이터로 훈련된 모델로, 자연어 이해와 생성에 뛰어난 성능을 보인다.규칙 기반(Rule based) 접근 방식의 한계를 극복하고, 문맥 이해와 다양한 NLP 작업을 처리하는 능력을 갖추고 있다.작동 방식은 크게 3가지로 나뉜다.토큰화트랜스포머 모델프롬프트 토큰화자연어 처리의 일부로 일반 인간 언어를 저수준 기계 시스템이 이해할 수 있는 시퀀스로 변환하는 작업 트랜스포머 모델순차적 데이터를 검사하여 어떤 단어가 서로 뒤따를 가능성이 ..