본문 바로가기
반응형

FullStack/50. ML7

[BOOK] 처음 배우는 딥러닝 챗봇 #3 텍스트 유사도 텍스트 유사도 자연어 처리에서 문장 간의 의미가 얼마나 유사한지 계산은 매우 중요하다. 사람은 두 개의 문장에 동일한 단어나 의미상 비슷한 단어의 분포를 직감적으로 파악하지만, 컴퓨터의 경우에는 공식을 통해 두 문장 간의 유사도를 계산할 수 있음 n-gram 유사도 n-gram은 주어진 문장에서 n개의 연속적인 단어 시퀀스(단어 나열)를 기준으로 의미 파악, n-gram은 문장에서 n개의 단어를 토큰으로 사용, 이웃한 단어의 출현 횟수를 통계적으로 표현해 텍스트의 유사도를 계산 n-gram은 문장을 토큰으로 분리한 후, 단어 문서 행렬(Term - Docuemnt Matrix TDM)을 생성하여 두 문장을 서로 비교해 동일한 단어의 출현 빈도를 확률로 계산해 유사도를 구할 수 있다. - tf(term f.. 2023. 1. 26.
[BOOK] 처음 배우는 딥러닝 챗봇 #2 임베딩 임베딩 컴퓨터는 자연어를 직접적으로 처리할 수가 없으며, 수치 연산만 가능하기 때문에 자연어를 숫자나 벡터 형태로 변환 필요. 이런 과정을 자연어 처리 분야에서는 임베딩(embedding)이라고 함 임베딩: 단어나 문장을 수치화해 벡터 공간으로 표현하는 과정 임베딩은 말뭉치의 의미에 따라 벡터화하기 때문에 문법적 정보 포함, 임베딩 품질에 따른 결과 차이가 큼 임베딩에는 문장 임베딩과 단어 임베딩 존재하며, 문장 임베딩은 전체 문장을 벡터로 관리, 단어 임베딩은 개별 단어를 벡터로 표현 문장 임베딩: 문맥적 의미를 지니는 장점, 품질이 좋음, 상용 시스템에 많이 사용, 학습 비용 큼 단어 임베딩: 동음이의어 대한 구별 하지 않음, 의미가 다르더라도 단어의 형태가 같다면 동일한 값으로 취급, 학습 방법 간.. 2023. 1. 25.
[BOOK] 처음 배우는 딥러닝 챗봇 #1 처음 배우는 딥러닝 챗봇 조경래 지음 한빛미디어 관련 소스: https:///github.com/keiraydev/chatbot 넘파이 넘파이(NumPy) 라이브러리는 C언어로 구현된, 빠른 배열 처리와 고성능 수치 계산을 지원, 주로 벡터 및 행렬 연산에 필요한 기능 팬더스 팬더스(pandas)는 데이터 분석 및 처리를 위한 필수 라이브러리, 행과 열로 구성된 데이터 객체를 편리하게 관리할 수 있으며, 대용량 데이터 처리하는데 용이함 맷플롯립 맷플롯립(matplotlib) 라이브러리는 데이터를 플롯이나 차트로 시각화할 수 있도록 도와주는 도구 토크나이징 문장을 토큰 단위로 정보를 나누는 작업을 토크나이징이라고 하며, 주로 텍스트 전처리 과정에서 사용, 토크나이징 과정에 따라 성능의 차이가 발생 KoNL.. 2023. 1. 23.
[BOOK] Building Machine Learning Pipelines #4 데이터 검증 O`REILLY Building Machine Learning Pipelines #4. 데이터 검증 데이터는 모든 머신러닝 모델의 기본 모델의 유용성과 성능은 모델을 통한 학습, 검증, 분석한 데이터에 따라 달라집니다. 그런 점에서 데이트 검증이 중요, 텐서플로 익스텐드 패키지 TFDV(TensorFlow Data Validation) 제공 쓰레기를 넣으면, 쓰레기가 나온다(Garbage In, Garbage Out - GIGO) 데이터 검증은 다음의 항목 확인 데이터 이상치 검증 데이터 스키마 변경 여부 검증 새 데이터셋 통계와 이전 학습 데이터셋 통계의 일치성 검증 TFDV(Tensorflow Data Validation)를 통한 데이터 검증 # TFDV 설치 $ pip install tensorfl.. 2023. 1. 12.
반응형