본문 바로가기
반응형

ml5

[BOOK] 처음 배우는 딥러닝 챗봇 #1 처음 배우는 딥러닝 챗봇 조경래 지음 한빛미디어 관련 소스: https:///github.com/keiraydev/chatbot 넘파이 넘파이(NumPy) 라이브러리는 C언어로 구현된, 빠른 배열 처리와 고성능 수치 계산을 지원, 주로 벡터 및 행렬 연산에 필요한 기능 팬더스 팬더스(pandas)는 데이터 분석 및 처리를 위한 필수 라이브러리, 행과 열로 구성된 데이터 객체를 편리하게 관리할 수 있으며, 대용량 데이터 처리하는데 용이함 맷플롯립 맷플롯립(matplotlib) 라이브러리는 데이터를 플롯이나 차트로 시각화할 수 있도록 도와주는 도구 토크나이징 문장을 토큰 단위로 정보를 나누는 작업을 토크나이징이라고 하며, 주로 텍스트 전처리 과정에서 사용, 토크나이징 과정에 따라 성능의 차이가 발생 KoNL.. 2023. 1. 23.
[BOOK] Building Machine Learning Pipelines #4 데이터 검증 O`REILLY Building Machine Learning Pipelines #4. 데이터 검증 데이터는 모든 머신러닝 모델의 기본 모델의 유용성과 성능은 모델을 통한 학습, 검증, 분석한 데이터에 따라 달라집니다. 그런 점에서 데이트 검증이 중요, 텐서플로 익스텐드 패키지 TFDV(TensorFlow Data Validation) 제공 쓰레기를 넣으면, 쓰레기가 나온다(Garbage In, Garbage Out - GIGO) 데이터 검증은 다음의 항목 확인 데이터 이상치 검증 데이터 스키마 변경 여부 검증 새 데이터셋 통계와 이전 학습 데이터셋 통계의 일치성 검증 TFDV(Tensorflow Data Validation)를 통한 데이터 검증 # TFDV 설치 $ pip install tensorfl.. 2023. 1. 12.
[BOOK] Building Machine Learning Pipelines #3 데이터 수집 O`REILLY Building Machine Learning Pipelines #3. 데이터 수집 * 데이터 수집 TFX는 파일이나 서비스에서 데이터를 수집하는 컴포넌트 제공. TFRecord 대용량 데이터셋 스트리밍에 최적화된 경량 형식, 텐서플로 사용자는 대부분 직렬화된 프로토콜 버퍼를 TFRecord를 통해 일련의 이진 레코드를 저장 (https://www.tensorflow.org/tutorials/load_data/tfrecord) 원격지 데이터 파일 수집 ExmampleGen 컴포넌트를 사용하여 구글 클라우드 스토리지, AWS S3와 같은 원격 클라우드 저장소 버킷에서 파일 읽는 수 있음. from tfx.components import CsvExampleGen example_gen = Cs.. 2023. 1. 12.
[BOOK] Building Machine Learning Pipelines #2 TFX (텐서플로 익스텐디드) O`REILLY Building Machine Learning Pipelines 2. TFX - 텐서플로 익스텐디드 TFX 머신러닝 파이프라인은 매우 복잡해서 작업 의존성을 관리하는데 많은 시간과 노력이 필요합니다. 파이프 라인에는 데이터 검증, 전처리, 모델 학습 등 다양한 작업이 포함되어 있으며, 업무 간 연결성이 취약(관계가 약함)합니다. 연결성이 취약하므로, 프로덕션 모델을 자주 업데이트가 난해하고, 검증 또한어렵기 때문에 관리하기가 어려웠습니다. 이런 문제를 해결하고자 구글 내부에서 머신러닝 파이프라인 프레임워크의 오픈 소스 버전 TFX가 개발되었습니다. TFX 컴포넌트 종류 ExampleGen: 데이터 수집 StatisticsGen, SchemaGen, ExampleValicator: 데이터 .. 2023. 1. 11.
반응형