본문 바로가기
반응형

pipline4

[BOOK] Building Machine Learning Pipelines #4 데이터 검증 O`REILLY Building Machine Learning Pipelines #4. 데이터 검증 데이터는 모든 머신러닝 모델의 기본 모델의 유용성과 성능은 모델을 통한 학습, 검증, 분석한 데이터에 따라 달라집니다. 그런 점에서 데이트 검증이 중요, 텐서플로 익스텐드 패키지 TFDV(TensorFlow Data Validation) 제공 쓰레기를 넣으면, 쓰레기가 나온다(Garbage In, Garbage Out - GIGO) 데이터 검증은 다음의 항목 확인 데이터 이상치 검증 데이터 스키마 변경 여부 검증 새 데이터셋 통계와 이전 학습 데이터셋 통계의 일치성 검증 TFDV(Tensorflow Data Validation)를 통한 데이터 검증 # TFDV 설치 $ pip install tensorfl.. 2023. 1. 12.
[BOOK] Building Machine Learning Pipelines #3 데이터 수집 O`REILLY Building Machine Learning Pipelines #3. 데이터 수집 * 데이터 수집 TFX는 파일이나 서비스에서 데이터를 수집하는 컴포넌트 제공. TFRecord 대용량 데이터셋 스트리밍에 최적화된 경량 형식, 텐서플로 사용자는 대부분 직렬화된 프로토콜 버퍼를 TFRecord를 통해 일련의 이진 레코드를 저장 (https://www.tensorflow.org/tutorials/load_data/tfrecord) 원격지 데이터 파일 수집 ExmampleGen 컴포넌트를 사용하여 구글 클라우드 스토리지, AWS S3와 같은 원격 클라우드 저장소 버킷에서 파일 읽는 수 있음. from tfx.components import CsvExampleGen example_gen = Cs.. 2023. 1. 12.
[BOOK] Building Machine Learning Pipelines #2 TFX (텐서플로 익스텐디드) O`REILLY Building Machine Learning Pipelines 2. TFX - 텐서플로 익스텐디드 TFX 머신러닝 파이프라인은 매우 복잡해서 작업 의존성을 관리하는데 많은 시간과 노력이 필요합니다. 파이프 라인에는 데이터 검증, 전처리, 모델 학습 등 다양한 작업이 포함되어 있으며, 업무 간 연결성이 취약(관계가 약함)합니다. 연결성이 취약하므로, 프로덕션 모델을 자주 업데이트가 난해하고, 검증 또한어렵기 때문에 관리하기가 어려웠습니다. 이런 문제를 해결하고자 구글 내부에서 머신러닝 파이프라인 프레임워크의 오픈 소스 버전 TFX가 개발되었습니다. TFX 컴포넌트 종류 ExampleGen: 데이터 수집 StatisticsGen, SchemaGen, ExampleValicator: 데이터 .. 2023. 1. 11.
[BOOK] Building Machine Learning Pipelines #1 머신러닝 파이프라인 O`REILLY Building Machine Learning Pipelines 살아 움직이는 머신러닝 파이프라인 설계 지은이: 하네스 하프케, 캐서린 넬슨 옮긴이: 송호연 #1 머신러닝 파이프라인 ## 모델 생애 주기 단계를 자동화한 머신러닝 파이프라인 이점 - 기존 모델 유지보수에서 벗어나 새 모델에 집중할 수 있는 능력 - 버그 예방(자동화된 파이프라인은 버그를 예방) - 버전 관리 문서화(모델 변경에 관한 버전 관리 문서 생성) - 표준화: 표준화된 머신러닝 파이프라인은 경험을 개선 - 파이프라인의 비즈니스 사례 예제 프로젝트 https://github.com/chris-chris/building-machine-learning-pipelines.git 2023. 1. 9.
반응형