본문 바로가기
반응형

TFX2

[BOOK] Building Machine Learning Pipelines #3 데이터 수집 O`REILLY Building Machine Learning Pipelines #3. 데이터 수집 * 데이터 수집 TFX는 파일이나 서비스에서 데이터를 수집하는 컴포넌트 제공. TFRecord 대용량 데이터셋 스트리밍에 최적화된 경량 형식, 텐서플로 사용자는 대부분 직렬화된 프로토콜 버퍼를 TFRecord를 통해 일련의 이진 레코드를 저장 (https://www.tensorflow.org/tutorials/load_data/tfrecord) 원격지 데이터 파일 수집 ExmampleGen 컴포넌트를 사용하여 구글 클라우드 스토리지, AWS S3와 같은 원격 클라우드 저장소 버킷에서 파일 읽는 수 있음. from tfx.components import CsvExampleGen example_gen = Cs.. 2023. 1. 12.
[BOOK] Building Machine Learning Pipelines #2 TFX (텐서플로 익스텐디드) O`REILLY Building Machine Learning Pipelines 2. TFX - 텐서플로 익스텐디드 TFX 머신러닝 파이프라인은 매우 복잡해서 작업 의존성을 관리하는데 많은 시간과 노력이 필요합니다. 파이프 라인에는 데이터 검증, 전처리, 모델 학습 등 다양한 작업이 포함되어 있으며, 업무 간 연결성이 취약(관계가 약함)합니다. 연결성이 취약하므로, 프로덕션 모델을 자주 업데이트가 난해하고, 검증 또한어렵기 때문에 관리하기가 어려웠습니다. 이런 문제를 해결하고자 구글 내부에서 머신러닝 파이프라인 프레임워크의 오픈 소스 버전 TFX가 개발되었습니다. TFX 컴포넌트 종류 ExampleGen: 데이터 수집 StatisticsGen, SchemaGen, ExampleValicator: 데이터 .. 2023. 1. 11.
반응형