본문 바로가기

Machine Learning

(5)
Amazon Transcribe 한국어 STT 변환 Amazon Transcribe은 S3에 담긴 오디오 파일의 음성을 번역해주는 프로그램이다. 현재 영어, 아랍어, 중국어, 불어, 독일어, 힌두어, 이태리어, 한국어, 포르투칼어, 러시아어, 스페인어를 지원한다. ?왜 일본어가 없지? 아무튼 2019-10-18 기준으로 Amazon Transcribe도 No Japan을 동참?하고 있다. 그리고 언어가 같아도 영국, 미국 억양이 다르듯이 옵션 값을 다르게 줄 수 있다. 오디오 포맷의 종류는 WAV, MP3, MP4 및 FLAC?를 비롯한 여러 오디오 인코딩을 지원한다. 또한 실시간 번역도 가능하다. 오디오 컨텐츠는 API 호출당 컨텐츠 길이 4시간이나 2GB로 제한된다. 따라서 동영상 파일의 경우 MediaConvert를 사용해서 음성 파일만 따로 추출하..
Amazon SageMaker & ML(sklearn) 이번 글은 SageMaker를 활용하여 기본적인 데이터 시각화 분석과 결과 평가 방법부터, 캐글의 Bike Rental 데이터를 통해 데이터 전처리, 트레이닝, 모델 생성, 배포 일련의 작업을 다룬다. 기본 sklearn을 사용해보고 SageMaker의 high level interface의 estimators 사용 방법과 비교 개인적으로 학습한 내용이라 두서 없음... 1. Introduce 1-1. np, pd, plt(plt.hist/블록, plt.scatter/분산, plt.plot/선형) 1-2. 데이터 전처리 vehicle = df['Vehicles'].fillna(0) plt.plot(vehicles, ls='-.', alpha=0.8, label='mean') fillna(0), filln..
Amazon SageMaker 샘플 비교 Amazon SageMaker는 ML을 위한 AWS의 PaaS. (Forecast의 경우는 SaaS) DB 지식이 있어야 RDS를 사용할 수 있듯, 적어도 SageMaker를 사용하기 위해서는 기본적으로 ML 지식이 있어야 하며, Tensorflow나 MXNet 등 프레임워크를 숙지하고 있어야 한다. 즉 SageMaker는 ML 서비스를 위한 일련의 작업을 도와주는 도구로 손쉽게 Notebook을 구성하고, Model을 만들고 관리할 수 있으며, API Endpoint까지 사용할 수 있도록 도와주는 서비스다. 위 내용에 대한 자료는 구글링만해도 넘치기 때문에 해당 블로그나 영상을 참고하기 바란다. 이번 글은 Tensorflow on VM vs SageMaker (학습, 모델, 배포) 비교 글이다. 나 역..
Amazon Forecast 먼저 AWS 서비스 중 앞에 붙는 Amazon/AWS 별칭을 이해하자. Amazon의 경우는 단독으로 사용 가능한 서비스며, AWS의 경우는 다른 Amazon, AWS의 서비스들과 연계해야 하는 서비스임.(예 Amazon EC2 / AWS Lambda 등) 그러므로 Amazon Forecast는 단독으로 사용할 수 있는 AWS의 시계열 데이터 기반 ML 서비스다. 기타 서비스처럼 Amazon.com에 적용한 ML 경험을 토대로 만든 서비스. Forecast를 이용하면 ML 지식 없이도 ML을 사용할 수 있다. 본인은 간단한 데이터만 tensorflow/jupyter 끄적여봄. Forecast는 AWS에서 미리 정의해놓은 1.Case템플릿과 2.알고리즘을 사용하는데, 미리 정의한 템플릿은 아래와 같음. P..
AWS Machine Learning 분류 Amazon SageMaker ML을 위한 PaaS로 Jupyter 노트북, 최적화 된 알고리즘(linear_learner 등), 커스텀 알고리즘 그리고 MXNet, TensorFlow 프레임워크가 구성된 관리형 서비스데이터 저장소는 S3를 이용하며 데이터 트레이닝을 위한 EC2가 단일 또는 클러스터로 구성(EC2 Type, 갯수는 사용자 정의)되며, 학습된 모델은 S3에 저장기존 MXNet, TensorFlow 라이브러리 스크립트 사용 가능(인프라 구성 json 형태의 Config만 추가 필요). TensorFlow 는 Estimator API 사용 필요.MXNet, TensorFlow 외 다른 플랫폼 사용 시에는 Docker Image가 필요딥 러닝 모델 배포 환경도 AWS API 호출만으로 생성 가..