(이미지 - https://aws.amazon.com/emr/features) AWS EMR 은 정말 좋은 툴입니다. (가격만 안비싸고 좀만 더 빨리 뜨면) 버튼 눌러서 쉽게 만들 수 있고 Spark, Presto, Flink 등 설치된 클러스터에 필요한 Job 만 던지면 되고 Zeppelin, Jupyter 등 탐색을 위한 도구도 바로 사용할 수 있습니다. 늘 그렇듯이 해보니 된다 != Production Ready 가 아니므로 실제로 서비스에 활용 하려면 … Continue reading AWS EMR 을 Terraform 으로 관리할 때 도움되는 몇 가지 팁들
1년간 그가 스타트업 정글에서 살아남은 방법
스타트업에 온지도 어언 1년이 넘었습니다. 정확히는 1년 하고 27일 되었네요. 이 글을 쓰는 너는 누구냐! 하실거 같아서 간단히 소개를 해보자면.. 이 글은 2017년 12월 말에 작성된 글입니다. 스타트업에 온지도 어언 1년이 넘었습니다. 정확히는 1년 하고 27일 되었네요. 이 글을 쓰는 너는 누구냐! 하실거 같아서 간단히 소개를 해보자면.. 저는 ZEPL 이라는 스타트업에서 엔지니어로 일 하고 있습니다. … Continue reading 1년간 그가 스타트업 정글에서 살아남은 방법
Machine Learning 10 – Stochastic Gradient, Synthetic Data, Ceiling Analysis
이 글은 Coursera 에서 제공하는 Machine Learning 수업의 10 번째 챕터입니다. 이번 주에는 mini-batch, stochastic graident descent, online learning, map-reduce 등의 개념에 대해 배운다. Learning With Large Datasets (http://blog.csdn.net/linuxcumt) 왜 그렇게 큰 데이터 셋이 필요할까? 좋은 퍼포먼스를 얻기 위한 한 가지 방법이, low bias 알고리즘에 massive data 를 활용해 훈련하는 것이기 때문이다. (http://blog.csdn.net/linuxcumt) 그러나 커다란 … Continue reading Machine Learning 10 – Stochastic Gradient, Synthetic Data, Ceiling Analysis
Machine Learning 9 – Anomaly Detection, Recommender System
이 글은 Coursera 에서 제공하는 Machine Learning 수업의 9 번째 챕터입니다. 이번시간엔 anomaly detection 과 recommender system 을 배운다. Anomaly Dectection (http://blog.csdn.net/linuxcumt1) anomaly 는 정상집단에서 떨어진 데이터라 보면 된다. 공장에서 품질이 떨어지는 제품을 골라낼때 사용할 수 있는데, 위 그림은 비행기 엔진 공장을 예로 들어 설명한다. 데이터로부터 p(x) 를 만들어, 검사할 데이터가 threshold 를 넘는지 안넘는지 … Continue reading Machine Learning 9 – Anomaly Detection, Recommender System
Machine Learning 8 – K-means, PCA Details
이 글은 Coursera 에서 제공하는 Machine Learning 수업의 8 번째 챕터입니다. 이번시간에는 PCA 와 clustering 을 배운다. PCA 가 어떻게 돌아가는지 알기위해 covariance matrix, eigen decomposition, singular value decomposition 등의 배경지식도 익혀보자. ~~K-means 는 거들뿐 Unsupervised Learning Intro clustering 은 다양한 분야에 활용할 수 있다. Market Segmentation Social Network Analysis Organize Computing Clusters Astronomical Data … Continue reading Machine Learning 8 – K-means, PCA Details


