두's 스토리
머신러닝 개요 본문
AI/ML
-
1주차 과정
-
Machine Learning 실습 환경에 대한 이해
-
Flask 서버를 사용하여 slack api 구현
-
Linear Regression 기법에 대한 이해
-
python slack client를 이용하여 linear regression 예측 모델 구현
-
-
2주차 과정
-
데이터 전 처리
-
Naive Bayesian Classifier 구현
-
Logistic Regression 구현
-
영화 평점 분석기 구현
-
Flask 서버와 SQLite 활용하여 백엔드 구현
-
slack app에서 머신 러닝 기능 구현 및 입출력 데이터 DB 업데이트
-
-
4주차 과정
-
챗봇 데이터 분석
-
Neural Network 모델 구현
-
Language Model 구현
-
Evaluation metric 구현
-
챗봇 모델 구현
-
Flask 서버를 활용하여 slack app 으로 구현
-
추가 기능을 구현한 챗봇
-
프로젝트 목표
-
광고비에 따른 예상 판매량 예측 모델 구현
-
-
프로젝트 목표
-
영화 댓글에 따른 긍정적, 부정적 리뷰 분류
-
-
-
딥러닝 기반 자연어 처리 챗봇
-
목표
-
질의 응답 데이터를 바탕으로, 딥러닝으로 학습
-
새로운 텍스트에 대하여 대답 텍스트 생성
-
텍스트 데이터 전 처리
-
딥러닝 모델 학습 및 평가
-
seq2weq
-
transformer
-
-
-
인공지능의 연구 분야 중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법
-
순서나 이유를 명확하게 설명하지 못하는 일을 처리하기 위한 방법
-
머신러닝 단계
-
Data(training set) -> learning algorithm -> features -> prediction/classfier -> prediction
-
-
관련사이트 : <https://marobiana.tistory.com/155>
-
머신러닝 분류
-
지도학습
-
분류: KNN, SVM, Decision, Logistic Regression
-
예측: Linear Regression
-
-
비지도학습
-
강화학습
-
-
지도학습이란
-
Label이 있는 학습 데이터를 이용해서 학습
-
분류
-
학습데이터의 레이블 중 하나를 예측(Discrete label)
-
ex) 스팸메일 필터, 고양이와 강아지 구별
-
-
회귀
-
연속된 값을 예측(Contiunous)
-
ex) 주가 분석 예측
-
-
-
-
비지도학습이란
-
Label이 없는 학습 데이터를 이용해서 학습
-
입력된 데이터들이 어떤 형태로 그룹을 형성하는지가 관심
-
분류(classification)
-
레이블이 있다.
-
-
군집(clustering)
-
레이블이 없다.
-
비슷한 특성을 갖는 데이터로 묶기
-
ex) 구매자 유형 분류, 의학 임상실험 환자군 구별
-
-
-
이상 탐지
-
기존 그룹과 이상특징 발견
-
-
시각화
-
데이터의 특성을 시각화 하여 데이터들의 패턴 연구
-
-
차원축소
-
상관관계가 있는 여러 특성을 하나로 합침 -> 중요한 특성을 쉽게 봄
-
-
-
강화학습이란
-
어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법.
-
-
과적합이란
-
학습 데이터에 너무 지나치게 맞추다 보면 일반화 성능이 떨어지는 모델을 얻게 되는 현상을 과적합이라 함.
-
과적합을 피하는 방법
-
학습 데이터의 일부를 따로 떼어 내어 학습이 아닌 검증용으로 사용하는 기법
-
교차 검증
-
-
-
컴퓨터 과학, 인공지능과 언어학이 합쳐진 분야로 자연어를 컴퓨터에서 분석하고 처리함
-
목적
-
대량의 자연어 데이터 처리
-
-
자연어 처리 모델(Classical NLP(2주차) & Deep Learing)
-
과정
-
Noise canceling(스펠링 체크 및 띄어쓰기 오류 교정)
-
Tokenizing(문장을 토큰으로 나눔, 문장에서 형태소 단위로 나눔)
-
Part-of-Speech tagging
-
Filtering(불필요한 단어 제거)
-
Term vector representation(행렬에서 각 단어의 중요도를 조절)
-
Transformation(TF-IDF 등의 방식으로 term vector 변환)
-
Applying algorithm
-
-
딥러닝 발전과정
-
Back Propagation
-
기존의 학습 방법
-
인풋에 대한 아웃풋과 실제 데이터와 의 오차를 최적화
-
은닉층의 존재로 정방향으로 오차를 업데이트 불가능
-
-
-
현재 딥러닝 오기까지
-
알고리즘의 개선
-
MLP
-
BackPropagation
-
Vanishing gradient solution
-
-
하드웨어의 개선
-
GPU 발전
-
-
빅 데이터
-