Notice
Recent Posts
Recent Comments
Link
«   2025/09   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
관리 메뉴

두's 스토리

머신러닝 개요 본문

머신러닝

머신러닝 개요

알 수 없는 사용자 2019. 7. 23. 12:23

AI/ML

  • 1주차 과정

    • Machine Learning 실습 환경에 대한 이해

    • Flask 서버를 사용하여 slack api 구현

    • Linear Regression 기법에 대한 이해

    • python slack client를 이용하여 linear regression 예측 모델 구현

  • 2주차 과정

    • 데이터 전 처리

    • Naive Bayesian Classifier 구현

    • Logistic Regression 구현

    • 영화 평점 분석기 구현

    • Flask 서버와 SQLite 활용하여 백엔드 구현

    • slack app에서 머신 러닝 기능 구현 및 입출력 데이터 DB 업데이트

  • 4주차 과정

    • 챗봇 데이터 분석

    • Neural Network 모델 구현

    • Language Model 구현

    • Evaluation metric 구현

    • 챗봇 모델 구현

    • Flask 서버를 활용하여 slack app 으로 구현

    • 추가 기능을 구현한 챗봇

    1주차 과정
    • 프로젝트 목표

      • 광고비에 따른 예상 판매량 예측 모델 구현

    2주차 과정
    • 프로젝트 목표

      • 영화 댓글에 따른 긍정적, 부정적 리뷰 분류

  • 딥러닝 기반 자연어 처리 챗봇

    • 목표

      • 질의 응답 데이터를 바탕으로, 딥러닝으로 학습

      • 새로운 텍스트에 대하여 대답 텍스트 생성

      • 텍스트 데이터 전 처리

      • 딥러닝 모델 학습 및 평가

        • seq2weq

        • transformer

    머신러닝의 개요
    • 인공지능의 연구 분야 중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법

    • 순서나 이유를 명확하게 설명하지 못하는 일을 처리하기 위한 방법

    • 머신러닝 단계

      • Data(training set) -> learning algorithm -> features -> prediction/classfier -> prediction

    • 관련사이트 : <https://marobiana.tistory.com/155>

    • 머신러닝 분류

      • 지도학습

        • 분류: KNN, SVM, Decision, Logistic Regression

        • 예측: Linear Regression

      • 비지도학습

      • 강화학습

    • 지도학습이란

      • Label이 있는 학습 데이터를 이용해서 학습

        • 분류

          • 학습데이터의 레이블 중 하나를 예측(Discrete label)

          • ex) 스팸메일 필터, 고양이와 강아지 구별

        • 회귀

          • 연속된 값을 예측(Contiunous)

          • ex) 주가 분석 예측

    • 비지도학습이란

      • Label이 없는 학습 데이터를 이용해서 학습

        • 입력된 데이터들이 어떤 형태로 그룹을 형성하는지가 관심

        • 분류(classification)

          • 레이블이 있다.

        • 군집(clustering)

          • 레이블이 없다.

          • 비슷한 특성을 갖는 데이터로 묶기

          • ex) 구매자 유형 분류, 의학 임상실험 환자군 구별

      • 이상 탐지

        • 기존 그룹과 이상특징 발견

      • 시각화

        • 데이터의 특성을 시각화 하여 데이터들의 패턴 연구

      • 차원축소

        • 상관관계가 있는 여러 특성을 하나로 합침 -> 중요한 특성을 쉽게 봄

    • 강화학습이란

      • 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법.

    • 과적합이란

      • 학습 데이터에 너무 지나치게 맞추다 보면 일반화 성능이 떨어지는 모델을 얻게 되는 현상을 과적합이라 함.

      • 과적합을 피하는 방법

        • 학습 데이터의 일부를 따로 떼어 내어 학습이 아닌 검증용으로 사용하는 기법

        • 교차 검증

    자연어 처리 NLP(Natural Language Process)
    • 컴퓨터 과학, 인공지능과 언어학이 합쳐진 분야로 자연어를 컴퓨터에서 분석하고 처리함

    • 목적

      • 대량의 자연어 데이터 처리

    • 자연어 처리 모델(Classical NLP(2주차) & Deep Learing)

    • 과정

      • Noise canceling(스펠링 체크 및 띄어쓰기 오류 교정)

      • Tokenizing(문장을 토큰으로 나눔, 문장에서 형태소 단위로 나눔)

      • Part-of-Speech tagging

      • Filtering(불필요한 단어 제거)

      • Term vector representation(행렬에서 각 단어의 중요도를 조절)

      • Transformation(TF-IDF 등의 방식으로 term vector 변환)

      • Applying algorithm

딥러닝 발전과정

  • Back Propagation

    • 기존의 학습 방법

      • 인풋에 대한 아웃풋과 실제 데이터와 의 오차를 최적화

      • 은닉층의 존재로 정방향으로 오차를 업데이트 불가능

  • 현재 딥러닝 오기까지

    • 알고리즘의 개선

      • MLP

      • BackPropagation

      • Vanishing gradient solution

    • 하드웨어의 개선

      • GPU 발전

    • 빅 데이터