Machine learning: the problem setting

일반적으로, 학습 문제는 n개의 샘플 데이터를 고려하여, 알려지지 않은 데이터의 우선순위를 예측하려는 것이다.

각 샘플이 single number에서 나아가, 다차원 entry라면, 몇 가지 속성(attribute) 혹은 특징(feature)을 가진다.

 

학습 문제는 다음과 같이 분류된다.

  • 지도 학습(supervised learning) : 데이터에 예측하려는 특징(feature)이 포함되어 있다. 주로 분류(classfication), 회귀(regression)문제가 이에 해당한다.
     -분류(classfication) : CIFAR-10 이미지 분류, 자연어 처리에서의 문장의 속성 분류,  스팸 메일 분류 등의 문제가 있다. 정답이 라벨링된 데이터로부터 라벨링되지 않은 데이터의 class를 예측하는 것이 목표이다.
     -회귀(regression) : 원하는 출력이 하나 이상의 연속 변수로 구성된 경우이다. 즉, 연속된 값을 예측하는 문제로 공부 시간과 이전 성적을 통한 현재 전공 시험 점수 예측을 예로 들 수 있겠다.
  • 비지도 학습(unsupervised learning) : unlabelled data를 통하여 예측을 해야하는 문제이다. 정답이 없는 데이터에서 잠재된 의미를 찾아야하므로 훨씬 어려운 케이스이다. 주로 클러스터링, 밀도추정, 차원축소 문제와 관련되어 있다. 
     -클러스터링 : 한글로 해석하면 군집화 정도로 이야기할 수 있다. 분류(Classfication)과 비슷한 개념인데, 클러스터 분석이란 주어진 데이터들의 특성을 고려해 데이터 집단을 정의하고 데이터 집단의 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법이다. 클러스터란 비슷한 특성                         을 가진 데이터들의 집단이다. 반대로 데이터의 특성이 다르면 다른 클러스터에 속해야 한다
     -밀도추정 : 관측된 데이터들의 분포로부터 주어진 변수의 확률 분포 특성을 추정하는 것
     -차원축소 : 고차원 데이터의 경우 많은 feature를 가지고 있어 데이터를 잘 나타내는 feature를 추출해내야한다. 이를 CNN에서의 pooling도 차원 축소의 한가지 예로 들 수 있다.

앞으로 진행할 프로젝트를 위한 기반지식을 쌓도록 해야겠다.

'삼성전자 인턴' 카테고리의 다른 글

Scikit-learn perceptron study  (0) 2019.09.30

+ Recent posts