컴퓨터 전공이면서도 대학교 3, 4학년 때 미국으로 교환학생 가면서 수강하지 못했던 Linear Algebra (선형대수), 나중에 생물정보학 공부에도 발목을 잡을 줄을 몰랐다. 좋은 책 하나 골라서 차근차근 공부를 좀 해야할 듯.
Eigenvector, eigenvalue와 관련이 되어있는 Principal Component Analysis (PCA)에 관한 아주 쉬우면서도 잘 정리되어 있는 문서 발견 ! ("A tutorial on Principal Component Analysis")
튜토리얼에 따르면 실제 data의 covariance matrix으로부터 구해지는 eigenvector 들은 그 data를 잘 나타내는 (data의 pattern을 잘 드러내는) 축이 된다. 이 축으로 기존 data를 transformation 하는 과정이 PCA analysis의 정의.
실제 data의 covariance matrix가 n x n 일 때 n개의 eigenvector가 존재하는데 이를 eigenvalue의 크기로 정렬하면 제일 큰 eigenvalue에 해당하는 eigenvector 축으로 data를 transformation 하면 그 값이 principla component 1 (PC1)이 된다. 그 다음 큰 eigenvalue에 해당하는 eigenvector를 이용하면 PC2... 이하는 같다. 여기서 n개의 PC를 모두 쓰지 않고 일부분만 사용했을 때 dimension reduction 효과를 얻을 수 있다.
여기서 내가 들었던 의문은 그럼 sample을 clustering 하기 전에 원래 data를 사용하지 않고 PCA를 통해 data를 변형하고 일부 PC만을 사용해서 clustering를 하면 더 효과적인가? 였다. 이에 대해서는 그렇지 않다고 이미 논문이 존재 ("An empirical study of Principal Component Analysis for clustering gene expression data, Bioinformatics 17(9):763-74, 2001")
댓글 없음:
댓글 쓰기