2012년 10월 25일 목요일

SNP calling using Naive Bayesian classifier

Shotgun sequencing을 이용한 Single Nucleotide Polymorphism (SNP) calling 시 Bayes' Theorem이 자주 이용되는데, 우리 연구실의 Thomas Bleazard가 정리해 놓은 문서를 기초로 간략하게 방법론을 정리해 보고자 한다.

염색체의 기본단위는 A/C/G/T로 이루어진 nucleotide이고 세포는 상동염색체로 구성이 되어 있으므로 어떤 위치(locus)에서 가능한 genotype은 총 10가지가 가능하다. 수식으로 하면,

For given locus i, true genotype,


그리고 그 locus i에 align된 read를 k개라고 가정했을 때


그리고 q[ij]는 locus i에 align되는 j-th read의 quality score를 의미한다.
여기서 우리는 locus i에서 D[i]를 관찰했을 때, 각각의 T[i]에 대한 사후확률(posterior probability)를 계산하려 한다. 이는 Bayes' Theorem에 의해 다음을 만족한다.


여기서 P(T[i])는 사전확률(prior probability)이다.
K개의 read가 각각 독립이라고 가정하면 위의 식에서 P(D[i]|T[i])는


이다. 그리고 위 수식에서 마지막 probability는 training 용으로 이용할 data에서 직접 계산한 frequency matrix를 이용한다. 즉 o[ik], q[ik], T[i] triplet으로 이루어진 frequency matrix를 training data에서 산출하고 이를 이용한다. 그래서 각각의 T[i]에 대한 사후확률을 계산한 후 최대 확률을 보이는 genotype을 선택(classification) 한다.

댓글 없음:

댓글 쓰기