혈액 한 방울로 암을 찾는다 — Blood Top-Down Proteomics의 가능성
Blood Top-Down Proteomics와 AI를 결합한 연구 기획 배경, 3단계 AI 모델 구상, 그리고 BioAI Market이 이 연구의 분석 플랫폼이 될 수 있는 이유를 공유한다.
Bottom-Up vs Top-Down: 왜 Top-Down인가
프로테오믹스에는 크게 두 가지 접근법이 있다. Bottom-Up은 단백질을 효소(주로 trypsin)로 잘게 자른 후 펩타이드 수준에서 분석한다. 현재 프로테오믹스의 주류 방법이고, BioAI Market의 기존 파이프라인도 Bottom-Up 기반이다. DIA-NN, MaxQuant, FragPipe 등 대부분의 분석 소프트웨어가 Bottom-Up을 지원한다.
Top-Down은 단백질을 자르지 않고 **온전한 상태(intact protein)**로 분석한다. 여기서 핵심 개념이 등장한다. Proteoform — 같은 유전자에서 유래했지만, 번역후변형(PTM), 스플라이싱 변이, 절단 등으로 인해 서로 다른 형태를 가진 단백질 변형체를 말한다.
Bottom-Up에서는 단백질을 펩타이드로 잘라버리기 때문에, 어떤 PTM 조합이 같은 분자에 공존하는지 알 수 없다. 예를 들어 히스톤 H3에 K4 메틸화와 K27 아세틸화가 동시에 존재하는지, 아니면 서로 다른 분자에 각각 존재하는지 구분할 수 없다. Top-Down은 이 정보를 보존한다.
Blood Proteoform Atlas의 충격
이 분야를 주목하게 된 계기는 Blood Proteoform Atlas 프로젝트였다. Northwestern University의 Kelleher 그룹이 주도한 이 연구에서, 인간 혈액에서 30,000개 이상의 proteoform을 발견했다.
30,000이라는 숫자가 충격적이었다. 인간 유전자가 약 20,000개인데, proteoform이 30,000개라는 건 한 유전자에서 평균 1.5개 이상의 변형체가 혈액에 존재한다는 뜻이다. 실제로는 특정 단백질(알부민, 면역글로불린 등)에서 수십~수백 개의 proteoform이 발견되었다.
핵심 참고 논문들:
- Tiambeng et al., 2020 — Top-down proteomics의 최신 방법론 리뷰
- Toby et al., 2019 — 혈액 TDP를 위한 시료 전처리 방법
이 proteoform 수준의 변화가 질병 상태를 반영한다면? 혈액 한 방울로 질병을 조기 진단할 수 있는 가능성이 열린다.
3단계 AI 모델 구상
BioAI Market 개발 경험을 바탕으로, 혈액 TDP 데이터를 AI로 분석하는 3단계 모델을 구상했다.
Stage 1: Spectrum Quality Prediction
질량분석 스펙트럼의 품질을 자동으로 판별하는 모델이다.
# 구상 중인 모델 아키텍처
class SpectrumQualityModel(nn.Module):
def __init__(self, input_dim=50000, hidden_dim=512):
super().__init__()
self.conv1d = nn.Conv1d(1, 32, kernel_size=7, padding=3)
self.pool = nn.AdaptiveAvgPool1d(1000)
self.fc = nn.Sequential(
nn.Linear(32 * 1000, hidden_dim),
nn.ReLU(),
nn.Dropout(0.3),
nn.Linear(hidden_dim, 3) # good / medium / poor
)
def forward(self, x):
x = x.unsqueeze(1) # (batch, 1, mz_points)
x = F.relu(self.conv1d(x))
x = self.pool(x)
x = x.view(x.size(0), -1)
return self.fc(x)
TDP 스펙트럼은 Bottom-Up보다 복잡하고, 노이즈가 많다. 수동으로 품질을 판별하는 건 시간 낭비다. 이 모델이 poor quality 스펙트럼을 자동으로 걸러내면, downstream 분석의 정확도가 올라간다.
Stage 2: PTM Localization
번역후변형의 위치를 예측하는 모델이다. Top-Down에서는 fragment ion의 패턴으로 PTM 위치를 결정하는데, 현재는 주로 수동 해석에 의존한다.
# PTM localization confidence score
class PTMLocalizer(nn.Module):
def __init__(self, seq_len=1000, n_ptm_types=15):
super().__init__()
self.transformer = nn.TransformerEncoder(
nn.TransformerEncoderLayer(d_model=256, nhead=8),
num_layers=4
)
self.output = nn.Linear(256, n_ptm_types)
def forward(self, fragment_ions, sequence_embedding):
# fragment_ions: 관측된 fragment ion m/z 값들
# sequence_embedding: 단백질 서열의 임베딩
x = self.transformer(fragment_ions + sequence_embedding)
return torch.sigmoid(self.output(x)) # 각 위치별 PTM 확률
인산화, 아세틸화, 메틸화, 글리코실화 등 15가지 PTM 유형을 예측한다. Transformer 아키텍처를 사용하는 이유는, fragment ion 간의 long-range dependency를 캡처해야 하기 때문이다.
Stage 3: Spectrum Embedding for Longitudinal Monitoring
같은 환자의 혈액을 시간에 따라 추적하면서, proteoform 프로파일의 변화를 모니터링하는 임베딩 모델이다.
# Spectrum을 고정 차원 벡터로 임베딩
class SpectrumEncoder(nn.Module):
def __init__(self, embedding_dim=256):
super().__init__()
self.encoder = nn.Sequential(
nn.Conv1d(1, 64, 7, padding=3),
nn.ReLU(),
nn.MaxPool1d(4),
nn.Conv1d(64, 128, 5, padding=2),
nn.ReLU(),
nn.AdaptiveAvgPool1d(128),
nn.Flatten(),
nn.Linear(128 * 128, embedding_dim)
)
def forward(self, spectrum):
return F.normalize(self.encoder(spectrum.unsqueeze(1)), dim=1)
# 시간에 따른 변화 추적
# t0_embedding vs t1_embedding → cosine similarity
# similarity가 급격히 변하면 → 질병 상태 변화 가능성
이 임베딩을 시계열로 추적하면, 건강한 상태에서 질병 상태로의 전환을 proteoform 수준에서 감지할 수 있다.
3 Phase 로드맵
Phase 1: 범용 AI 모델 (Sample-Agnostic)
- 세포주, 조직, 체액 등 모든 시료 유형의 TDP 데이터로 학습
- 공개 데이터셋 (MassIVE, PRIDE) 활용
- 목표: 스펙트럼 품질 예측 정확도 90% 이상
Phase 2: 혈액 TDP — Killer Application
- 혈액 특화 모델로 fine-tuning
- 혈액의 dynamic range 문제 해결 (알부민이 전체 단백질의 55%)
- 암, 자가면역질환, 신경퇴행성 질환 proteoform 시그니처 발굴
Phase 3: 개인 건강관리
- 개인별 proteoform 프로파일 구축
- 정기 검진으로 종적 모니터링
- 이상 감지 시 알림 → 조기 진단
BioAI Market이 분석 플랫폼이 될 수 있는 이유
BioAI Market을 개발하면서 구축한 인프라가 혈액 TDP 분석에도 그대로 활용될 수 있다:
- 프로테오믹스 분석 파이프라인 — DE 분석, 시각화, 통계 진단이 이미 구현되어 있다
- 바이오마커 DB — 1141개 바이오마커-질병 연관 데이터가 검증 파이프라인에 바로 연결된다
- RAG 기반 AI 챗봇 — TDP 관련 지식을 DB에 추가하면 즉시 반영된다
- 확장 가능한 아키텍처 — Next.js + Supabase + Python 백엔드 구조가 새로운 분석 모듈 추가에 유연하다
현재 한계: 데이터가 없다
가장 큰 과제는 혈액 TDP 데이터의 부재다. Top-Down proteomics 자체가 아직 주류가 아니고, 혈액을 대상으로 한 TDP 데이터는 공개된 것이 극히 적다. PRIDE archive에서 "blood top-down"으로 검색하면 관련 데이터셋이 10개도 안 된다.
이 문제를 해결하려면:
- 대학/연구소와의 협업으로 자체 데이터 생산
- 시뮬레이션 데이터로 모델 사전학습 후 실제 데이터로 fine-tuning
- Bottom-Up 데이터로 사전학습한 모델을 TDP에 전이학습
아직 갈 길이 멀지만, 혈액 한 방울로 질병을 조기 발견하는 미래는 기술적으로 가능하다고 확신한다. 문제는 "언제"이지 "가능한가"가 아니다.
💡 BioAI Market의 프로테오믹스 분석 파이프라인에 대한 자세한 내용은 sbmlab.com의 프로테오믹스 분석 플랫폼 소개에서 확인할 수 있다.
PRIDE Archive에서 공개 프로테오믹스 데이터를 검색해볼 수 있다.