Research

혈액 한 방울로 암을 찾는다 — Blood Top-Down Proteomics의 가능성

Blood Top-Down Proteomics와 AI를 결합한 연구 기획 배경, 3단계 AI 모델 구상, 그리고 BioAI Market이 이 연구의 분석 플랫폼이 될 수 있는 이유를 공유한다.

·9 min read
#Top-Down Proteomics#혈액#바이오마커#AI#프로테오폼#질량분석

Blood sample analysis in a modern laboratory

Bottom-Up vs Top-Down: 왜 Top-Down인가

프로테오믹스에는 크게 두 가지 접근법이 있다. Bottom-Up은 단백질을 효소(주로 trypsin)로 잘게 자른 후 펩타이드 수준에서 분석한다. 현재 프로테오믹스의 주류 방법이고, BioAI Market의 기존 파이프라인도 Bottom-Up 기반이다. DIA-NN, MaxQuant, FragPipe 등 대부분의 분석 소프트웨어가 Bottom-Up을 지원한다.

Top-Down은 단백질을 자르지 않고 **온전한 상태(intact protein)**로 분석한다. 여기서 핵심 개념이 등장한다. Proteoform — 같은 유전자에서 유래했지만, 번역후변형(PTM), 스플라이싱 변이, 절단 등으로 인해 서로 다른 형태를 가진 단백질 변형체를 말한다.

Bottom-Up에서는 단백질을 펩타이드로 잘라버리기 때문에, 어떤 PTM 조합이 같은 분자에 공존하는지 알 수 없다. 예를 들어 히스톤 H3에 K4 메틸화와 K27 아세틸화가 동시에 존재하는지, 아니면 서로 다른 분자에 각각 존재하는지 구분할 수 없다. Top-Down은 이 정보를 보존한다.

Blood Proteoform Atlas의 충격

이 분야를 주목하게 된 계기는 Blood Proteoform Atlas 프로젝트였다. Northwestern University의 Kelleher 그룹이 주도한 이 연구에서, 인간 혈액에서 30,000개 이상의 proteoform을 발견했다.

30,000이라는 숫자가 충격적이었다. 인간 유전자가 약 20,000개인데, proteoform이 30,000개라는 건 한 유전자에서 평균 1.5개 이상의 변형체가 혈액에 존재한다는 뜻이다. 실제로는 특정 단백질(알부민, 면역글로불린 등)에서 수십~수백 개의 proteoform이 발견되었다.

핵심 참고 논문들:

이 proteoform 수준의 변화가 질병 상태를 반영한다면? 혈액 한 방울로 질병을 조기 진단할 수 있는 가능성이 열린다.

3단계 AI 모델 구상

BioAI Market 개발 경험을 바탕으로, 혈액 TDP 데이터를 AI로 분석하는 3단계 모델을 구상했다.

Stage 1: Spectrum Quality Prediction

질량분석 스펙트럼의 품질을 자동으로 판별하는 모델이다.

# 구상 중인 모델 아키텍처
class SpectrumQualityModel(nn.Module):
    def __init__(self, input_dim=50000, hidden_dim=512):
        super().__init__()
        self.conv1d = nn.Conv1d(1, 32, kernel_size=7, padding=3)
        self.pool = nn.AdaptiveAvgPool1d(1000)
        self.fc = nn.Sequential(
            nn.Linear(32 * 1000, hidden_dim),
            nn.ReLU(),
            nn.Dropout(0.3),
            nn.Linear(hidden_dim, 3)  # good / medium / poor
        )
    
    def forward(self, x):
        x = x.unsqueeze(1)  # (batch, 1, mz_points)
        x = F.relu(self.conv1d(x))
        x = self.pool(x)
        x = x.view(x.size(0), -1)
        return self.fc(x)

TDP 스펙트럼은 Bottom-Up보다 복잡하고, 노이즈가 많다. 수동으로 품질을 판별하는 건 시간 낭비다. 이 모델이 poor quality 스펙트럼을 자동으로 걸러내면, downstream 분석의 정확도가 올라간다.

Stage 2: PTM Localization

번역후변형의 위치를 예측하는 모델이다. Top-Down에서는 fragment ion의 패턴으로 PTM 위치를 결정하는데, 현재는 주로 수동 해석에 의존한다.

# PTM localization confidence score
class PTMLocalizer(nn.Module):
    def __init__(self, seq_len=1000, n_ptm_types=15):
        super().__init__()
        self.transformer = nn.TransformerEncoder(
            nn.TransformerEncoderLayer(d_model=256, nhead=8),
            num_layers=4
        )
        self.output = nn.Linear(256, n_ptm_types)
    
    def forward(self, fragment_ions, sequence_embedding):
        # fragment_ions: 관측된 fragment ion m/z 값들
        # sequence_embedding: 단백질 서열의 임베딩
        x = self.transformer(fragment_ions + sequence_embedding)
        return torch.sigmoid(self.output(x))  # 각 위치별 PTM 확률

인산화, 아세틸화, 메틸화, 글리코실화 등 15가지 PTM 유형을 예측한다. Transformer 아키텍처를 사용하는 이유는, fragment ion 간의 long-range dependency를 캡처해야 하기 때문이다.

Stage 3: Spectrum Embedding for Longitudinal Monitoring

같은 환자의 혈액을 시간에 따라 추적하면서, proteoform 프로파일의 변화를 모니터링하는 임베딩 모델이다.

# Spectrum을 고정 차원 벡터로 임베딩
class SpectrumEncoder(nn.Module):
    def __init__(self, embedding_dim=256):
        super().__init__()
        self.encoder = nn.Sequential(
            nn.Conv1d(1, 64, 7, padding=3),
            nn.ReLU(),
            nn.MaxPool1d(4),
            nn.Conv1d(64, 128, 5, padding=2),
            nn.ReLU(),
            nn.AdaptiveAvgPool1d(128),
            nn.Flatten(),
            nn.Linear(128 * 128, embedding_dim)
        )
    
    def forward(self, spectrum):
        return F.normalize(self.encoder(spectrum.unsqueeze(1)), dim=1)

# 시간에 따른 변화 추적
# t0_embedding vs t1_embedding → cosine similarity
# similarity가 급격히 변하면 → 질병 상태 변화 가능성

이 임베딩을 시계열로 추적하면, 건강한 상태에서 질병 상태로의 전환을 proteoform 수준에서 감지할 수 있다.

3 Phase 로드맵

Phase 1: 범용 AI 모델 (Sample-Agnostic)

  • 세포주, 조직, 체액 등 모든 시료 유형의 TDP 데이터로 학습
  • 공개 데이터셋 (MassIVE, PRIDE) 활용
  • 목표: 스펙트럼 품질 예측 정확도 90% 이상

Phase 2: 혈액 TDP — Killer Application

  • 혈액 특화 모델로 fine-tuning
  • 혈액의 dynamic range 문제 해결 (알부민이 전체 단백질의 55%)
  • 암, 자가면역질환, 신경퇴행성 질환 proteoform 시그니처 발굴

Phase 3: 개인 건강관리

  • 개인별 proteoform 프로파일 구축
  • 정기 검진으로 종적 모니터링
  • 이상 감지 시 알림 → 조기 진단

BioAI Market이 분석 플랫폼이 될 수 있는 이유

BioAI Market을 개발하면서 구축한 인프라가 혈액 TDP 분석에도 그대로 활용될 수 있다:

  1. 프로테오믹스 분석 파이프라인 — DE 분석, 시각화, 통계 진단이 이미 구현되어 있다
  2. 바이오마커 DB — 1141개 바이오마커-질병 연관 데이터가 검증 파이프라인에 바로 연결된다
  3. RAG 기반 AI 챗봇 — TDP 관련 지식을 DB에 추가하면 즉시 반영된다
  4. 확장 가능한 아키텍처 — Next.js + Supabase + Python 백엔드 구조가 새로운 분석 모듈 추가에 유연하다

현재 한계: 데이터가 없다

가장 큰 과제는 혈액 TDP 데이터의 부재다. Top-Down proteomics 자체가 아직 주류가 아니고, 혈액을 대상으로 한 TDP 데이터는 공개된 것이 극히 적다. PRIDE archive에서 "blood top-down"으로 검색하면 관련 데이터셋이 10개도 안 된다.

이 문제를 해결하려면:

  • 대학/연구소와의 협업으로 자체 데이터 생산
  • 시뮬레이션 데이터로 모델 사전학습 후 실제 데이터로 fine-tuning
  • Bottom-Up 데이터로 사전학습한 모델을 TDP에 전이학습

아직 갈 길이 멀지만, 혈액 한 방울로 질병을 조기 발견하는 미래는 기술적으로 가능하다고 확신한다. 문제는 "언제"이지 "가능한가"가 아니다.

💡 BioAI Market의 프로테오믹스 분석 파이프라인에 대한 자세한 내용은 sbmlab.com의 프로테오믹스 분석 플랫폼 소개에서 확인할 수 있다.

PRIDE Archive에서 공개 프로테오믹스 데이터를 검색해볼 수 있다.