ORNL 양자-고전-AI 스택: 아키텍처와 하드웨어

ORNL은 양자 QPU, Frontier HPC, AI를 하나의 스택으로 물리적으로 통합하고 있다. 소프트웨어와 하드웨어 계층이 어떻게 맞물리는지 살펴본다.

Creeta

2026년 5월 27일

ORNL이 실제로 짓고 있는 것

ORNL의 양자-고전-AI 통합 작업은 연구용 프로토타입도, 격리된 시스템 간의 느슨한 포인트-투-포인트 브리지도 아닙니다. 2025년 8월 29일에 발표된 핵심 아키텍처 연구에 명시된 목표는, 양자 처리 장치(QPU)·고전 HPC 노드·AI 가속기를 동시에 아우르는 단일 통합 스케줄링 및 실행 환경을 구축하는 것입니다 — API로 데이터를 교환하는 별개의 도구가 아닌, 하나의 이기종 컴퓨트 패브릭으로 취급합니다. 단일 작업 스케줄러가 연구자의 수동 조율 없이 적합한 하드웨어 레이어로 작업을 배분합니다.

핵심 요약: ORNL은 양자 프로세서, Frontier(2026년 5월 기준 Top500 2위), AI 가속기를 아우르는 통합 스케줄링 환경을 구축 중입니다 — 모두 동일한 OLCF 데이터 센터 안에서 운영됩니다. 소프트웨어 아키텍처는 2025년 8월에 공개되었으며, 최초의 물리적 양자-GPU 하드웨어(NVIDIA GB200 NVL72)는 2026년 초에 설치되었습니다. 목표는 고전 노드에서 50~60큐비트 등가 연산을 모델링하는 하이브리드 실행입니다.

일정은 계획에서 실리콘으로 꾸준히 진행되어 왔습니다. 소프트웨어 아키텍처 연구는 2025년 8월에 발표되었습니다. 2025년 11월 3일에는 ORNL, NVIDIA, HPE가 구체적인 하드웨어 협업을 발표했으며, NVIDIA GB200 NVL72 시스템이 2026년 초 오크리지 리더십 컴퓨팅 시설(OLCF) 데이터 센터에 실물로 설치되었습니다.

스택의 고전 컴퓨팅 기반은 Frontier입니다 — AMD EPYC 64코어 2GHz 프로세서와 AMD Instinct MI250X GPU를 탑재한 HPE Cray EX235A 시스템입니다. 2026년 5월 기준 Frontier는 Top500 목록에서 2위를 기록하고 있습니다. 도입 예정인 양자 테스트베드는 동일한 OLCF 건물 내에 위치합니다. 물리적 공동 배치는 의도된 설계 선택입니다. 고전-양자 간 I/O가 광역 네트워크가 아닌 로컬 인터커넥트를 통해 이동한다는 의미이기 때문입니다. 원격 QPU API 모델(클라우드 양자 서비스에 사용되는 아키텍처)은 네트워크 왕복 오버헤드를 수반하므로, QPU와 HPC 노드 간의 긴밀한 반복 피드백 루프를 대규모로 실행하기가 비현실적입니다.

기존 옵션과 비교해 평가 중인 개발자를 위해 설명하자면, ORNL 스택은 클라우드 QPU 접근 방식(IBM Quantum, Azure Quantum, AWS Braket)과 같은 범주가 아닙니다. 해당 서비스들은 워크로드 격리와 공유 스케줄링을 갖춘 HTTP API를 통해 QPU를 노출합니다. ORNL이 구축하는 것은 정밀하게 결합된 이기종 컴퓨트 클러스터에 가깝습니다 — GPU와 CPU가 동일한 PCIe 버스를 공유하는 환경을, QPU가 동일한 시설 네트워크를 공유하도록 확장한 형태입니다. 지연 시간과 결합 특성은 질적으로 다르며, 바로 그 차이가 이 아키텍처 전체의 전제입니다.

소프트웨어 아키텍처를 구성하는 네 가지 요소

Amir Shehata가 주도하고 Tom Beck(국립 계산 과학 센터 과학 참여 부서 책임자)과 Rafael Ferreira da Silva(워크플로 및 에코시스템 서비스 그룹 리더)가 공동 저술한 2025년 8월 아키텍처 연구 는 네 가지 구성 요소로 이루어진 소프트웨어 스택을 정의합니다. 각 구성 요소는 목적에 맞는 미들웨어 없이 양자 및 고전 워크로드를 동일한 스케줄러로 실행하려 할 때 나타나는 서로 다른 장애 유형을 해결합니다.

구성 요소	주요 기능	해결하는 통합 문제
통합 리소스 관리 시스템	양자 및 고전 노드 전반에 걸쳐 작업 스케줄링	시스템 간 리소스 할당의 수동 조정 제거
유연한 양자 프로그래밍 인터페이스	QPU 대상을 위한 하드웨어 추상화 레이어	특정 QPU 아키텍처 또는 벤더 종속 방지
양자 플랫폼 관리 인터페이스(QPMI)	고전 OS/스케줄러 의미 체계와 QPU 제어 플레인 간의 번역기	HPC 작업 제어와 QPU 운영 간의 의미적 불일치 해소
종합 툴 체인	회로 최적화 및 실행 파이프라인	작업당 결합성 시간 요구 사항 및 QPU 벽시계 사용 감소

통합 리소스 관리 시스템은 스케줄러 레이어입니다. 이 시스템의 역할은 어느 시점에서든 어떤 QPU가 사용 가능한지, 현재 큐 상태가 어떤지를 파악하고 — 연구자들이 두 개의 별도 큐를 관리할 필요 없이 — 양자 작업을 고전 작업 스케줄링 모델에 맞추는 것입니다. Frontier의 기존 작업 스케줄러는 QPU 제어 플레인과 근본적으로 다른 추상화 위에서 동작합니다. 양자 플랫폼 관리 인터페이스(QPMI)는 바로 이 의미적 격차를 해소하기 위해 존재합니다. HPC 측 개념(작업 할당, 노드 예약, 리소스 과금)을 QPU 펌웨어가 실제로 이해하는 하위 수준의 제어 플레인 명령으로 변환합니다.

유연한 양자 프로그래밍 인터페이스는 이식성 레이어입니다. 대상 QPU가 초전도 큐비트, 다이아몬드 질소-공공(NV) 센터, 중성 원자, 트랩 이온 중 어느 것을 사용하든 공통 프로그래밍 인터페이스를 제공합니다. 이 구성 요소가 모듈성 목표를 구체화합니다. 현재까지 어떤 QPU 기술도 대규모 상용 환경에서의 준비 완성도를 확실히 입증한 바 없으며 , 특정 QPU 유형에 대한 가정을 하드코딩한 스택은 하드웨어 세대가 전환될 때 상당한 재작업이 필요합니다 — 이 설계가 구조적으로 피하고자 하는 바로 그 재작업 비용입니다.

종합 툴 체인은 QPU 제출 전 회로 전처리를 담당합니다. 불필요하게 깊거나 넓은 양자 회로는 필요 이상의 결합성 시간을 소모해 오류 누적률을 직접적으로 높입니다. AI 기반 전처리로 회로 깊이와 게이트 수를 줄이면 현재 하드웨어에서 실질적으로 사용 가능한 계산 시간이 늘어납니다 — 근기간 모든 QPU가 직면한 결합성 제약을 감안하면 의미 있는 실질적 이득입니다. 툴 체인은 또한 추상 회로 연산을 대상 QPU의 네이티브 게이트 집합에 매핑하는 컴파일 및 트랜스파일 작업도 처리합니다.

전체 스택의 근기간 벤치마크는 Frontier가 단일 하이브리드 실행에서 50~60큐비트에 상당하는 시뮬레이션을 수행하는 것입니다 . 이는 해당 큐비트 규모에서 QPU 출력을 검증하고 비교하는 데 필요한 워크로드인 고전 HPC 시뮬레이션 목표이며, 설치된 장치의 물리적 큐비트 수가 아닙니다. 이를 달성하려면 전체 양자 상태 벡터를 표현하기 위한 Frontier 측의 상당한 메모리와 연산 자원이 필요합니다.

"우리는 앞서 나가고, 가능한 한 많은 사람이 참여하는 개발을 이끌어 나가고 싶습니다." — Amir Shehata, 수석 연구원, ORNL 국립 계산 과학 센터

하드웨어 레이어: NVIDIA GB200, CUDA-Q, NVQLink

2025년 11월 ORNL-NVIDIA-HPE 발표 는 소프트웨어 아키텍처를 실제 하드웨어 배포로 구현한 전환점이었습니다. 핵심은 HPE가 구축한 NVIDIA GB200 NVL72 시스템으로, 2026년 초 Frontier가 자리한 OLCF 데이터센터 건물에 설치되었습니다. 이 물리적 동일 위치 배치를 실질적으로 의미 있게 만드는 두 가지 기술이 있습니다. 바로 통합 프로그래밍 모델인 CUDA-Q와, GPU 컴퓨트와 QPU 제어 하드웨어를 연결하는 하드웨어 인터커넥트 NVQLink입니다.

기술	분류	스택 내 역할	핵심 특성
NVIDIA GB200 NVL72	하드웨어 시스템 (HPE 제작)	GPU 기반 고전 컴퓨팅 및 QPU 시뮬레이션 호스트	2026년 초 Frontier와 함께 OLCF 내부에 설치
NVIDIA CUDA-Q	프로그래밍 플랫폼 (오픈소스)	실제 QPU 또는 GPU 시뮬레이션 양자 백엔드를 대상으로 하는 통합 코드 레이어	동일 코드베이스, 백엔드 전환 가능 — 애플리케이션 재작성 불필요
NVIDIA NVQLink	하드웨어 인터커넥트	GPU 슈퍼컴퓨터와 양자 프로세서 간 직접 연결	네트워크 연결형 QPU 방식 대비 고전↔양자 왕복 지연 감소

CUDA-Q는 개발자가 직접 사용하는 프로그래밍 모델입니다. 하이브리드 양자-고전 알고리즘을 위한 단일 API 인터페이스를 제공하며, GPU 시뮬레이션 양자 백엔드에서 실행되는 코드가 백엔드 선택 파라미터만 바꾸면 실제 QPU를 대상으로 동작합니다. 이는 단순한 이식성 편의 기능이 아닙니다. 물리적 QPU 하드웨어 할당을 확보하기 전에 알고리즘 프로토타이핑 전체를 GPU 하드웨어(현재 로컬 또는 클라우드로 이용 가능)에서 진행할 수 있음을 의미합니다. CUDA-Q는 오픈소스로 현재 이용 가능하며 , 외부 개발자에게 스택 내에서 가장 접근하기 쉬운 진입점입니다.

NVQLink는 물리적 동일 위치 배치를 하드웨어 수준에서 실질적으로 만드는 인터커넥트 레이어입니다. 네트워크 연결형 QPU 방식 — 고전 컴퓨팅이 TCP/IP로 회로를 전송하고 결과를 폴링하는 방식 — 은 왕복 지연이 중요하지 않은 배치형 양자 작업에는 유효합니다. 그러나 실시간 오류 정정처럼 긴밀하게 결합된 반복 워크플로에서는 한계를 드러냅니다. 이 경우 고전 디코더가 신드롬 데이터를 수신하고, 정정값을 계산하고, QPU 코히어런스 윈도 내에 QPU 제어 플레인으로 결과를 돌려보내야 합니다. NVQLink는 QPU를 원격 서비스가 아닌 긴밀하게 결합된 장치로 취급함으로써 이 왕복 비용을 줄이고, 아키텍처 연구에서 설명한 AI 기반 오류 정정 피드백 루프를 가능하게 합니다 .

전체 하드웨어 플랫폼은 프로토콜 독립적으로 설계되었습니다. CUDA-Q와 ORNL 추상화 레이어는 초전도, NV 센터, 중성 원자, 이온 트랩 등 다양한 QPU 방식을 수용하며, 기반 양자 하드웨어가 바뀌어도 애플리케이션 레이어 코드 변경이 필요 없습니다. 이는 2025년 8월 설계 연구에서 제시한 모듈성 요건의 직접적인 결과입니다 . 이미 현장에 설치된 IQM 초전도 QPU와 Quantum Brilliance 상온 NV 센터 QPU 모두 백엔드별 애플리케이션 코드 없이 동일한 스택 인터페이스를 통해 접근할 수 있습니다.

"NVIDIA, HPE와 ORNL의 파트너십은 하이브리드 컴퓨팅의 새 시대를 열고 있습니다." — Stephen Streiffer, 소장, Oak Ridge National Laboratory

스택 내 QPU 방식: 상온형 vs. 극저온형

ORNL 스택에는 현재 두 종류의 QPU가 설치되어 있으며, 성숙 단계에 접어드는 두 종류를 추가로 명시적으로 지원한다. 이 구분은 단순한 기술 선호의 문제가 아니라, QPU를 기존 HPC 하드웨어와 얼마나 가깝게 물리적으로 배치할 수 있는지에 직결되는 인프라 문제다. 운영 관점에서 가장 중요한 경계선은 상온 시스템과 극저온 시스템의 차이다. 이 간극이 QPU를 Frontier 노드 옆 표준 컴퓨트 랙에 바로 설치할 수 있는지, 아니면 전용 희석 냉동기 인클로저가 별도로 필요한지를 결정하며, 이는 시스템 전체의 인터커넥트 지연 특성을 바꾼다.

항목	Quantum Brilliance NV-센터 (상온)	IQM 초전도 (극저온)
동작 온도	상온 (~293 K)	~15 밀리켈빈 (희석 냉동기 필수)
게이트 충실도 (현 세대)	낮음 — NV-센터 게이트 기술은 아직 성숙 단계	높음 — 초전도 방식은 현재 배치된 QPU 중 게이트 성숙도가 가장 높음
물리적 공간	랙 단위 — 표준 HPC 랙 인클로저와 호환	대형 — 희석 냉동기로 인해 부피가 크고 서비스 여유 공간 필요
HPC 공동 배치 가능성	기존 클래식 노드와 동일 랙에 직접 통합 가능	별도 냉각 인클로저 필요; 클래식 노드와의 인터커넥트에서 지연 발생
OLCF 현재 상태	현장 설치 완료, 테스트베드에 통합	OLCF 현장 설치 완료, 게이트 운용 성숙도 높음

Quantum Brilliance의 다이아몬드 NV-센터 QPU는 합성 다이아몬드 결정 내 질소-공공 결함을 통해 동작한다. 이 결함 위치의 전자 스핀 상태가 큐비트 역할을 한다. 다이아몬드 격자가 상온에서도 열 잡음으로부터 자연적인 차폐를 제공하기 때문에 희석 냉동기가 필요 없으며, 이는 기존 HPC 데이터센터 내부에 공동 배치하는 것이 목표일 때 운영상 큰 이점이 된다. 다만 게이트 충실도 면에서는 트레이드오프가 존재한다. NV-센터 기술은 초전도 시스템 대비 아직 성숙 단계에 있어 단기적으로 이 QPU가 생산적으로 수행할 수 있는 작업에 제약이 따른다. 현재 이 방식이 제공하는 아키텍처적 가치는 높은 게이트 충실도 워크로드 처리보다는, 랙 단위 양자-클래식 공동 배치가 실현 가능한 운영 모델임을 실증하는 데 있다.

IQM의 초전도 QPU는 현재의 충실도-인프라 트레이드오프에서 반대편 극단에 위치한다. 초전도 큐비트는 희석 냉동기로 달성하는 약 15 밀리켈빈의 동작 온도가 필요하며, 이 냉동기는 부피가 크고 비용이 높아 표준 HPC 랙 환경과 호환되지 않는다. 그러나 현재 배치된 QPU 기술 중 달성 가능한 최고 수준의 게이트 충실도를 제공하기 때문에, 본격적인 양자 알고리즘 개발을 위한 단기 주력 플랫폼으로 자리를 유지하고 있다. IQM 시스템은 이미 OLCF 현장에 설치되어 있다 .

추상화 계층은 애플리케이션 계층의 변경 없이 중성 원자 및 이온 트랩 시스템을 수용한다. 중성 원자 플랫폼(QuEra, Pasqal)과 이온 트랩 시스템(IonQ, Quantinuum)은 제어 플레인 의미 체계와 결맞음 특성이 서로 다르지만, 유연 양자 프로그래밍 인터페이스가 그 차이를 API 표면 아래에서 흡수한다. ORNL은 어떤 단일 QPU 기술도 지배적 우위를 입증하기 전에 추상화 계층을 먼저 구축했기 때문에, 연구자들이 하이브리드 알고리즘을 재작성할 필요 없이 새로운 QPU 방식이 유효한 충실도 임계값에 도달하는 시점에 도입할 수 있다. 이것이 이 설계의 실질적 이점이다.

AI가 스택에서 차지하는 위치

ORNL 양자-고전 스택에서 AI의 역할은 양자 출력을 사후 처리하는 것이 아닙니다. AI는 오류 수정과 회로 최적화라는 두 가지 뚜렷한 운영 지점에서 제어 루프 안에 내장되어 있습니다. 두 기능 모두 고전 HPC 노드에서 실행되며, Frontier의 컴퓨팅 용량을 활용하는 동시에 QPU 실행 사이클에 맞출 만큼 빠르게 동작합니다. 세 번째 방향은 역방향으로, QPU가 ML 워크로드에 유리한 샘플링 이점을 제공할 수 있는지 살펴보는 것인데, 2026년 5월 현재 이 방향은 개념 증명 이전 단계에 머물러 있습니다 .

양자 오류 수정은 AI 통합의 효과가 가장 즉각적으로 나타나는 영역입니다. 실제 QPU의 모든 물리적 큐비트는 디코히어런스에 노출되어 있습니다. 환경 노이즈, 제어 불완전성, 인접 큐비트 간 혼선이 회로 실행 시간 동안 누적 오류를 만들어냅니다. 양자 오류 수정 코드는 여러 물리적 큐비트에 걸쳐 논리 큐비트를 인코딩함으로써 이러한 오류를 감지하고 수정하지만, 디코히어런스가 양자 상태를 파괴하기 전에 디코딩하고 대응해야 하는 연속적인 신드롬 데이터 스트림을 생성합니다. 최소 가중치 완전 매칭 같은 고전적 규칙 기반 디코더는 소규모에서는 작동하지만, 대형 QPU가 생성하는 신드롬 볼륨을 효율적으로 처리하지 못합니다. Frontier의 GPU 노드에서 실행되는 신경망 디코더는 더 높은 처리량으로 이 디코딩 작업을 수행해, 실질적인 오류 수정에 중요한 속도로 피드백 루프를 완성합니다 .

회로 최적화는 두 번째 통합 지점입니다. 양자 회로를 QPU에 제출하기 전에 AI 모델이 알고리즘의 논리적 출력을 바꾸지 않으면서 회로 깊이와 게이트 수를 줄이는 전처리를 수행합니다. 더 얕은 회로는 디코히어런스가 상당한 오류를 축적하기 전에 완료되므로, QPU 작업당 유효 코히어런스 창을 효과적으로 확장합니다. 또한 QPU 큐 대기 시간도 줄어듭니다. 게이트 연산이 줄면 완료 속도가 빨라지고, 할당 시간이 제한된 공유 양자 하드웨어에서 처리량이 개선됩니다.

핵심 하이브리드 워크플로는 계산 작업을 적성에 따라 분리합니다. QPU는 양자 샘플링을 담당합니다. 예를 들어 분자 에너지 계산을 위한 전자 상태 구성을 샘플링합니다. 이후 고전 노드가 현재 양자 하드웨어에는 적합하지 않은 고유값 문제(행렬 대각화)를 풀어냅니다. 경계에서의 데이터 인계는 간단하지 않습니다. 양자 결과는 2ⁿ 차원의 힐베르트 공간에 존재하기 때문에, QPU 측정 결과에서 해석 가능한 물리량을 추출하려면 신중한 고전적 분석이 필요합니다.

QPU가 ML을 가속화하는 탐색적 역방향 — QPU가 ML 워크로드를 가속화하는 방향 — 은 양자 프로세서가 고전 하드웨어보다 더 효율적으로 고차원 확률 분포를 샘플링할 수 있는지에 초점을 맞춥니다. 이 이점이 실현된다면 매우 큰 상태 공간에서 ML 손실 함수 최적화 비용을 줄일 수 있습니다. ORNL이 이를 연구하고 있지만 이 영역에서 양자 우위를 아직 입증하지는 못했습니다 . 프로덕션 AI 시스템을 구축하는 개발자에게 이는 실행 가능한 경로가 아니라 주시해야 할 항목입니다.

지정학적·경쟁적 맥락

2025년 8월 ORNL 아키텍처 연구는 유럽과 일본이 병행하여 양자-HPC 통합 프로그램을 운영하고 있음을 명시적으로 언급하며, 이 분야를 순수 연구가 아닌 지정학적 경쟁 영역으로 규정합니다 . 미국 국립연구소는 역사적으로 고전 HPC 인프라에서 선두를 유지해 왔으며, DOE가 ORNL 프로젝트를 규정하는 방식은 다른 프로그램이 통합 성숙 단계에 도달하기 전에 그 선두를 하이브리드 양자-고전 시스템으로 확장하겠다는 의도를 반영합니다.

자금 투입 규모가 이 우선순위를 방증합니다. DOE는 2030년까지 ORNL 양자과학센터(QSC)에 최대 1억 2,500만 달러를 투입하기로 약속했습니다 . ORNL은 이 수준의 QSC 자금을 받는 다섯 개 국립연구소 중 하나이며, 나머지는 아르곤, 브룩헤이븐, 로렌스 버클리, 페르미랩입니다 . QSC의 산업 파트너에는 IBM, Atom Computing, QuEra, IonQ가 포함되며, 학술 파트너로는 칼텍, UC 버클리, 퍼듀대학교가 있습니다. 2026년 3월에는 DOE의 제네시스 미션 이니셔티브가 17개 국립연구소 전체를 Microsoft, NVIDIA, OpenAI와 연결하며 에너지 및 국가 안보 분야의 핵심 과학 과제 26개를 해결하기 위해 2억 9,300만 달러를 추가했습니다 .

스택 설계의 모듈화 요건도 전략적 헤지입니다. 아키텍처를 단일 QPU 벤더나 방식에 고정하면 해당 벤더의 하드웨어 로드맵에 종속됩니다. 어떤 QPU 기술이 가장 높은 확장성을 입증할지 현재 불확실한 상황에서, 방식에 구애받지 않는 스택만이 전면 재작업 없이 여러 하드웨어 세대를 살아남을 수 있는 설계입니다. ORNL이 명시적으로 배제한 목표는 QPU 벤더 종속이며, 소프트웨어 아키텍처와 CUDA-Q 모두의 추상화 레이어가 이를 직접 반영합니다.

"미국의 고성능 컴퓨팅 리더십을 유지하려면 다음 컴퓨팅 시대, 즉 가속 양자 슈퍼컴퓨팅으로 가는 다리를 놓아야 합니다." — 크리스 라이트, 미국 에너지부 장관, ORNL OLCF 발표, 2025년 11월

ORNL의 인프라 로드맵에는 스택 용량을 확장하는 두 대의 추가 시스템이 포함되어 있습니다. Lux는 AMD 주도 AI 클러스터(AMD Instinct MI355X GPU, AMD EPYC CPU, HPE ProLiant Compute XD685 노드)로, 핵융합·재료과학·양자 연구 지원을 위한 대규모 AI 훈련을 목표로 2026년 초 배포가 예정되어 있습니다 . 2028년 도입 예정인 Discovery 는 HPE의 Cray GX5000 아키텍처에 AMD EPYC 'Venice' CPU와 AMD Instinct MI430X GPU를 탑재하며, 모든 시스템 구성 요소에서 Frontier를 크게 뛰어넘는 성능을 제공하고 HPC·AI·양자 컴퓨팅의 수렴을 개척하는 명시적 미션을 부여받았습니다.

지금 개발자가 할 수 있는 것들

ORNL 양자-클래식 스택의 대부분은 아직 외부 개발자에게 온디맨드 서비스로 제공되지 않습니다 — OLCF의 물리적 QPU 시간은 신청 검토 주기가 있는 공식 DOE 프로그램을 통해 배정됩니다. 그럼에도 지금 당장 취할 수 있는 구체적인 행동이 있으며, 2025년 8월 아키텍처 연구의 공개 문서는 자체 하이브리드 스케줄링 시스템을 구축하는 팀에게 유의미한 설계 신호를 제공합니다.

가장 즉각적으로 유용한 도구는 CUDA-Q입니다. NVIDIA의 하이브리드 양자-클래식 프로그래밍 플랫폼은 오픈 소스로, 지금 바로 로컬에서 사용할 수 있습니다 . 개발자는 CUDA-Q의 API를 사용해 하이브리드 양자-클래식 알고리즘을 작성하고, QPU 접근 없이도 표준 GPU 하드웨어에서 GPU 시뮬레이션 양자 백엔드를 대상으로 실행할 수 있습니다. 하드웨어 할당이 가능해지면 백엔드 선택기만 변경해 동일한 코드로 실제 QPU를 대상으로 삼을 수 있습니다. 이로써 CUDA-Q는 물리적 하드웨어 접근 이전에 알고리즘 프로토타이핑과 벤치마킹을 위한 실용적인 선택지가 됩니다. 또한 이 프로그래밍 모델은 OLCF 테스트베드에서 사용하는 것과 동일하므로, 로컬에서 개발한 코드를 ORNL 환경에 바로 이식할 수 있습니다.

실제 HPC 및 양자 하드웨어 접근이 필요한 팀을 위해 ORNL OLCF는 두 가지 할당 프로그램을 운영합니다. DOE INCITE 프로그램(Innovative and Novel Computational Impact on Theory and Experiment)은 상당한 컴퓨팅 자원이 필요한 연구 제안서에 대해 대규모 다년 할당을 처리합니다 — 본격적인 하이브리드 알고리즘 개발을 수행하는 그룹에 적합합니다. Director's Discretion 프로그램은 더 간소한 신청 절차와 짧은 검토 주기로 소규모 탐색적 할당을 제공하며, 완전한 INCITE 제안에 나서기 전 초기 단계의 양자 알고리즘 검증을 수행하는 팀에 더 적합합니다.

2025년 8월 아키텍처 연구는 OLCF를 통해 공개되어 있으며 , 자체 하이브리드 클래식-양자 스케줄링 로직을 설계하는 모든 팀이 읽어볼 만합니다. 네 가지 구성 요소 — 리소스 관리, 프로그래밍 인터페이스, 플랫폼 관리 인터페이스, 툴체인 — 의 분류는 양자 작업이 클래식 HPC 스케줄러를 통해 실행될 때 통합 복잡성이 집중되는 지점을 파악하는 실용적인 분류 체계입니다. 이 설계 패턴은 OLCF 접근과 무관하게 적용할 수 있습니다.

단기적으로 실용적인 상한선은 단일 하이브리드 실행에서 Frontier의 50–60 큐비트 상당 시뮬레이션입니다 . 맥락을 더하자면, 진정한 양자 우위 — QPU가 유용한 문제를 어떤 클래식 시스템보다 빠르게 해결하는 것 — 는 프로덕션 워크로드에 영향을 미칠 만한 문제 규모에서 아직 입증되지 않았습니다. 변분 양자 고유치 해법(variational quantum eigensolvers)이나 양자 근사 최적화(quantum approximate optimization) 같은 알고리즘은 실제 계산적 가치를 제공할 문제 크기에서 여전히 연구 단계에 머물러 있습니다. 프로덕션 시스템을 구축하는 개발자는 지금은 양자 구성 요소를 프로덕션 가속기 경로가 아닌 연구 트랙으로 다루어야 합니다.

자주 묻는 질문

CUDA-Q란 무엇이며, ORNL 양자 스택과 어떤 관계인가?

CUDA-Q는 NVIDIA의 오픈소스 하이브리드 양자-고전 프로그래밍 플랫폼입니다. 단일 API를 제공해 개발자가 양자-고전 알고리즘을 한 번만 작성하면, 초전도·NV-센터·이온 트랩·중성 원자 방식의 실제 QPU는 물론 GPU 가속 QPU 시뮬레이션에도 실행할 수 있습니다. 백엔드는 애플리케이션 코드를 변경하지 않고 런타임에 선택 가능합니다. ORNL 스택에서 CUDA-Q는 GB200 NVL72 GPU 시스템과 OLCF에 설치된 QPU를 연결하는 핵심 프로그래밍 계층입니다. 오픈소스로 지금 바로 사용할 수 있어, 외부 개발자 입장에서 ORNL 아키텍처 중 가장 접근하기 쉬운 부분이기도 합니다. 팀은 GPU 하드웨어로 로컬에서 하이브리드 알고리즘을 프로토타이핑한 뒤, 할당을 받으면 OLCF로 직접 이식할 수 있습니다. Source: ORNL OLCF, November 2025.

QPU 작동 온도가 HPC 통합에 중요한 이유는?

초전도 방식 극저온 QPU는 현재 게이트 충실도 면에서 가장 성숙한 옵션으로, 절대영도보다 약 0.015도 높은 15밀리켈빈 근처에서 동작하는 희석 냉각기가 필요합니다. 이 냉각기는 물리적으로 크고 전용 인프라와 서비스 여유 공간이 요구되며, 표준 HPC 랙 인클로저와 호환되지 않습니다. 따라서 극저온 QPU는 같은 랙 열에 고전 컴퓨팅 노드와 나란히 배치할 수 없으며, 별도의 냉각 인클로저가 필요해 QPU와 고전 노드 사이의 인터커넥트 거리와 지연이 늘어납니다. OLCF에 설치된 Quantum Brilliance의 다이아몬드 기반 시스템처럼 상온에서 동작하는 NV-센터 QPU는 냉각기 요구 사항을 완전히 없애, Frontier 노드와 나란히 랙 규모로 직접 통합할 수 있습니다. 이 동일 위치 배치는 고전-양자 인터커넥트 거리와 지연을 줄이며, ORNL 스택이 구축된 AI 기반 오류 정정 피드백 루프의 전제 조건입니다.

ORNL 양자 오류 정정에서 AI가 맡는 역할은?

고전 HPC 노드에서 실행되는 AI 모델이 QPU 실행 중 생성되는 양자 오류 신드롬을 지속적으로 디코딩합니다. 물리적 큐비트에 디코히어런스 이벤트가 발생하면, 주변 양자 오류 정정 코드가 신드롬 데이터를 생성합니다. 이는 어디서, 어떤 유형의 오류가 발생했는지를 나타내는 보조 큐비트 측정 패턴입니다. 이 신드롬 스트림은 추가 디코히어런스가 양자 상태를 파괴하기 전에 정정 정보를 QPU 제어 플레인에 피드백할 수 있을 만큼 빠르게 디코딩되어야 합니다. 고전적 규칙 기반 디코더(최소 가중치 완전 매칭 등)는 소규모에서는 작동하지만 대형 QPU의 신드롬 볼륨을 효율적으로 처리하지 못합니다. Frontier GPU 노드의 신경망 디코더는 더 높은 신드롬 속도에서 더 나은 처리량과 정확도를 제공해 실시간 반복 피드백에 실용적인 선택지가 됩니다. 디코히어런스는 실용적 양자 우위를 가로막는 가장 큰 장벽이며, AI 기반 오류 정정은 ORNL 아키텍처에서 운영상 가장 중요한 구성 요소 중 하나입니다. Source: Next Platform, May 2026.

Frontier는 하이브리드 모드에서 몇 큐비트까지 효과적으로 시뮬레이션할 수 있나?

단기 목표는 단일 하이브리드 실행에서 50~60 큐비트 동등 시뮬레이션입니다. 이는 고전 HPC 워크로드 목표이며, 설치된 QPU의 물리적 큐비트 수가 아닙니다. n큐비트 양자 시스템을 정확히 시뮬레이션하려면 2ⁿ개의 복소 진폭으로 이루어진 상태 벡터를 저장해야 합니다. 50큐비트에서는 약 2⁵⁰개의 진폭, 즉 페타바이트 규모의 메모리가 필요합니다. 이는 Frontier 규모에서는 처리 가능하지만 일반 컴퓨팅 클러스터에서는 불가능합니다. 50~60큐비트 목표는 Frontier가 물리적 QPU 결과를 검증하거나 비교하기 위한 기준 출력을 생성할 수 있는 벤치마크를 정의하며, QPU 출력만을 신뢰하기 전에 의미 있는 검증 기준선을 확립합니다. 이는 모델링 역량이지, OLCF에 설치된 물리적 큐비트에 관한 주장이 아닙니다. Source: ORNL OLCF, August 2025.

외부 개발자도 ORNL 양자-고전 테스트베드에 접근할 수 있나?

OLCF 양자 하드웨어(IQM 초전도 QPU, Quantum Brilliance NV-센터 QPU, 관련 GB200 NVL72 시스템)에 직접 접근하려면 DOE 할당 프로그램을 통해야 하며, 온디맨드 서비스로는 제공되지 않습니다. INCITE 프로그램(Innovative and Novel Computational Impact on Theory and Experiment)은 과학적 기여도와 컴퓨팅 필요성을 기준으로 평가하는 대규모 다년간 연구 할당을 담당하며, 제안서는 경쟁 심사를 거쳐 매년 검토됩니다. Director's Discretion 프로그램은 절차가 간소화된 소규모 탐색 할당으로, 검토 주기가 짧아 초기 단계 알고리즘 검증에 적합합니다. 두 프로그램 모두 학계와 산업계의 미국 및 국제 연구팀에 열려 있습니다. 할당을 기다리지 않고 프로토타이핑하려는 개발자에게는 CUDA-Q가 오픈소스로 제공되며, 실제 하드웨어를 대상으로 하는 것과 동일한 API를 사용해 GPU 시뮬레이션 양자 백엔드를 지원합니다. 공식적인 OLCF 접근 전 현실적인 출발점이 됩니다.

다음 단계: 테스트베드에서 운영 스택으로

ORNL의 양자-고전-AI 스택은 일반적인 제품 출시 일정으로는 분류하기 어려운 단계에 와 있습니다. 물리적 하드웨어는 설치됐습니다. 소프트웨어 아키텍처는 문서화되어 게시·공개된 상태입니다. 세계 최강급 고전 슈퍼컴퓨터와 실제 QPU가 같은 공간에 배치된 첫 하이브리드 실행이 진행 중입니다. 하지만 이 시스템은 실용적으로 유의미한 문제에서 고전 방식 대비 양자 우위를 입증하는 결과물을 아직 내놓지 못하고 있습니다. 이 격차는 ORNL의 실행력 문제가 아니라 업계 전반의 QPU 하드웨어 현황을 그대로 반영합니다.

더 넓은 분야를 놓고 볼 때 가장 중요한 설계 선택은 추상화와 모듈성 결정입니다. 하드웨어 무관 QPU 인터페이스, 양자 노드와 고전 노드를 동일 스케줄러 내 대등한 자원으로 취급하는 통합 자원 관리, 그리고 AI를 하류의 일괄 분석 레이어가 아닌 오류 정정 피드백 루프의 실시간 운영 구성 요소로 내장한 것이 그 핵심입니다. 이 패턴들은 어떤 QPU 기술이 궁극적으로 가장 확장 가능한 것으로 판명되든 다른 하이브리드 컴퓨팅 환경에 그대로 적용할 수 있습니다. 2025년 8월의 아키텍처 연구는 하이브리드 스케줄링 시스템을 설계하는 팀이라면 누구든 직접 참고할 수 있는 형태로 이 내용을 담아냈습니다. 통합 문제의 분류 체계로서 그 자체만으로도 읽어볼 가치가 있습니다.

2028년 Discovery 시스템, 현재 진행 중인 Genesis Mission Initiative, 그리고 2030년까지 확정된 1억 2,500만 달러의 QSC 자금 은 이 흐름이 이어진다는 것을 시사합니다. 재설계 없이 더 강력한 하드웨어를 수용하도록 설계된 아키텍처 위에 점점 더 발전된 하드웨어가 쌓여가는 방식입니다. 개발자에게 오늘의 진입로는 CUDA-Q입니다. 연구자에게는 DOE 할당 프로그램이 실제 하드웨어로 가는 길입니다. 하이브리드 컴퓨팅 아키텍처를 설계하는 모든 이에게, ORNL의 공개 문서는 현재 이 종류의 시스템에 대해 가장 상세한 실용적 청사진입니다.

최종 수정: 2026-05-27. 2025년 8월부터 2026년 5월까지의 ORNL OLCF 발표 및 아키텍처 게시물, 그리고 통합 스택 아키텍처에 관한 Next Platform 기사를 기반으로 합니다.