인텔이 차세대 제온 프로세서와 데이터센터 GPU 하드웨어의 가치를 극대화할 수 있게 지원하는 개발 도구 ‘원API(oneAPI)’의 2023 버전을 공개했다. 새 버전에서는 인텔의 최신 하드웨어에 대한 지원 뿐 아니라, 엔비디아 쿠다(CUDA) 기반 코드의 SYCL(이기종 프로그래밍을 할 수 있도록 하는 고급 언어) 마이그레이션 기능도 본격적으로 제공된다.

인텔은 20일, 향상된 성능과 기능, 생산성을 제공하는 원API 2023 툴을 공개했다. 원API 2023 툴은 다양한 하드웨어로 구성된 복잡한 멀티 아키텍처 시스템에서 실행되는 고성능 애플리케이션을 쉽게 개발할 수 있도록 지원하며, 인텔 디벨로퍼 클라우드(Intel Developer Cloud) 및 공식 리테일 채널을 통해 제공된다.

새롭게 공개하는 인텔 2023 개발자 툴에는 원API로 구동되는 CPU(중앙처리장치), GPU(그래픽처리장치), FPGA(비메모리 반도체)를 위한 고성능 멀티 아키텍처 애플리케이션을 구축하기 위한 최신 컴파일러, 라이브러리, 분석 및 포팅 도구, 최적화된 인공지능 및 머신러닝 프레임워크가 포함되어 있다.

또한, 4세대 인텔 제온 스케일러블 프로세서와 제온 CPU 맥스 시리즈, 플렉스 시리즈 및 신규 맥스 시리즈를 포함한 인텔 데이터센터 GPU 제품군의 하드웨어 가치를 극대화할 수 있게 지원한다.

최신 하드웨어의 잠재력을 극대화하는 ‘원API’ /인텔
최신 하드웨어의 잠재력을 극대화하는 ‘원API’ /인텔
새로운 원API 툴은 개발자들이 4세대 인텔 제온 스케일러블 프로세서 및 인텔 CPU 맥스 시리즈 프로세서에서 지원하는 AMX(Advanced Matrix Extensions), AVX-512, bfloat16 지원, QAT(QuickAssist Technology) 등의 가속 기능들을 활용해 워크로드 처리 성능을 크게 끌어올릴 수 있게 지원한다.

또한 인텔의 데이터센터 GPU가 제공하는 XMX(Xe Matrix Extensions), 벡터 엔진, 하드웨어 기반 AV1 인코더 등의 기능들도 효과적으로 접근, 활용할 수 있는 환경을 제공한다.

인텔 포트란 컴파일러는 포트란2018 등 포트란 언어 표준을 지원하며, 오픈MP(OpenMP) GPU 지원을 확대해 표준 준수 애플리케이션 개발 속도를 높인다. 또한 확장된 오픈MP 오프로드 기능을 갖춘 인텔 원API 매스 커널 라이브러리(oneMKL)로 휴대성을 높였다. 인텔 원API 딥 뉴럴 네트워크 라이브러리(oneDNN)는 인텔 AMX, 인텔 AVX-512, VNNI 및 bfloat16을 포함한 4세대 인텔 제온 및 인텔 맥스 CPU 프로세서의 고급 딥 러닝 기능을 지원한다.

최신 하드웨어의 장점을 적극적으로 활용할 경우, AI나 HPC 워크로드에서 큰 폭의 성능 향상을 달성할 수 있다. 예를 들어, MLPerf DeepCAM 딥러닝 추론 및 학습 성능 벤치마크에서 원API를 통해 최적화된 인텔의 제온 CPU 맥스 시리즈 프로세서는 AVX-512 사용시, FP32 기반의 AMD 에픽 7773X 대비 두 배의 성능을 제공한다. 또한 AMX를 활용하는 경우에는 AMD 에픽 대비 3.6배의 성능을 보이며, 이는 AMD 에픽 대비 2.4배의 성능을 보인 엔비디아의 A100 GPU보다도 상당히 높은 수준이다.

CPU와 GPU가 함께 사용되는 환경을 단일 개발 환경에서 최적화된 형태로 다룰 수 있다는 점도 원API의 큰 장점이다. 제온 CPU 맥스 시리즈 프로세서와 6개의 인텔 데이터센터 GPU 맥스 시리즈가 사용되는 환경에서의 LAMMPS 워크로드 성능은 제온 CPU 맥스 시리즈 프로세서만 사용하는 경우보다 최대 10배의 성능 차이를 보인다. 이 차이는 경쟁사의 프로세서만 사용하는 환경에서의 성능과 비교할 때 최대 16배에 이른다.

멀티 아키텍처 환경의 잠재력을 극대화하는 ‘원API’ /인텔
멀티 아키텍처 환경의 잠재력을 극대화하는 ‘원API’ /인텔
많은 개발자들이 두 종류 이상의 프로세서를 사용하는 이기종 시스템을 목표로 하고 있으며, 실제 워크로드의 범위와 규모가 증가하는 문제를 해결하기 위해서는 보다 효율적인 멀티 아키텍처 프로그래밍이 필요하다. 이 때, 독점적 프로그래밍 모델을 위해 작성된 코드는 다른 하드웨어로의 이동성이 부족하며, 조직을 폐쇄적인 생태계에 가두는 고립된 개발 환경을 초래할 수 있다.

인텔의 원API는 인텔의 하드웨어 뿐 아니라 생태계 전반의 하드웨어를 폭넓게 포용할 수 있는 개방성을 특징으로 한다. 원API는 CPU 및 가속기를 위한 하드웨어, 성능, 생산성 및 코드 이식성을 확보하는 플랫폼으로 활용할 수 있다. 풍부한 SYCL 지원과 강력한 코드 마이그레이션 및 분석 도구는 개발자들이 멀티 아키텍처 시스템을 위한 코드를 더 쉽게 개발할 수 있도록 지원해 생산성을 높인다.

인텔 원API DPC++/C++ 컴파일러는 엔비디아 및 AMD GPU용 코드플레이 소프트웨어의 신규 플러그인을 지원, SYCL 코드 작성을 간소화하고 이러한 프로세서 아키텍처 전반에서 코드 이식성을 확대한다. 인텔과 코드플레이는 엔비디아 GPU용 원API 플러그인을 시작으로 제품을 우선 지원할 방침이다. 이와 함께, 오픈소스 SYCLomatic을 기반으로 하는 인텔 DPC++ 호환성 도구에 100개 이상의 쿠다 API가 추가되어 더욱 간편하게쿠다에서 SYCL 코드 마이그레이션이 가능하다.

애플리케이션의 성능 분석과 최적화를 위한 다양한 도구들도 마련되어 있다. 먼저, ‘인텔 VTune 프로파일러’는 MPI 불균형을 식별할 수 있는 방법을 제공한다. 또한 ‘인텔 어드바이저’는 인텔 데이터 센터 GPU 맥스 시리즈에 자동 루프라인 분석 기능을
제공해, 메모리, 캐시 또는 컴퓨팅 병목 현상과 원인을 식별하고 우선순위를 지정한다. 이를 통해 CPU에서 GPU로 오프로드 시 데이터 전송 재사용 비용을 최적화하기 위한 실용적인 통찰력을 제공한다.

권용만 기자 yongman.kwon@chosunbiz.com