GPU 메모리 구조

티스토리 뷰

컴퓨터과학/GPU

Teus 2022. 3. 3. 03:48

728x90

본 포스팅은 "머신러닝과 블록체인을 떠받치는 GPU의 모든 기술" 책을 읽고, 글쓴이의 생각을 정리하는 포스팅 입니다.

머신러닝과 블록체인을 떠받치는 GPU의 모든 기술

이 책은 GPU의 기본 구조와 기술 동향에 초점을 맞춘 해설서입니다. 3D 그래픽, 게임, 모바일, VR/AR, 과학 기술 계산, 그리고 인공지능/딥러닝에 이르기까지 폭넓은 분야에서 GPU/병렬 계산의 중요도

book.naver.com

지난 포스팅 마지막에 "동일한 Data를 공유해야하는 Work가 다른 CU(혹은 SM)에 할당된 경우 CU(혹은 SM)끼리의 데이터 교환(다른 CU, SM의 Cache의 데이터 조회)이 발생하고, 이 때문에 불필요한 오버헤드가 발생할 수 있습니다."

라고 언급했습니다.

아래 Nvidia GPU의 간단한 메모리 구조를 예시로 보시겠습니다.

GPU의 경우 CPU와 다르게 L1 Cache부분이 조금 다릅니다.

GPU는 L1 Cache를 명령어/Data용도로 나눠놓고, 두가지 모두 Read Only 메모리로 사용됩니다.(Const와 비슷)

이때 Shared Memory라는 녀석이 특별하게 존재합니다.

A당이나 N당 모두 Work(Thread)를 Group화 하고, 이 Group을 각 CU(SM)에 할당하여 연산하는 기능이 존재합니다.

이때 이 묶음 단위의 Thread끼리는 데이터를 공유할 일이 발생합니다.

Work(Thread) Group끼리는 모두가 접근이 가능한 빠른 Cache를 Shared Memory를 사용합니다.

때문에 Thread를 굳이 Group단위로 묶어서 동일한 CU(SM)에 배치하게 됩니다.

만약 다른 CU와 데이터 교환을 할 경우 최악의경우 GDDR 메모리까지 데이터를 확인하게 됩니다.

(Nvidia의 경우 이 과정을 replay라고 부르며 4바이트 의 주소 32개를 버퍼에 저장하고, 필요한 주소가 이 버퍼에 없을 경우 필요한 주소를 포함하여 정렬 32개의 주소(128바이트)에 해당하는 데이터를 읽어들입니다)

728x90

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함