GPU ๋ ์ฃผ ๋๋ฌ๋ค, ์ธ๋ ๋ธ๋ผ์ค์ AWS์ '์ถ๋ก ๋ถ๋ฆฌ'๊ฐ ๋ฉ๋ชจ๋ฆฌ ์์ฅ์ ๋คํ๋ ๋ค
์ง๊ธ ๋ฐ๋์ฒด ์์ฅ, ํนํ ๋ฉ๋ชจ๋ฆฌ ์นํฐ๋ ๋จ์ํ ๊ฐ๊ฒฉ ์์น์ ๋์ด ์ํคํ ์ฒ์ ๋์ ํ๊ธฐ์ ์ ์์ต๋๋ค. ์ต๊ทผ ์คํAI ์ 750MW ๊ณต๊ธ ๊ณ์ฝ์ ๋งบ์ ์ธ๋ ๋ธ๋ผ์ค๊ฐ AWS ์๋ ํ๋ ฅํ๋ฉฐ 'Wafer Scale Engine(WSE)' ๊ธฐ์ ์ ๋์ ํ๋ฉด์ ์ฐ์ ํ๋๊ฐ ๋ฐ๋๊ณ ์์ฃ . ๊ธฐ์กด GPU ๋๋น ๋ค์ด ํฌ๊ธฐ๊ฐ ์์ญ ๋ฐฐ๋ ๊ฑฐ๋ํ๋ฉด์๋, ๋นํ์ฑํ ๊ฐ๋ฅํ ๋๋ฏธ ์ฝ์ด๋ฅผ ๋ฏธ๋ฆฌ ์ค๊ณํด ์์จ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ์์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ์ด๋ ๋จ์ํ ์นฉ ํ๋๊ฐ ์ปค์ง๋ ๊ฒ์ ๋์ด, AI ์ถ๋ก (Inference) ์ ํจ๋ฌ๋ค์์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ฐ๊พธ๋ ์ ํธ์ ๋๋ค.
ํต์ฌ์ AWS ๊ฐ ์๋น๋์์ ์ ์ฌํ '์ถ๋ก ๋ถ๋ฆฌ (Inference Disaggregation)' ์ํคํ ์ฒ๋ฅผ ์ฑํํ๋ค๋ ์ ์ ๋๋ค. AWS ๋ Prefill ๋จ๊ณ๋ฅผ ์์ฌ Trainium ์ด ๋ด๋นํ๊ณ , ์ธ๋ ๋ธ๋ผ์ค์ CS-3 ๊ฐ์๊ธฐ๊ฐ Decode ๋จ๊ณ ์ฐ์ฐ์ ์ ๋ดํ๋ ๊ตฌ์กฐ๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด๋ก ์ธํด DRAM ๊ณผ NAND ๊ฐ๊ฒฉ๋ ๋๋ ทํ ์์น์ธ๋ฅผ ๋ณด์ด๊ณ ์๋๋ฐ, ํนํ MLC 64Gb ์ 128Gb ๊ฐ๊ฒฉ์ด ๊ฐ๊ฐ 9.9%, 9.5% ๊ธ๋ฑํ๋ฉฐ ์ฃผ๊ฐ์๋ ์ํฅ์ ๋ฏธ์น๊ณ ์์ต๋๋ค. ๋ง์ดํฌ๋ก ์ ์ฃผ๊ฐ ์ฃผ๊ฐ๊ฐ ๋ฌด๋ ค 15%๋ ํญ๋ฑํ๊ณ , HPE ์ AI ๋คํธ์ํน ์๋ฒ ๋งค์ถ๋ ์ ๋ ๋๋น 152%๋ ์ฑ์ฅํ๋ฉฐ ๋ง์ง ๊ฐ์ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค.
์์ฅ์ ๋์ด ๊ฐ๊ฒฉ ์์น์ ๊ฐ๋ ค ๋์น '๊ตฌ์กฐ์ ์ํ'์ ์ค์ฒด
ํ์ง๋ง ์์ฅ์ ์์ง ์ด ์ฐ์ ์ ๊ตฌ์กฐ์ ๋ณํ๋ฅผ ์์ ํ ๋ฐ์ํ์ง ๋ชปํ๊ณ ์์ต๋๋ค. ํธ๋ฅด๋ฌด์ฆ ํดํ ๋ด์ ๋ถํ์ค์ฑ์ผ๋ก ์์ ๊ฐ๊ฒฉ์ด ์ฃผ๊ฐ 8.6% ๊ธ๋ฑํ๋ฉฐ ๋ณ๋์ฑ์ด ์ปค์ง๊ณ ์์ง๋ง, ์คํ๋ ค ๋ฉ๋ชจ๋ฆฌ ๊ฐ๊ฒฉ ์์น์ ๋ ๋ฏผ๊ฐํ AI ๋คํธ์ํน ์๋ฒ์ ๊ณ ์ฑ๋ฅ ์ถ๋ก ์นฉ ์์๊ฐ ํญ๋ฐํ๊ณ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ค๋ผํด์ ๊ฒฝ์ฐ IaaS ๋งค์ถ์ด ์ ๋ ๋๋น 84% ์ฑ์ฅํ๊ณ , ๋ฉํฐํด๋ผ์ฐ๋ DB ์ AI ์ธํ๋ผ ๋งค์ถ์ ๊ฐ๊ฐ 531%, 243%๋ ํญ์ฆํ์ต๋๋ค. ์ด๋ ๋จ์ํ ์ฌ์ดํด ์์น์ด ์๋๋ผ, AI ์ฐ์ฐ ๊ตฌ์กฐ๊ฐ ๋ณํํจ์ ๋ฐ๋ผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ์ข ๋ฅ๊ฐ ๊ทผ๋ณธ์ ์ผ๋ก ๋ฌ๋ผ์ง๊ณ ์์์ ์๋ฏธํ๋ฉฐ, ์์ง ์ฃผ๊ฐ์ ์์ ํ ๋ฐ์๋์ง ์์ ๊ฑฐ๋ํ ๊ธฐํ์ ๋๋ค.
ํธ๋ฅด๋ฌด์ฆ ํดํ ๋ด์ ๋ถํ์ค์ฑ์ผ๋ก ์์ ๊ฐ๊ฒฉ์ด ์ฃผ๊ฐ 8.6% ๊ธ๋ฑํ๋ฉฐ ๊ธ๋ก๋ฒ ๊ณต๊ธ๋ง ๋น์ฉ์ด ๋ค์ ์์นํ ์ ์์ต๋๋ค. ๋ํ ๋ฏธ๊ตญ์ ์ฌ๋ชจ์ ์ฉ ์์ฐ ๋ถ์ค ๋ฆฌ์คํฌ๊ฐ ๋ถ๊ฐ๋๋ฉฐ, ๋จ๊ธฐ์ ์ผ๋ก ๋ฏธ๊ตญ ๋ฐ ๊ธ๋ก๋ฒ ์ฆ์์ ๋ณ๋์ฑ์ด ์ง์๋ ์ ์์ด ํฌ์ ์ฌ๋ฆฌ๊ฐ ์์ถ๋ ์ฐ๋ ค๊ฐ ์์ต๋๋ค.
๋จ์ํ ๊ฐ๊ฒฉ ์์น์ ๋์ด AI ์ฐ์ฐ ๊ตฌ์กฐ์ ๋์ ํ๊ธฐ์ ์ง์ ํ์ผ๋ฏ๋ก, ๋ฉ๋ชจ๋ฆฌ ๊ฐ๊ฒฉ ์์น๊ณผ ์ํคํ ์ฒ ๋ณํ์ ๊ฐ์ฅ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ ๊ธฐ์ ๋ค์ ์ ์ ์ ์ผ๋ก ๋งค์ํด์ผ ํ ์์ ์ ๋๋ค.