λ©λͺ¨λ¦¬ 곡ν¬μ μ€μ²΄: TurboQuant λ νκ΄΄κ° μλ 'μ΅μ ν'μ μ νΈν
μ΅κ·Ό κ΅¬κΈ μ°κ΅¬μ§μ΄ λ°νν 'TurboQuant' λ Όλ¬Έμ΄ AI λ©λͺ¨λ¦¬ μμ₯μ λΆμκΈ°λ₯Ό λ€μ§μ΄λμμ΅λλ€. μ΄ κΈ°μ μ Transformer λͺ¨λΈμ ν΅μ¬μΈ KV μΊμ λ°μ΄ν°λ₯Ό μμΆνμ¬ HBM(κ³ λμνλ©λͺ¨λ¦¬) μμλ₯Ό νκΈ°μ μΌλ‘ μ€μΌ μ μλ€λ λ΄μ©μΌλ‘, ν¬μμλ€μ΄ 'λ©λͺ¨λ¦¬ λΆν©'μ μ°λ €νλ©° λ§€λμΈλ‘ λμ νκ² λ§λ€μμ΅λλ€. νμ§λ§ 리ν¬νΈλ₯Ό μμΈν λ€μ¬λ€λ³΄λ©΄ μ΄λ κΈ°μ‘΄ κΈ°μ μ μ°μ₯μ μΈ μ μ§μ κ°μ μ λΆκ³Όνλ©°, μ€νλ € λ©λͺ¨λ¦¬ λ³λͺ© νμμ΄ μ¬μ ν ν΄κ²°λμ§ μμμμ μμ¬ν©λλ€.
ν΅μ¬μ μ΄ κΈ°μ μ΄ μλμ μ 보μ΄λ‘ μ νκ³ (Shannon's Limit) μ κ·Όμ νλ€λ μ¬μ€μ λλ€. TurboQuant λ μλ€λ§λ₯΄ νλ ¬μ νμ©ν λ²‘ν° νμ μ ν΅ν΄ κΈ°μ‘΄ λ°©μ λλΉ μ½ 2.7 λ°° μμ€μ μκ³‘λ§ λ°μμν€λ©°, 2.5~3.5 λΉνΈ κ³ μμΆμμλ μ±λ₯ μ νλ₯Ό μ΅μνν©λλ€. μ΄λ μ΄λ‘ μ ννμ μ λλ¬νμμ μλ―Ένλ―λ‘ ν₯ν μμΆ ν¨μ¨μ μΆκ° κ°μ νμ μ νμ μΌ μλ°μ μμ΅λλ€. μ¦, λ©λͺ¨λ¦¬ μ¬μ©λμ μ€μ΄λ κΈ°μ μ΄ λ±μ₯νλ€κ³ ν΄μ HBM μ λν 물리μ μμ μμ²΄κ° μ¬λΌμ§λ κ²μ μλλλ€.
κ³Όλν 곡ν¬μ κ°κ²© λ°λ±: νΈλ₯΄λ¬΄μ¦ λΆνμ€μ± ν΄μ μμ
μμ₯μ κ³Όμ λ°μμ μ΄ κΈ°μ μ΄ 'νκ΄΄μ λ³μ'λΌκΈ°λ³΄λ€ 'μ μ§μ μ§ν'μμ κ°κ³Όν λ°μ λΉλ‘―λμμ΅λλ€. μ€μ λ‘ KV μΊμ μμΆμ μ΄λ―Έ Pruning, Quantization λ± κΈ°μ‘΄ κΈ°λ²μΌλ‘ 2~4 λ°° μμ€μμ μ§ν μ€μ΄μμΌλ©°, TurboQuant λ κ·Έ μ°μ₯μ μμ κ³ λνμ λΆκ³Όν©λλ€. μ΅κ·Ό DRAM κ°κ²©μ΄ κΈλ±ν μν©μμ νΈλ₯΄λ¬΄μ¦ ν΄ν λΆνμ€μ±κ³Ό νΈλΌν 리μ€ν¬κ° κ²ΉμΉλ©° κ³΅ν¬ μ¬λ¦¬κ° μ¦νλμμ λΏμ λλ€. μ΄ κΈ°μ μ΄ λ©λͺ¨λ¦¬ νμμ±μ μμ λ κ²μ΄ μλλΌ, μ€νλ € λ ν¨μ¨μ μΈ AI μΆλ‘ μ μν΄ λ©λͺ¨λ¦¬ κ΄λ¦¬μ μ€μμ±μ μ¬νμΈμμΌ μ£Όλ κ³κΈ°κ° λ κ²μ λλ€.
νΈλ₯΄λ¬΄μ¦ ν΄ν λ΄μ μ¬νκ° μ₯κΈ°νλμ΄ κΈλ‘λ² κ³΅κΈλ§μ΄ λ§λΉλ κ²½μ°, DRAM κ°κ²© μμΉμΈκ° μΌμμ μΌλ‘ μ€λ¨λκ±°λ μμ λ μ μμ΅λλ€. λν, νΈλΌν νμ λΆμ μΆκ°μ μΈ κ΄μΈ μ μ± μ΄λ 무μ μ₯λ²½μ΄ λ°λ체 μμΆμ ν격μ μ€ κ²½μ° λ°Έλ₯μμ΄μ μ΄ λ€μ μ‘°μ λ°μ μ μμ΅λλ€.
TurboQuant λ λ©λͺ¨λ¦¬ λΆνμλ₯Ό μ리λ κ²½κ³ μμ΄ μλλΌ, AI μλκ° κΉμ΄μ§μλ‘ λ ν¨μ¨μ μ΄κ³ κ³ λνλ λ©λͺ¨λ¦¬ κ΄λ¦¬κ° νμμ μμ νμΈμμΌ μ£Όλ κΈ°μ μ μ΄μ νμ λλ€.