Tarjei Mandt (@kernelpool)
Kimi-K2.5-3bit 모델을 단일 M3 Ultra에서 실행한 사례 공유. 작성자는 MLA absorption 없이 최대 8k 토큰 컨텍스트까지 테스트했다고 밝힘 — 경량화/양자화된 모델을 고성능 Apple 칩에서 운용한 실험적 결과로 해석됨.
Tarjei Mandt (@kernelpool)
Kimi-K2.5-3bit 모델을 단일 M3 Ultra에서 실행한 사례 공유. 작성자는 MLA absorption 없이 최대 8k 토큰 컨텍스트까지 테스트했다고 밝힘 — 경량화/양자화된 모델을 고성능 Apple 칩에서 운용한 실험적 결과로 해석됨.
Tarjei Mandt (@kernelpool)
Kimi-K2.5-3bit 모델을 단일 M3 Ultra에서 실행한 사례 공유. 작성자는 MLA absorption 없이 최대 8k 토큰 컨텍스트까지 테스트했다고 밝힘 — 경량화/양자화된 모델을 고성능 Apple 칩에서 운용한 실험적 결과로 해석됨.
Q*Satoshi (@AiXsatoshi)
Kimi-k2.5는 파라미터가 매우 커서 4bit 상태로 그대로 실행하려면 Mac Studio 512GB 두 대가 필요하지만, IQ3_XXS는 415GB로 단일 Mac에서 동작한다. 작성자는 IQ3_XXS가 메인 모델이 될 것으로 보며, 두 대를 이용한 분산 추론은 아직 안정적이지 않다고 보고함.
Q*Satoshi (@AiXsatoshi)
Kimi-k2.5는 파라미터가 매우 커서 4bit 상태로 그대로 실행하려면 Mac Studio 512GB 두 대가 필요하지만, IQ3_XXS는 415GB로 단일 Mac에서 동작한다. 작성자는 IQ3_XXS가 메인 모델이 될 것으로 보며, 두 대를 이용한 분산 추론은 아직 안정적이지 않다고 보고함.