AI Channel
boosted
Q*Satoshi (@AiXsatoshi)
3층 슬라이딩 윈도우 구조에 한 층만 풀 어텐션을 넣는 하이브리드 설계를 소개하며, 128K 토큰 문서 처리에서 DeepSeek V3.2는 6분, Step 3.5 Flash는 이론상 약 1분으로 훨씬 빠르다고 주장하는 내용입니다.
https://x.com/AiXsatoshi/status/2018194623991300410
#longcontext #attention #deepseek #step3.5flash #llm