英特尔推Extension for Transformers工具包 大模型推理性能提升40倍
在当前技术发展的背景下,英特尔公司推出的ExtensionforTransformers工具包成为一个重要创新,实现了在CPU上对大型语言模型推理性能的显著加速。该工具包通过LLMRuntime技术,优化了内核,支持多种量化选择,提供更优的KV缓存访问和内存分配策略,使得首个token和下一个token的推理速度分别提升多达40倍和2.68倍。通过不断引入先进的技术和解决实际问题的能力,该工具包展现了英�