DeepSeek的工程调优

小黄:DeepSeek团队在AI大模型的工程调优上做了哪些努力?

DOORM: DeepSeek通过优化模型架构和训练方法,降低成本的同时提升性能。他们的V2和V3版本在多专家架构和注意力机制上做了改进,大幅降低了训练和推理成本。