【Transformer 与注意力机制】03 矩阵乘法的两种视角 2026-04-15 | transformer | #矩阵乘法 #矩阵 #线性代数 #GEMM #attention #Transformer 把矩阵乘法掰开成两种等价但风格不同的视角——『行 × 列』的点积视角和『列的线性组合』视角,最终落到 QK^T 的形状分析。