第255章美**惑_箭尊

　　此章节稍后订阅由于断网可能会赶不上全勤所以复制了一些乱七八糟的东西明天之前就会改正

　　thenextplatform评论称，tpu并不复杂，看上去更像是雷达应用的信号处理引擎，而不是标准的x86衍生架构。jouppi说，虽然tpu有很多矩阵乘法单元，但tpu比“gpu在思路上更接近浮点单元协处理器”，tpu没有任何存储程序，仅执行从主机发送的指令。

　　由于要获取大量的权重并将这些权重送到矩阵乘法单元，tpu上的dram是作为一个独立的单元并行运行。同时，矩阵乘法单元通过减少统一缓冲区的读写降低能耗，也就是进行所谓的“脉动运行”（systolicexecution）。

　　tpu有两个内存，还有一个用于存储模型中参数的外部dram。参数进来以后，从矩阵乘法单元的上层开始加载。同时，可以从左边加载激活，也就是“神经元”的输出。这些都以“systolic”脉动的方式进入矩阵单元，然后进行矩阵相乘，每个周期可以做64，000次累积。

　　鉴于大多数使用机器学习的公司（除了facebook）都使用cpu做推理，因此谷歌tpu论文将英特尔“haswell”xeone5v3处理器和tpu做了对比，而且从数据可以看出，后者在多维度推理方面性能远超前者。thenextplatform也由此评论，难怪用惯了x86处理器集群做机器学习的谷歌要自己研发一款新的芯片做推理。

　　在谷歌的测试中，使用64位浮点数学运算器的18核haswellxeone5-2699v3处理器，以3ghz运行的情况下每秒能够处理3tops（每秒万亿次运算），提供51gb/秒的内存带宽，haswell芯片的能耗是145瓦，系统（包括了256gb的内存）繁忙时耗能455瓦特。

　　相比之下，tpu使用8位整数数学运算器，拥有256gb的主机内存和32gb的自身内存，片上内存带宽34gb/秒，峰值92tops，推理吞吐量高了71倍，而托管tpu的服务器的热功率为384瓦。

　　谷歌还对比测试了cpu、gpu和tpu处理不同批量（batch）大小的每秒推理吞吐量。

　　在批量很小、数量为16的情况下，haswellcpu处理完前99%的响应时间接近7毫秒，每秒推理数为5，482次（ips），相当于最大值（13，194ips，批量64）的42%，而达到峰值则用了3毫秒的时间。相比之下，tpu可以做到在批量大小为200的情况下仍然满足7毫秒的上限，并且

　　请收藏：https://m.hhttr.com