A ASIC especializada do Google, conhecida como Tensor Processor Unit ou TPU, é detalhadamente descrita neste paper, demonstrando inclusive várias medições de performance e redução de consumo em seu funcionamento.
Da mesma forma, é apresentado maiores detalhes do projeto, como ele é usado em conjunto com CPU ou CPU, sua forma de ligar-se aos atuais hardwares utilizados pelo Google. PCIe Gen3 x16 bus é a forma de conexão.
Para reduzir a dependencia e integração com a CPU, evitando atrasos no projeto, as TPU foram projetadas para ser um co-processador no PCIe I/O bus, permitindo ser acoplada aos servidores já existentes assim como uma GPU faz.
Para simplificar ainda mais o designer e a depuração, o servidor (host) envia TPU instruções para a própria TPU executar a ele próprio efetuar qualquer tratamento.
Mais detalhes no original:
In-Datacenter Performance Analysis of a Tensor Processing Unit
TPU_TensorFlow_Processor_Unit_in_more_details_basic_description_of_the_project