TeslaはTesla D1を発表した。BF16 / CFP8で362 TFLOPsのパワーを提供できる人工知能用に特別に設計された新しいチップだ。これはTeslaが最近開催したAI Dayイベントで発表された。
Tesla D1には、機能ユニットのネットワークを形成する合計354のトレーニングノードを追加されている。これらのノードは相互に接続され、大規模なチップを構成する。各機能ユニットには、転置、コンパイル、ブロードキャスト、リンクトラバーサルに特化したカスタム設計を使うクアッドコア64ビットISACPUが付属する。このCPUは、スーパースカラー実装(4ワイドスカラーおよび2ワイドベクトルパイプライン)を採用している。
この新しいTeslaシリコンは7nmプロセスで製造されており、合計500億個のトランジスタを備え、645mm平方の面積を占めている。これは、NVIDIA A100アクセラレータで使われる826mm平方サイズのGA100 GPUよりも小さいものだ。
各機能ユニットには1.25MB SRAMが備えられており、ユニットネットワーク上のどちら向きの通信においてもと512GB/秒の帯域幅がある。CPUは、Teslaが「Dojo Interface Processors」(DIP)と呼ばれる25個のD1ユニットのマルチチップ構成で結合されている。
Teslaは、このDojoチップが既存のシステムの4倍の速度でコンピュータービジョンデータを処理し、自動運転システムを完全に自律的に実現できると述べている。しかし、最も困難な2つの技術的偉業は、まだTeslaによって達成されていない。これがタイル間相互接続とソフトウェアだ。各タイルには、ハイエンドのネットワークスイッチよりも広い外部向けの帯域がある。この実現のために、Teslaは独自の相互接続を開発した。Teslaによると、最初のDojoクラスターは来年までに稼働する予定だ。
Teslaの車を支えるのと同じテクノロジーを活用したもので、近々発表されるのがTeslaボットだ。食料品の買い物や組立ラインの作業などのありふれたタスクを実行することを目的としている。その設計仕様は、45ポンドを運ぶ能力(「人間レベルの手」)と、時速5マイルの最高速度(人間がそれを追い越すことができる速度)である。
IBMのTelum Processorは、最新のシリコンウェーハチップであり、Tesla D1の競合製品だ。IBMの最初の商用プロセッサーのTelumにはオンチップアクセラレーションが含まれており、クライアントはディープラーニングの推論を大規模に使うことができる。IBMは、オンチップアクセラレーションにより、システムが高速に推論を実行できるようになると述べている。
IBMのTelumは、トランザクション処理の初期段階で不正検出するためになくてはならないものだ。一方でTeslaのDojoは、主に、カメラを使用する自動運転車のコンピュータービジョンに不可欠なものだ。Telumはシリコンウェーハだが、Dojoは業界標準に反している。チップは接着剤なしで接続するように設計されているのだ。
世界で最も強力なスーパーコンピュータの富岳は、日本の理化学研究所のRIKENセンターにある。テストでは1秒あたり442,010 TFLOPsの能力があり、理論的には1秒あたり最大537,212 TFLOPを実行できる。Teslaによると、Dojoはスーパーコンピューティング企業、大学、政府がこれまでできなかったことである、exaflopの障壁を打ち破ることができる可能性がある。
Dojoはわずか10個のキャビネットで構成されている。ゆえにサイズに関して世界最小のスーパーコンピューターでもある。一方、富岳は256個のキャビネットで構成されている。TeslaがDojo V1に54のキャビネットを追加して、合計64のキャビネットを作成した場合、Dojoはコンピューターのパフォーマンスで富岳を上回る。