OpenAIがAI処理最適化のためのPythonベースのプログラミング言語であるTritonをリリース

原文(投稿日：2021/08/24)へのリンク

OpenAIは最新の言語Tritonをリリースした。このオープンソースプログラミング言語によって、研究者はAI処理用に非常に効率的なGPUコードを記述できる。これは、Python互換で、ユーザはわずか25行のコードでエキスパート品質の結果を得ることができる。

TritonはPythonをベースとして使っている。開発者は、Tritonのライブラリを使ってPythonでコードを記述する。その後、GPUで実行するためにJITコンパイルされる。これにより、現在機械学習ソリューションを開発するための最大の目的となっているPythonエコシステムとの統合が実現される。

NumPyを連想させるTritonのライブラリは、たとえば、さまざまな行列演算や、何らかの基準に従った配列の縮小を実行する関数を提供する。ユーザは、@triton.jitデコレータを追加することで、これらのプリミティブを自身のコードに結合し、GPUで実行するようにコンパイルできる。この意味で、TritonはNumbaにも似ている。Numbaは、数値処理がメインとなるPythonコードをマシンネイティブアセンブリにJITコンパイルして、高速化を実現するプロジェクトだ。

稼働中のTritonの簡単な例として、ベクトル加算カーネルと融合ソフトマックス演算がある。後者の例では、完全にGPUメモリで実行できる操作について、ネイティブのPyTorch融合ソフトマックスよりも何倍も高速に実行できる。

OpenAIによると、Tritonにより、汎用ライブラリよりもはるかに高速処理できる特殊なカーネルの開発がシンプルになる。そのコンパイラによってコードがシンプルになり、自動的に最適化、並列化が行われる。最近のNvidia GPUで実行できるコードに変換される。

最新のGPUのアーキテクチャは、DRAM、SRAM、ALUの3つの主要コンポーネントに分類できる。CUDAコードを最適化するときは、それぞれを考慮する必要がある。GPUプログラミングに伴う課題があることを見逃すことはできない。例えば、現在のメモリインターフェイスでより大きなバス幅を活用するために、DRAMからのメモリ転送がコアレッシングすることを確認しなければならない。データは、取得時に他の共有メモリバンクと競合しないように、再利用する前に手動でSRAMSに格納する必要がある。

OpenAIは、これにより多くの労力をかけずに最高のハードウェアパフォーマンスに到達できるようになり、これまで以上に複雑なワークフローの作成が簡単になると言っている。キャッシュ形式のデータがプロセスに対して大きすぎる場合には常に、Tritonは必要なメモリのほぼ2倍の量を転送し、他のデータよりも高速化する。Tritonでのコーディングは、PyTorchのCUDAカーネルに比べて簡単で信頼性が高く、プロセスを理解して維持するのも簡単となる。

Tritonはコミュニティ主導のプロジェクトになることを目指している。GitHubでリポジトリをフォークできる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco