Jeff Moser氏による .NET 正規表現の実際の仕組みの調査

原文(投稿日：2009/4/1)へのリンク

Jeff Moser氏は .NETの正規表現がどのような仕組みになっているのか(リンク)徹底的な調査を行った。彼の記事は、例えばコンパイルされた正規表現によって使用される機械語などのMicrosoftによる実装の中核的な動作原理を対象としている。

まず彼が明らかにするのは、直近の15個の正規表現がキャッシュされるということである。これは１つあるいは２つの正規表現を使うだけの小さなユーティリティアプリケーションにとっては、明示的に Regex オプジェクトを作成する必要はおそらく無いということを意味する。

正規表現をコンパイルする際、その最初のステップはRegexTreeを生成するスキャナから構成される。葉ノード部分を見ると、これはソースコードとかなり類似している。次にこれは正規表現エンジンの機械語へと翻訳される。

作業の大半はEmitFragment 関数(リンク)を構成する250行のswitchステートメントによって行われます。この関数はRegexTreeの「断片」を分割してそれらをよりシンプルなRegexCode(リンク)へと変換します。

[…]

この作業が全て終わると RegexCode即ち「操作コード」およびそれらの引数を説明する整数の配列が得られます。「Setrep」(リンク)のようないくつかの命令は文字列の引数を受け取るのが分かります。これらの引数は文字列テーブル内のオフセットを指し示します。先ほど見たはっきりとしない文字列に文字セットの全てを詰め込むことが重要な意味を持っていたのは、この理由に因ります。その情報を命令に渡すための唯一の方法だったのです。

コードの配列を復号すると、以下のようになります。

インデックス	命令	操作コード/引数	文字列テーブル参照	説明
0	Lazybranch(リンク)	23		遅延的に21番目の Stop(リンク)命令に分岐。
1		21
2	Setmark(リンク)	31		後でバックトラックが必要な場合のために現在の状態をスタックにプッシュ。
3	Multi(リンク)	12		文字列テーブルの０番目の要素「http://」の複数文字マッチを実行。
4		0	"http://"
5	Setmark(リンク)	31		後でバックトラックが必要な場合のために現在の状態をスタックにプッシュ。
6	Setrep(リンク)	2		文字列テーブルの１番目に格納された [\s/] で表される文字のセットによる長さ１の反復マッチを実行。
7		1	"\x1\x2\x1\x2F\x30\x64"
8		1
9	Setloop(リンク)	5		最大 Int32.MaxValue 回のループで文字セット [\s/] のマッチを実行。
10		1	"\x1\x2\x1\x2F\x30\x64"
11		2147483647
12	Capturemark(リンク)	32		最後の Setmark で設定されたマークと現在の位置との間の文字列をグループ番号１にキャプチャ。
13		1
14		-1
15	Oneloop(リンク)	3		最大１回のループで Unicode 文字 47 ('/') のマッチを実行。
16		47
17		1
18	Capturemark(リンク)	32		最初の Setmark 命令と現在の位置の間の内容をグループ番号０にキャプチャ。
19		0
20		-1
21	Stop(リンク)	40		正規表現の停止。

これで正規表現が後々実行されるシンプルな「プログラム」へと変化しているのがわかります。

このプロセスについてより詳しくは Jeff Moser 氏のブログ(リンク)で読むことができる。また彼の記事では下記についても言及している。

接頭語の最適化
インタープリタ
バックトラック
既知のバグ

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは .NET です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社、Rust向けQUICおよびHTTP/3を容易にするtokio-quicheをオープンソース化

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

Grab、リアルタイムデータ品質監視をプラットフォームに追加

OpenAIがHarness Engineeringを発表：Codexエージェントが大規模ソフトウェア開発を牽引

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

NVIDIAがAI・ロボティクス・自動運転に跨るオープンモデル・データセット・ツールを公開

DeepSeek-V3.2が推論タスクでGPT-5を上回る

OpenAIがFrontierを発表、企業全体でAI エージェントを構築・デプロイ・管理するプラットフォーム

Google Cloudは、130,000ノードのGKEクラスターを用いてKubernetesの大規模スケールを実証

オープンソースのAgent Sandbox、Kubernetes上でAIエージェントの安全な展開を可能に

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

Online InfoQ Architect Certification

QCon AI Boston

QCon San Francisco