PostgreSQL 7.1.2 ドキュメント(日本語版 1.0)
Prev	Chapter 4. 関数と演算子	Next

4.5. パターンマッチング

Postgresでは、SQLの LIKE演算とPOSIX形式の表現、 2種類の方法でパターンマッチングを行えます。

Tip: これらのパターンマッチング機能以上のものを必要とされる場合や、パターンの置換、変換などはPerlやTclのユーザ定義関数を作成してみて下さい。

4.5.1. `LIKE`述語を使用したパターンマッチング

string LIKE pattern 
[ ESCAPE escape-character ]
string NOT LIKE pattern 
[ ESCAPE escape-character ]

すべてのpatternでは文字列の定義を行います。 LIKE述語では、stringが patternの中に含まれているならばtrue(真)を返します。(ご察しの通り、LIKE述語でtrue(真)が返るならば、NOT LIKE述語ではfalse(偽)となります。 NOT (string LIKE pattern)も同じ動作をします。)

patternにパーセント記号やアンダースコアが含まれていないならば、そのpatternは文字列そのものを意味します。この場合、LIKEはイコール演算子のような働きを行います。patternのアンダースコア(_)はあらゆる1文字を意味し、パーセント記号(%)は0文字以上の文字を意味します。

例：

'abc' LIKE 'abc'    true
'abc' LIKE 'a%'     true
'abc' LIKE '_b_'    true
'abc' LIKE 'c'      false

LIKEでは、パターンマッチは文字列の最初から最後まですべてで行われます。したがって、文字列のある部分に対してパターンマッチを行いたい場合は、パターンの最初と最後にパーセント記号を付ける必要があります。

アンダースコアやパーセント記号そのものをパターンマッチさせたい場合は patternの文字1字づつエスケープ文字で指定する必要があります。ディフォルトのエスケープ文字はバックスラッシュですが、ESCAPE句を使用することによって変更が可能です。エスケープ文字そのものとのマッチさせたい場合は、エスケープ文字を2つ記述して下さい。

文字列において、バックスラッシュが特別な意味をすでに持っていることにご注意下さい。したがって、パターンの定数にバックスラッシュが含まれるものを記述する際には、問い合わせに必ずバックスラッシュを2つ記述して下さい。これを回避するにはESCAPEで別のエスケープ文字を選択して下さい。

アクティブロケールよるマッチを行う際には、LIKEではなく、 ILIKEを使用することも可能です。これは標準SQLではなく、Postgres 独自の拡張です。

~~演算子はLIKEと同様で、 ~~*はILIKEと対応しています。また、NOT LIKEには!~~、 NOT ILIKEには!~~*の演算子が割り当てられています。これらもPostgres 特有のものです。

4.5.2. POSIX正規表現

Table 4-8. 正規表現演算子

演算子	説明	例
`~`	大文字/小文字の識別を含んで、一致するかを識別	'thomas' ~ '.thomas.'
`~*`	大文字/小文字の識別をしないで、一致するかを識別	'thomas' ~* '.Thomas.'
`!~`	大文字/小文字の識別を含んで、一致しないかを識別	'thomas' !~ '.Thomas.'
`!~*`	大文字/小文字の識別をしないで、一致しないかを識別	'thomas' !~* '.vadim.'

POSIXのパターンマッチングはLIKE述語よりも強力なものです。egrepやsed、 awkなどの多くのUnixツールはここで説明されているものと同じような正規表現言語を使用しています。

正規表現は文字のシーケンスで、複数の文字列(regular set) の短縮された定義です。正規表現で説明されているregular set が文字列と一致する場合、正規表現と一致する、と言われます。 LIKEでは、正規表現言語で特別な意味を持つ文字を除いて、文字列とパターン文字列は完全に一致するかを検証します。しかし、正規表現ではLIKE述語が使用する特別文字とは異るものを使用します。LIKE述語のパターンとは違って、「文字列の頭から」や「後から」などの指定がない限り正規表現は文字列のどの部分でもマッチできます。

正規表現("RE"s)は2つのフォームがあると POSIX1003.2で定義されています。1つはモダンREs(modern REs)、(egrepなどで、1003.2では "extended" REsと呼ばれています。)あと1つは旧式REs (obsolete REs；ed；1003.2 "basic" REs) です。

モダンREsは1以上の空ではないブランチで、 |で区切ってあります。このブランチの1つでも一致するものがあれば一致します。

ブランチとは、1以上のピースが連なっているものです。1番目にマッチしたら、2番目、といった感じでマッチさせていきます。

ピースとはアトムで、大方、1つの*や +、?、boundが続きます。*が後にあるアトムは0以上のアトムと一致します。+が後にあるアトムは1以上のアトムと一致します。 ?が後にあるアトムは0か1のアトムと一致します。

boundは{の後に符号無し10進数整数が続き、その後には通常は,があり、その後には通常はまた符号無し10進数整数があり、必ず}が最後につきます。この符号無し10進数整数は必ず0からRE_DUP_MAX(255も含む)までの数字である必要があり、2つある場合は1つめは2つめよりも小さくなければなりません。アトムには、その後に1つの整数i(カンマなし)を持っているバウンド(bound)があるものがあり、そのアトムはアトムの丁度i個のマッチしたシーケンスとマッチします。アトムの後に1つの整数i(カンマあり)を持っているバウンド(bound)があるアトムはi個以上のマッチしたシーケンスとマッチします。アトムの後に2つの整数 iとjがあるものは iからj(jも含む)のシーケンスのマッチしたシーケンスとマッチします。

Note: ?や*、+、バウンドなどの反復演算子は他の反復演算子と併用することはできません。反復演算子は式やサブ表現を開始したり、^、または |を追従することはできません。

アトムとは、正規表現が()で囲われているもの (正規表現のマッチに一致する)、空の() (NULL文字列と一致する)、bracket expression (下記参照)、.(あらゆる1文字と一致)、^ (入力された文字列の最初の文字がNULL文字列と一致)、$ (入力された文字列の最後の文字がNULL文字列と一致)、^.[$()|*+?{\ の直後に1つの\(普通の文字とされる文字と一致)、 \の直後にその他の文字(\が無視され、普通の文字とされる文字と一致)、または他の特徴がない1文字(その文字と一致)です。 {の直後で、数字以外の文字は通常の文字で、バウンドの最初ではありません。\でREを終了させるのは禁じられています。

文字列において、バックスラッシュ(\)はすでに特別な意味を持っていることにご注意下さい。したがって、パターンの定数にバックスラッシュが含まれるものを記述する際には、問い合わせに必ずバックスラッシュを2つ記述して下さい。

ブラケット表現(bracket expression)とは、文字のリストが[]で囲われたものです。通常リストにあるどの文字にもマッチします(下記参照)。もしリストが ^ から始まるならば、どの文字にも一致しますが(下記参照)、それ以降のリストとはマッチしません。2つの文字の間に-がある場合、これはその文字と文字の間(その文字も含む)に存在する文字のシーケンスを意味します。例えば、[0-9]はASCII マッチではすべての10進数と一致します。また、2つの範囲(range)指定で、始点/終点 (エンドポイント)を共用することはできません。(例：a-c-e)。範囲はシーケンスの照合にとても依存しているので、簡易プログラムでは使用を避けて下さい。

]をリストに含めるには、それを最初の文字 (^があればその後)にして下さい。- を含めたい場合は、最初か最後、または範囲(range)の2番目のエンドポイントとして下さい。-を最初のエンドポイントとする場合は、照合要素(collating element；下記参照)にするために -を[.と.] で囲んで下さい。これらの例外と[(次の段落参照)の組み合わせ方を除き、\も含むすべての特別な意味を持つ文字はその効果をブラケット表現(bracket expression)内では失います。

ブラケット表現(bracket expression)では、[.と .]で囲われた照合要素(1文字、または複数の文字のシーケンスで、1文字またはどちらかの照合シーケンス名)はその照合要素文字のシーケンスを意味します。シーケンスとはブラケット表現のリストの 1つの要素となります。したがってブラケット表現内にマルチバイト文字がある場合は、1文字以上の文字と一致します。例えば、照合シーケンスに chという照合要素があった時、REの [[.ch.]]*cではchchccの最初の5文字とマッチします。

ブラケット表現内で、[=と=]で囲われた照合要素は同等クラス(equivalence class)で、それと等しいすべての照合要素の文字で構成されたシーケンス(それそのものも含む) を意味します。(等しい照合要素がない場合は、[.と ^はデリミターとして扱われます。)例えば、 oと^が同等クラスの要素だった場合、 [[=o=]]、[[=^=]]、 [o^]はすべて同義となります。同等クラスは範囲(range) のエンドポイントにはできません。

ブラケット表現内で、[:と:]で囲われた文字クラス(character class)の名前は、そのクラスに属するすべての文字のリストを意味します。下記は標準な文字クラスの名前です： alnum、alpha、 blank、cntrl、 digit、graph、 lower、print、 punct、space、 upper、xdigit。これはctypeで定義されている文字クラスを意味します。ロケールでは他のものも使用可能となる場合があります。文字クラスは範囲(range)のエンドポイントにはできません。

ブラケット表現には[[:<:]]と[[:>:]]の 2つの特殊なケースがあります。両方とも単語の始めと終わりそれぞれのNULL文字列にマッチします。単語とはその前後に別の単語文字(word characters)が存在しない、単語文字(word characters)のシーケンスと定義されています。単語文字(word characters)とは (ctypeで定義されているアルナム(alnum)文字、またはアンダースコアのことです。これは拡張で、POSIX 1003.2では明記されていませんが、互換性があります。しかし、他のシステムなどに移植される予定のソフトウェアなどでは注意が必要です。

REが1つ以上の指定部分文字列と一致した際、REでは最初に一致した文字列とマッチします。その場所からまた1つ以上の指定部分文字列と一致した際には最も長い文字列と一致します。サブ表現では、すべてのマッチは可能な限り長いという制約を条件とし、可能な限り長い指定部分文字列ともマッチし、その際、REでは最初の指定部分文字列を後のものよりも優先させてマッチします。

マッチの長さは参照要素ではなく、文字(character)で測られます。空文字列は全く一致するものがない文字列よりも長いとされます。例えば、bb*はabbbcの真ん中の3文字と一致し、(wee|week)(knights|nights)は weeknightsの10文字すべてと一致します。しかし、(.*).*がabcと一致しないとき、括弧で囲われた指定部分文字列は3つすべての文字と一致し、また、(a*)*がbcと一致しない場合はREのすべてと括弧で囲われた指定部分文字列はNULL文字と一致します。

汎用正規表現が指定された場合、アルファベットから特定の場合が取り除かれた時のようになります。複数の特定の場合に、ブラケット表現外で通常の文字として扱われる文字がある時は、 x becomes [xX]のように、両方の特定の場合を持ったブラケット表現に変換されます。

REにはメモリが足りているのであれば、特に長さ制限はありません。メモリの使用はおおよそREのサイズの線形(linear)で、バウンド反復 (bounded repetition)以外はREの複雑さに関係がありません。バウンド反復とはマクロ拡張で実装されていて、バウンド反復が入れ子になっていたりカウントが大きければとても場所と時間を取ってしまいます。例えば、 ((((a{1,100}){1,100}){1,100}){1,100}){1,100} は(結局は)存在するほとんどのマシンをスワップ領域から脱出させます。 [1]

Prev	Home	Next
文字列関数と演算子	Up	フォーマット関数

4.5. パターンマッチング

4.5.1. LIKE述語を使用したパターンマッチング

4.5.2. POSIX正規表現

Notes

4.5.1. `LIKE`述語を使用したパターンマッチング