Python 3.10で導入された構造的パターンマッチで正規表現を使ったmatchを行う

Python 3.10から導入された構造的パターンマッチ(match-case文)で正規表現を使った文字列の評価を行う方法。

Pythonのmatch-case文
正規表現でのパターンマッチ
ifでチェックする
__eq__で正規表現matchを行う
ライブラリを使う

Pythonのmatch-case文

Python 3.10からmatch-caseを使った構造的パターンマッチ(match-case文)が導入されました。

x = 2
match x:
    case 1:
        print('one')
    case 2:
        print('two')
    case 3:
        print('three')
    case _:
        print('others')

みたいな感じでmatchのあとに来たものをcaseの各行で評価して該当してたらその中のものを実行します。

最後の_はシェルスクリプトのcase文の*みたいなものですべての状態に合致するため、最後に持ってくるとC++のdefaultみたいな感じで全部が該当しなかった場合に実行されるものになります。

複数の値でorでみたいときは|で

x = 4
match x:
    case 1|2:
        print('one or two')
    case 3|4:
        print('three or four')
    case _:
        print('others')

みたいな感じで複数をチェックできます。

_の代わりに適当な変数を与えると、それも必ず合致するものになり、かつその変数にmatchの値が代入されます。

x = 3
match x:
    case 1:
        print('one')
    case 2:
        print('two')
    case a:
        print(a)

また、各caseには後ろにif文を書くことができ、これと上の代入の方法を組み合わせると、

x = 3
match x:
    case x if x < 2:
        print('one')
    case x if x % 2 == 0:
        print('two')
    case x if x == 3:
        print('three')

みたいな感じでより複雑なチェックを行うことが出来ます。 (このくらいだとif-elseの方がむしろシンプルなのでそうすべきな感じですが。)

また、このように変数をcaseのあとに置くとそこにmatchの値が代入されるため、別の変数との比較、といった場合にはifと組み合わせて書く必要があります。

x = 3
a = 1
b = 2
match x:
    case x if x == a:
        print('a')
    case x if x == b:
        print('b')
    case x if x == c:
        print('c')

な感じ。

xには複数の値(式)を置くことも可能で、

match [1, 1.1, 'a']:
    case 1, 2:
        print('12')
    case 1, 2, 3:
        print('123')
    case (1, 1.1, 'a'):
        print('1234')
    case _:
        print("non")

みたいな感じでcaseの方も複数に対応するものを書いて、その数と型、値が全部合致したものが実行されるようになっています。 (matchのあと、caseのあといずれもlistやtupleになっていても同じように各箇所があってるかどうか、で判断されます。)

他にも色々出来ることはありますが、PEPのtutorialとかを参考に。

PEP 636 – Structural Pattern Matching: Tutorial peps.python.org

正規表現でのパターンマッチ

シェルスクリプトとかだとabc*でabcから始まる文字列にマッチしたいさせる正規表現が使えますが、 Pythonの構造的パターンマッチでは同じようには出来ません。

PEP 634の元となった PEP 622の Custom matching protocol という項目に

There were ideas for exotic matchers such as IsInstance(), InRange(), RegexMatchingGroup() and so on.

とあるのでそれっぽいものは考えられてたみたいですが導入は見送られたようです。

match x:
    case "\d+":
        print("number")
    case "^abc":
        print("abc~")
    case ".*xyz.*":
        print("include xyz")
    case _:
        print("non")

みたいな感じで正規表現を書いてそれにマッチしてくれると嬉しいところですがこれだとcaseのあとのものはそれぞれの文字がそのまま評価されるので123とかはマッチしません。

直接的にそのまま正規表現をcaseに渡すことは出来ませんが、評価するものは文字列以外のものでも良いし、 match渡されたものを直接if文で評価することも可能なので色々やる方法はありそうです。

ifでチェックする

import re


x="123"
match x:
    case a if re.search("\d+", a) is not None:
        print("number")
    case a if re.search("^abc", a) is not None:
        print("abc~")
    case a if re.search(".*xyz.*", a) is not None:
        print("include xyz")
    case _:
        print("non")

みたいな感じにすればnumberになります。

ただこれだとif-elseで書いたほうがむしろシンプル。

`eq`で正規表現matchを行う

caseではmatchで与えられたものとそこに書かれたものが==(__eq__) で評価されているだけです。

なので文字列を正規表現で評価したいなら文字クラスを継承して __eq__の部分で正規表現との比較を出来るようにしてあげればよい、という方法が現状では一番スマートに見える解になっているようです。

import re


class StrRe(str):
    def __init__(self, var):
        self.var = var
        pass

    def __eq__(self, pattern):
        return True if re.search(pattern, self.var) is not None else False


x="123"
match StrRe(x):
    case "\d+":
        print("number")
    case "^abc":
        print("abc~")
    case ".*xyz.*":
        print("include xyz")
    case _:
        print("non")

Ref: Recipes and Tricks for Effective Structural Pattern Matching in Python Martin Heinz

こんな感じのStrReというstrを継承して__eq__だけ正規表現でマッチするように変更したクラスを作ってそのオブジェクトを作ってmatchにわたすことでcase側には正規表現な文字列を渡すだけでチェックできるようになってます。

これだとmatch-case文を使って書いたことでスッキリした感じが強いです。

ライブラリを使う

似たようなものですがライブラリとして公開されているものがあります。

これを

$ pip install regex-spm

でインストールして、

import regex_spm


x="123"
match regex_spm.search_in(x):
    case "\d+":
        print('number')
    case "^abc":
        print("abc~")
    case ".*xyz.*":
        print("include xyz")
    case _:
        print("non")