[Python] 正規表現でエスケープする方法｜初心者エンジニアのための備忘録

今回は、Pythonで正規表現でエスケープする方法についてご紹介します。

Python関連情報まとめ

正規表現とは
エスケープとは
Pythonでエスケープする具体的な方法
よくあるエラーと注意点
まとめ

正規表現とは

正規表現とは、文字列の検索や置換パターンを表現するための表記法です。

Pythonではreモジュールを利用することで、正規表現を使った高度な文字列処理を実現できます。

例えば、メールアドレスや電話番号など、特定の形式を満たす文字列のみを抽出したい場合に大変便利です。

エスケープとは

エスケープとは、正規表現の特殊文字（例：*, +, ?, .など）を文字通りのリテラルとして扱うために、バックスラッシュ（\）を付加することです。

正規表現において、これらの特殊文字は特別な機能を持つため、そのまま使うと意図しないマッチングが起こる可能性があります。

バックスラッシュでエスケープすることで、これらを単なる文字として扱い、誤ったマッチングを防ぎます。

Pythonでエスケープする具体的な方法

Pythonのre.escape()関数を使うと、文字列中の特殊文字を自動でエスケープできます。

また、エスケープの手動指定やraw文字列の活用なども一般的な方法です。

re.escape()を使ったエスケープ

re.escape()は、文字列中の特殊文字をすべてバックスラッシュでエスケープしてくれます。

ユーザー入力をそのまま正規表現パターンに組み込みたい場合など、意図しないマッチングを避けるために役立ちます。

import re

user_input = "Hello? (world)*"

escaped_input = re.escape(user_input)
print(escaped_input)
# 出力例: Hello\?\ \(world\)\*

import re

user_input = "Hello? (world)*"

escaped_input = re.escape(user_input)

print(escaped_input)

# 出力例: Hello\?\ \(world\)\*

実行結果

Hello\?\ \(world\)\*

上記のように、?, (, ), *といった特殊文字が自動的にエスケープされます。

このエスケープ済み文字列をリテラルとして検索パターンに組み込みたい場合は、以下のように活用可能です。

pattern = re.compile(escaped_input)
result = pattern.search("This is a test: Hello? (world)*")

if result:
    print("マッチしました")

pattern = re.compile(escaped_input)

result = pattern.search("This is a test: Hello? (world)*")

if result:

print("マッチしました")

実行結果

マッチしました

raw文字列（r”…”）の利用

Pythonの文字列リテラルでは、\nや\tなどのエスケープシーケンスが存在します。

raw文字列（先頭にrを付ける文字列）を使うと、バックスラッシュをそのままの意味で扱えるため、正規表現のパターン記述が分かりやすくなります。

import re

pattern = r"\d{3}-\d{4}"
result = re.match(pattern, "123-4567")

if result:
    print("電話番号の形式にマッチしました")

import re

pattern = r"\d{3}-\d{4}"

result = re.match(pattern, "123-4567")

if result:

print("電話番号の形式にマッチしました")

実行結果

電話番号の形式にマッチしました

手動エスケープの注意点

必要に応じて文字を手動でエスケープすることも可能ですが、どの文字が正規表現上で特別な意味を持つかを正確に把握しないと、ミスを起こしやすいです。

import re

# "a+b" をリテラルとして検索したい場合
pattern = "a\\+b"  # ここで \+ を文字列リテラルとして表現するには \\+ と書く必要がある
result = re.search(pattern, "a+b")

if result:
    print("リテラルとして 'a+b' にマッチ")

import re

# "a+b" をリテラルとして検索したい場合

pattern = "a\\+b" # ここで \+ を文字列リテラルとして表現するには \\+ と書く必要がある

result = re.search(pattern, "a+b")

if result:

print("リテラルとして 'a+b' にマッチ")

実行結果

リテラルとして ‘a+b’ にマッチ

多数の特殊文字を含む場合、手動エスケープでは書き間違いやエスケープ漏れが起きやすいため、re.escape()の利用が推奨されます。

よくあるエラーと注意点

正規表現でエスケープする際に、次のようなエラーや混乱が発生しがちです。

エスケープが不足し、想定外のマッチングが起きる
re.escape()を使いすぎて、本来意図していた正規表現の機能（例：グループ化）までエスケープしてしまう
raw文字列を使わずにパターンを記述し、Pythonの文字列リテラルのエスケープシーケンスと衝突する

これらの対策として、正規表現の特殊文字を事前に把握しておくことや、raw文字列を使用する習慣をつけることが大切です。

まとめ

Pythonでは、正規表現の特殊文字をエスケープする際にre.escape()が非常に便利です。

raw文字列も活用することで、バックスラッシュをより直感的に扱えます。

必要以上のエスケープを避けつつ、正確にパターンを組み立てることがポイントです。

Python関連情報まとめ

正規表現とは

エスケープとは

Pythonでエスケープする具体的な方法

re.escape()を使ったエスケープ

raw文字列（r”…”）の利用

手動エスケープの注意点

よくあるエラーと注意点

まとめ

[Python] stripを使って文字列を削除する方法

[Python] replaceを使って複数の文字列を置換する方法

[Python] input関数の使い方（具体例あり）