テキストファイルから、タグの名前だけを取り出すPythonコード

htmlやxmlなどのテキストファイルから、タグの名前だけを取り出すPythonコードです。例えば、<tagname>~</tagname>のtagnameだけを取り出したいときに使用します。

取り出したい情報は正規表現で探しているので、正規表現を変えれば、ほかの用途でも使えます。

コード:

import re

def extract_matching_parts(file_path, regex_pattern):
    with open(file_path, 'r') as file:
        text = file.read()
        matches = re.findall(regex_pattern, text)
        for match in matches:
            print(match)

# テキストファイルのパスと正規表現パターンを指定します
file_path = 'path/to/your/file.txt'
regex_pattern = r'<([^>]+)>'

# 関数を呼び出してマッチする部分を抽出し、出力します
extract_matching_parts(file_path, regex_pattern)