python/kdoc/kdoc_re.py

e31fd36dSMauro Carvalho Chehab#!/usr/bin/env python3
e31fd36dSMauro Carvalho Chehab# SPDX-License-Identifier: GPL-2.0
e31fd36dSMauro Carvalho Chehab# Copyright(c) 2025: Mauro Carvalho Chehab <mchehab@kernel.org>.
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab"""
e31fd36dSMauro Carvalho ChehabRegular expression ancillary classes.
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho ChehabThose help caching regular expressions and do matching for kernel-doc.
e31fd36dSMauro Carvalho Chehab"""
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehabimport re
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab# Local cache for regular expressions
e31fd36dSMauro Carvalho Chehabre_cache = {}
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab
04a383ceSMauro Carvalho Chehabclass KernRe:
e31fd36dSMauro Carvalho Chehab    """
5f88f44dSRandy Dunlap    Helper class to simplify regex declaration and usage.
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    It calls re.compile for a given pattern. It also allows adding
e31fd36dSMauro Carvalho Chehab    regular expressions and define sub at class init time.
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    Regular expressions can be cached via an argument, helping to speedup
e31fd36dSMauro Carvalho Chehab    searches.
e31fd36dSMauro Carvalho Chehab    """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def _add_regex(self, string, flags):
e31fd36dSMauro Carvalho Chehab        """
5f88f44dSRandy Dunlap        Adds a new regex or reuses it from the cache.
e31fd36dSMauro Carvalho Chehab        """
8078e0edSJonathan Corbet        self.regex = re_cache.get(string, None)
8078e0edSJonathan Corbet        if not self.regex:
e31fd36dSMauro Carvalho Chehab            self.regex = re.compile(string, flags=flags)
e31fd36dSMauro Carvalho Chehab            if self.cache:
e31fd36dSMauro Carvalho Chehab                re_cache[string] = self.regex
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def __init__(self, string, cache=True, flags=0):
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab        Compile a regular expression and initialize internal vars.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        self.cache = cache
e31fd36dSMauro Carvalho Chehab        self.last_match = None
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        self._add_regex(string, flags)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def __str__(self):
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab        Return the regular expression pattern.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab        return self.regex.pattern
e31fd36dSMauro Carvalho Chehab
b0b88915SMauro Carvalho Chehab    def __repr__(self):
b0b88915SMauro Carvalho Chehab        return f're.compile("{self.regex.pattern}")'
b0b88915SMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def __add__(self, other):
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab        Allows adding two regular expressions into one.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
04a383ceSMauro Carvalho Chehab        return KernRe(str(self) + str(other), cache=self.cache or other.cache,
e31fd36dSMauro Carvalho Chehab                  flags=self.regex.flags | other.regex.flags)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def match(self, string):
e31fd36dSMauro Carvalho Chehab        """
b0b88915SMauro Carvalho Chehab        Handles a re.match storing its results.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        self.last_match = self.regex.match(string)
e31fd36dSMauro Carvalho Chehab        return self.last_match
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def search(self, string):
e31fd36dSMauro Carvalho Chehab        """
b0b88915SMauro Carvalho Chehab        Handles a re.search storing its results.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        self.last_match = self.regex.search(string)
e31fd36dSMauro Carvalho Chehab        return self.last_match
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def findall(self, string):
e31fd36dSMauro Carvalho Chehab        """
b0b88915SMauro Carvalho Chehab        Alias to re.findall.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        return self.regex.findall(string)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def split(self, string):
e31fd36dSMauro Carvalho Chehab        """
b0b88915SMauro Carvalho Chehab        Alias to re.split.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        return self.regex.split(string)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def sub(self, sub, string, count=0):
e31fd36dSMauro Carvalho Chehab        """
b0b88915SMauro Carvalho Chehab        Alias to re.sub.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        return self.regex.sub(sub, string, count=count)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def group(self, num):
e31fd36dSMauro Carvalho Chehab        """
b0b88915SMauro Carvalho Chehab        Returns the group results of the last match.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        return self.last_match.group(num)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehabclass NestedMatch:
e31fd36dSMauro Carvalho Chehab    """
e31fd36dSMauro Carvalho Chehab    Finding nested delimiters is hard with regular expressions. It is
e31fd36dSMauro Carvalho Chehab    even harder on Python with its normal re module, as there are several
e31fd36dSMauro Carvalho Chehab    advanced regular expressions that are missing.
e31fd36dSMauro Carvalho Chehab
b0b88915SMauro Carvalho Chehab    This is the case of this pattern::
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            '\\bSTRUCT_GROUP(\\(((?:(?>[^)(]+)|(?1))*)\\))[^;]*;'
e31fd36dSMauro Carvalho Chehab
5f88f44dSRandy Dunlap    which is used to properly match open/close parentheses of the
e31fd36dSMauro Carvalho Chehab    string search STRUCT_GROUP(),
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    Add a class that counts pairs of delimiters, using it to match and
e31fd36dSMauro Carvalho Chehab    replace nested expressions.
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    The original approach was suggested by:
b0b88915SMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        https://stackoverflow.com/questions/5454322/python-how-to-match-nested-parentheses-with-regex
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    Although I re-implemented it to make it more generic and match 3 types
e31fd36dSMauro Carvalho Chehab    of delimiters. The logic checks if delimiters are paired. If not, it
e31fd36dSMauro Carvalho Chehab    will ignore the search string.
e31fd36dSMauro Carvalho Chehab    """
e31fd36dSMauro Carvalho Chehab
485f6f79SMauro Carvalho Chehab    # TODO: make NestedMatch handle multiple match groups
485f6f79SMauro Carvalho Chehab    #
e31fd36dSMauro Carvalho Chehab    # Right now, regular expressions to match it are defined only up to
e31fd36dSMauro Carvalho Chehab    #       the start delimiter, e.g.:
e31fd36dSMauro Carvalho Chehab    #
e31fd36dSMauro Carvalho Chehab    #       \bSTRUCT_GROUP\(
e31fd36dSMauro Carvalho Chehab    #
e31fd36dSMauro Carvalho Chehab    # is similar to: STRUCT_GROUP\((.*)\)
5f88f44dSRandy Dunlap    # except that the content inside the match group is delimiter-aligned.
e31fd36dSMauro Carvalho Chehab    #
5f88f44dSRandy Dunlap    # The content inside parentheses is converted into a single replace
e31fd36dSMauro Carvalho Chehab    # group (e.g. r`\1').
e31fd36dSMauro Carvalho Chehab    #
e31fd36dSMauro Carvalho Chehab    # It would be nice to change such definition to support multiple
5f88f44dSRandy Dunlap    # match groups, allowing a regex equivalent to:
e31fd36dSMauro Carvalho Chehab    #
e31fd36dSMauro Carvalho Chehab    #   FOO\((.*), (.*), (.*)\)
e31fd36dSMauro Carvalho Chehab    #
e31fd36dSMauro Carvalho Chehab    # it is probably easier to define it not as a regular expression, but
e31fd36dSMauro Carvalho Chehab    # with some lexical definition like:
e31fd36dSMauro Carvalho Chehab    #
e31fd36dSMauro Carvalho Chehab    #   FOO(arg1, arg2, arg3)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    DELIMITER_PAIRS = {
e31fd36dSMauro Carvalho Chehab        '{': '}',
e31fd36dSMauro Carvalho Chehab        '(': ')',
e31fd36dSMauro Carvalho Chehab        '[': ']',
e31fd36dSMauro Carvalho Chehab    }
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    RE_DELIM = re.compile(r'[\{\}\[\]\(\)]')
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def _search(self, regex, line):
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab        Finds paired blocks for a regex that ends with a delimiter.
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        The suggestion of using finditer to match pairs came from:
e31fd36dSMauro Carvalho Chehab        https://stackoverflow.com/questions/5454322/python-how-to-match-nested-parentheses-with-regex
e31fd36dSMauro Carvalho Chehab        but I ended using a different implementation to align all three types
e31fd36dSMauro Carvalho Chehab        of delimiters and seek for an initial regular expression.
e31fd36dSMauro Carvalho Chehab
5f88f44dSRandy Dunlap        The algorithm seeks for open/close paired delimiters and places them
e31fd36dSMauro Carvalho Chehab        into a stack, yielding a start/stop position of each match when the
e31fd36dSMauro Carvalho Chehab        stack is zeroed.
e31fd36dSMauro Carvalho Chehab
5f88f44dSRandy Dunlap        The algorithm should work fine for properly paired lines, but will
5f88f44dSRandy Dunlap        silently ignore end delimiters that precede a start delimiter.
e31fd36dSMauro Carvalho Chehab        This should be OK for kernel-doc parser, as unaligned delimiters
5f88f44dSRandy Dunlap        would cause compilation errors. So, we don't need to raise exceptions
e31fd36dSMauro Carvalho Chehab        to cover such issues.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        stack = []
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        for match_re in regex.finditer(line):
e31fd36dSMauro Carvalho Chehab            start = match_re.start()
e31fd36dSMauro Carvalho Chehab            offset = match_re.end()
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            d = line[offset - 1]
e31fd36dSMauro Carvalho Chehab            if d not in self.DELIMITER_PAIRS:
e31fd36dSMauro Carvalho Chehab                continue
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            end = self.DELIMITER_PAIRS[d]
e31fd36dSMauro Carvalho Chehab            stack.append(end)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            for match in self.RE_DELIM.finditer(line[offset:]):
e31fd36dSMauro Carvalho Chehab                pos = match.start() + offset
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab                d = line[pos]
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab                if d in self.DELIMITER_PAIRS:
e31fd36dSMauro Carvalho Chehab                    end = self.DELIMITER_PAIRS[d]
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab                    stack.append(end)
e31fd36dSMauro Carvalho Chehab                    continue
e31fd36dSMauro Carvalho Chehab
5f88f44dSRandy Dunlap                # Does the end delimiter match what is expected?
e31fd36dSMauro Carvalho Chehab                if stack and d == stack[-1]:
e31fd36dSMauro Carvalho Chehab                    stack.pop()
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab                    if not stack:
e31fd36dSMauro Carvalho Chehab                        yield start, offset, pos + 1
e31fd36dSMauro Carvalho Chehab                        break
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def search(self, regex, line):
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab        This is similar to re.search:
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        It matches a regex that it is followed by a delimiter,
e31fd36dSMauro Carvalho Chehab        returning occurrences only if all delimiters are paired.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        for t in self._search(regex, line):
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            yield line[t[0]:t[2]]
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab    def sub(self, regex, sub, line, count=0):
*98f51c46SMauro Carvalho Chehab        r"""
e31fd36dSMauro Carvalho Chehab        This is similar to re.sub:
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        It matches a regex that it is followed by a delimiter,
e31fd36dSMauro Carvalho Chehab        replacing occurrences only if all delimiters are paired.
e31fd36dSMauro Carvalho Chehab
*98f51c46SMauro Carvalho Chehab        if the sub argument contains::
*98f51c46SMauro Carvalho Chehab
*98f51c46SMauro Carvalho Chehab            r'\1'
*98f51c46SMauro Carvalho Chehab
*98f51c46SMauro Carvalho Chehab        it will work just like re: it places there the matched paired data
*98f51c46SMauro Carvalho Chehab        with the delimiter stripped.
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        If count is different than zero, it will replace at most count
e31fd36dSMauro Carvalho Chehab        items.
e31fd36dSMauro Carvalho Chehab        """
e31fd36dSMauro Carvalho Chehab        out = ""
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        cur_pos = 0
e31fd36dSMauro Carvalho Chehab        n = 0
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        for start, end, pos in self._search(regex, line):
e31fd36dSMauro Carvalho Chehab            out += line[cur_pos:start]
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            # Value, ignoring start/end delimiters
e31fd36dSMauro Carvalho Chehab            value = line[end:pos - 1]
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            # replaces \1 at the sub string, if \1 is used there
e31fd36dSMauro Carvalho Chehab            new_sub = sub
e31fd36dSMauro Carvalho Chehab            new_sub = new_sub.replace(r'\1', value)
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            out += new_sub
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            # Drop end ';' if any
e31fd36dSMauro Carvalho Chehab            if line[pos] == ';':
e31fd36dSMauro Carvalho Chehab                pos += 1
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            cur_pos = pos
e31fd36dSMauro Carvalho Chehab            n += 1
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab            if count and count >= n:
e31fd36dSMauro Carvalho Chehab                break
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        # Append the remaining string
e31fd36dSMauro Carvalho Chehab        l = len(line)
e31fd36dSMauro Carvalho Chehab        out += line[cur_pos:l]
e31fd36dSMauro Carvalho Chehab
e31fd36dSMauro Carvalho Chehab        return out