后向引用

在一個字符類外面, 反斜線緊跟一個大于 0 (可能還有一位數(shù))的數(shù)字就是一個到模式中之前出現(xiàn)的某個捕獲組的后向引用。

如果緊跟反斜線的數(shù)字小于 10, 它總是一個后向引用, 并且如果在模式中沒有足夠多的捕獲組,將會引發(fā)一個錯誤。換而言之, 被引用的括號不能少于被引用的小于 10 的數(shù)量。 A "forward back reference" can make sense when a repetition is involved and the subpattern to the right has participated in an earlier iteration. 查看上面的”反斜線”部分查看具體的數(shù)字處理方式。

一個后向引用會直接匹配被引用捕獲組在目標字符串中實際捕獲到的內(nèi)容, 而不是匹配子組模式的內(nèi)容。因此,模式 (sens|respons)e and \1ibility 將會匹配 ”sense and sensibility” 和 ”response and responsibility”, 而不會匹配 ”sense and responsibility”。 如果在后向引用時被強制進行了大小寫敏感匹配, 比如 ((?i)rah)\s+\1 匹配 ”rah rah”和”RAH RAH”,但是不會匹配 ”RAH rah”, 即使原始捕獲子組自身是不區(qū)分大小寫的。 譯注: 這里其實要考慮的是后向引用期望得到的內(nèi)容是和那個被引用的捕獲子組得到的內(nèi)容是完全一致的(當然, 我們可以通過在后向引用之前設(shè)定內(nèi)部選項使其不區(qū)分大小寫,或者增加模式修飾符, 同樣可以達到不區(qū)分大小寫的目的,但是, 這種做法實際上是從外部對其行為進行了控制。)

可能會有超過一個的后向引用引用相同的子組。 一個子組可能并不會真正的用于特定的匹配,此時, 任何對這個子組的后向引用也都會失敗。 比如, 模式 (a|(bc))\2 總是在匹配 ”a” 開頭而不是 ”bc” 開頭的字符串時失敗。 因為可能會有多達 99 個后向引用, 所有緊跟反斜線后的數(shù)字都可能是一個潛在的后向引用計數(shù)。 如果模式在后向引用之后緊接著還是一個數(shù)值字符, 那么必須使用一些分隔符用于終結(jié)后向引用語法。 如果設(shè)置了 PCRE_EXTENDED 選項, 可以使用空格來做。其他情況下可以使用一個空的注釋。

如果一個后向引用出現(xiàn)在它所引用的子組內(nèi)部, 它的匹配就會失敗。比如, (a\1) 就不會得到任何匹配。然而這種引用可以用于內(nèi)部的子模式重復(fù)。比如, 模式 (a|b\1)+ 會匹配任意數(shù)量的 ”a” 組成的字符串以及 ”aba”, “ababba” 等等(譯注: 因為子組內(nèi)部有一個可選路徑,可選路徑中有一條路能夠完成匹配,在匹配完成后, 后向引用就能夠引用到內(nèi)容了)。在每次子模式的迭代過程中, 后向引用匹配上一次迭代時這個子組匹配到的字符串。為了做這種工作, 模式必須滿足這樣一個條件,模式在第一次迭代的時候, 必須能夠保證不需要匹配后向引用。 這種條件可以像上面的例子用可選路徑來實現(xiàn),也可以通過使用最小值為 0 的量詞修飾后向引用的方式來完成。

轉(zhuǎn)義序列 \g 可以用于子模式的絕對引用和相對引用。 這個轉(zhuǎn)義序列必須緊跟一個無符號數(shù)字或一個負數(shù), 可以選擇性的使用括號對數(shù)字進行包裹。 序列\1, \g1\g{1} 之間是同義詞關(guān)系。 這種用法可以消除使用反斜線緊跟數(shù)值描述反向引用時候產(chǎn)生的歧義。 這種轉(zhuǎn)義序列有利于區(qū)分后向引用和八進制數(shù)字字符, 也使得后向引用后面緊跟一個原文匹配數(shù)字變的更明了,比如 \g{2}1。

\g 轉(zhuǎn)義序列緊跟一個負數(shù)代表一個相對的后向引用。比如: (foo)(bar)\g{-1} 可以匹配字符串 ”foobarbar”, (foo)(bar)\g{-2} 可以匹配 ”foobarfoo”。 這在長的模式中作為一個可選方案, 用來保持對之前一個特定子組的引用的子組序號的追蹤。

后向引用也支持使用子組名稱的語法方式描述: (?P=name)\k<name>、 \k’name’、\k{name}、 \g{name}、\g<name>\g'name'。