重復(fù)/量詞

重復(fù)次數(shù)是通過量詞指定的，可以緊跟在下面元素之后：

單獨的字符, 可以是經(jīng)過轉(zhuǎn)義的
元字符。
字符類
后向引用(參加下一部分)
子組(除非它是一個斷言，參考下文)

一般的重復(fù)量詞指定了一個最小數(shù)值和一個最大數(shù)值的匹配次數(shù)，通過花括號包裹兩個數(shù)字，兩個數(shù)字之間用逗號隔開的語法定義。兩個數(shù)值都必須小于 65536，并且第一個數(shù)字必須小于等于第二個。比如： z{2,4} 匹配 ”zz”， “zzz”， “zzzz”。單個的右花括號不是特殊字符。如果第二個數(shù)字被省略，但是逗號仍然存在，就代表沒有上限；如果第二個數(shù)字和逗號都被省略，那么這個量詞就限定的是一個確定次數(shù)的匹配。比如 [aeiou]{3,} 匹配至少三個連續(xù)的元音字母，但是同時也可以匹配更多，而 \d{8} 則只能匹配 8 個數(shù)字。左花括號出現(xiàn)在不允許使用量詞的位置或者與量詞語法不匹配時，被認為是一個普通字符，對它自身進行原文匹配。比如，{,6}就不是一個量詞，會按照原文匹配四個字符 ”{,6}”。

量詞 {0} 是被授權(quán)的，它會導(dǎo)致的行為是認為前面的項和量詞不存在。

為了方便(以及歷史的兼容性)，最常用的三個量詞都有單字符縮寫。

**單字符量詞**
`*`	等價于 `{0,}`
`+`	等價于 `{1,}`
`?`	等價于 `{0,1}`

可以通過一個不匹配任何字符的子模式后面緊跟一個匹配 0 或多個字符的量詞來構(gòu)造一個沒有上限的無限循環(huán)。比如： (a?)*

早期版本的 Perl 和 PCRE 對于這種模式會在編譯期得到一個錯誤。然而，由于這在某些情況下是有用的，因此現(xiàn)在也接受這種模式了，但是如果任何子模式的重復(fù)確實匹配不到任何字符，循環(huán)會被強制跳出。

默認情況下，量詞都是”貪婪”的，也就是說，它們會在不導(dǎo)致模式匹配失敗的前提下，盡可能多的匹配字符(直到最大允許的匹配次數(shù))。這種問題的典型示例就是嘗試匹配C語言的注釋。出現(xiàn)在 /* 和 */ 之間的所有內(nèi)容都被認為是注釋，在注釋中間，可以允許出現(xiàn)單獨的 * 和 /。對 C 注釋匹配的一個嘗試是使用模式 /\*.*\*/ ，假設(shè)將此模式應(yīng)用在字符串 ” /* first comment*/ not comment /*second comment*/” 它會匹配到錯誤的結(jié)果，也就是整個字符串，這是因為量詞的貪婪性導(dǎo)致的，它會嘗試盡可能多的匹配字符。

然而，如果一個量詞緊跟著一個 ?(問號) 標記，它就會成為懶惰(非貪婪)模式，它不再盡可能多的匹配，而是盡可能少的匹配。因此模式 /\*.*?\*/ 在 C 的注釋匹配上將會正確的執(zhí)行。各個量詞自身的意義并不會改變，而是由于加入了 ? 使其首選的匹配次數(shù)發(fā)生改變。不要將 ? 的這個用法和它作為量詞的用法混淆。因為它又兩種用法，因此有時它會出現(xiàn)量詞，比如 \d??\d 會更傾向于匹配一個數(shù)字，但同時如果為了達到整個模式匹配的目的，它也可以接受兩個數(shù)字的匹配。譯注：以模式 \w\d??\d\w 為例，對于字符串 ”a33a”，雖然 \d?? 是非貪婪的，但由于如果使用貪婪會導(dǎo)致整個模式不匹配，所以，最終它選擇的仍然是匹配到一個數(shù)字。

如果 PCRE_UNGREEDY 選項被設(shè)置(一個在 perl 中不可用的選項)，那么量詞默認情況下就是非貪婪的了。但是，單個的量詞可以通過緊跟一個 ? 來使其成為貪婪的。換句話說， PCRE_UNGREEDY 這個選項逆轉(zhuǎn)了貪婪的默認行為。

量詞后面緊跟一個 ”+” 是”占有”性。它會吃掉盡可能多的字符，并且不關(guān)注后面的其他模式，比如 .*abc 匹配 ”aabc”，但是 .*+abc 不會匹配，因為 .*+ 會吃掉整個字符串，從而導(dǎo)致后面剩余的模式得不到匹配。可以使用占有符 (+) 修飾量詞來達到提升速度的目的。

當一個子組受最小數(shù)量大于 1 或有一個最大數(shù)量限制的量詞修飾時，按照最小或最大的數(shù)量的比例需要更多的存儲用于編譯模式。

如果一個模式以 .* 或 .{0,} 開始并且 PCRE_DOTALL 選項開啟(等價于 Perl 的 /s)，也就是允許 . 匹配換行符，那么模式會隱式的緊固，因為不管怎么樣，接下來都會對目標字符串中的每個字符位置進行嘗試，因此在第一次之后，在任何位置都不會有一個對所有匹配重試的點。 PCRE 會想對待 \A 一樣處理這個模式。在我們已知目標字符串沒有包含換行符的情況下，當模式以 .* 開始的時候我們?yōu)榱双@得這個優(yōu)化，值得設(shè)置 PCRE_DOTALL，或者選擇使用 ^ 明確指明錨定。

譯注：這里的優(yōu)化指模式不匹配之后，不會回頭再來查找下一個位置，比如沒有設(shè)置 PCRE_DOTALL，并且目標字符串第一個字符時換行符，那么模式嘗試第一個字符，發(fā)現(xiàn)不匹配，會重新用模式從第二個字符位置開始進行嘗試。而使用了PCRE_DOTALL后，是肯定匹配的….同理，當使用了 ^ 或者 /A的限定是，模式一旦不匹配，都可以直接退出，而不用在目標字符串下一個位置再一次開始整個模式的匹配。

當一個捕獲子組時重復(fù)的時，捕獲到的該子組的結(jié)果是最后一次迭代捕獲的值。比如， (tweedle[dume]{3}\s*)+ 匹配字符串 ”tweedledum tweedledee”，得到的的子組捕獲結(jié)果是 ”tweedledee”。然而，如果是嵌套的捕獲子組，相應(yīng)的捕獲值可能會被設(shè)置到之前的迭代中。比如， /(a|(b))+/ 匹配字符串 ”aba”，第二個捕獲子組得到的結(jié)果會是 ”b”。譯注：以例子說明， b 是第二個子組最后一次捕獲到的結(jié)果，所以，第二個子組最后結(jié)果是 b，這是符合”然而”之前描述的規(guī)則的。