一個字符串 string 就是由一系列的字符組成,其中每個字符等同于一個字節(jié)。這意味著 PHP 只能支持 256 的字符集,因此不支持 Unicode 。詳見字符串類型詳解。
注意: 在 32 位版本中,string 最大可以達到 2GB(最多 2147483647 字節(jié))。
一個字符串可以用 4 種方式表達:
定義一個字符串的最簡單的方法是用單引號把它包圍起來(字符 '
)。
要表達一個單引號自身,需在它的前面加個反斜線(\
)來轉義。要表達一個反斜線自身,則用兩個反斜線(\\
)。其它任何方式的反斜線都會被當成反斜線本身:也就是說如果想使用其它轉義序列例如
\r
或者 \n
,并不代表任何特殊含義,就單純是這兩個字符本身。
<?php
echo 'this is a simple string';
// 可以錄入多行
echo 'You can also have embedded newlines in
strings this way as it is
okay to do';
// 輸出: Arnold once said: "I'll be back"
echo 'Arnold once said: "I\'ll be back"';
// 輸出: You deleted C:\*.*?
echo 'You deleted C:\\*.*?';
// 輸出: You deleted C:\*.*?
echo 'You deleted C:\*.*?';
// 輸出: This will not expand: \n a newline
echo 'This will not expand: \n a newline';
// 輸出: Variables do not $expand $either
echo 'Variables do not $expand $either';
?>
如果字符串是包圍在雙引號(")中, PHP 將對以下特殊的字符進行解析:
序列 | 含義 |
---|---|
\n |
換行(ASCII 字符集中的 LF 或 0x0A (10)) |
\r |
回車(ASCII 字符集中的 CR 或 0x0D (13)) |
\t |
水平制表符(ASCII 字符集中的 HT 或 0x09 (9)) |
\v |
垂直制表符(ASCII 字符集中的 VT 或 0x0B (11)) |
\e |
Escape(ASCII 字符集中的 ESC 或 0x1B (27)) |
\f |
換頁(ASCII 字符集中的 FF 或 0x0C (12)) |
\\ |
反斜線 |
\$ |
美元標記 |
\" |
雙引號 |
\[0-7]{1,3} |
符合該正則表達式序列的是一個以八進制方式來表達的字符,which silently overflows to fit in a byte (e.g. "\400" === "\000") |
\x[0-9A-Fa-f]{1,2} |
符合該正則表達式序列的是一個以十六進制方式來表達的字符 |
\u{[0-9A-Fa-f]+} |
匹配正則表達式的字符序列是 unicode 碼位, 該碼位能作為 UTF-8 的表達方式輸出字符串 |
和單引號字符串一樣,轉義任何其它字符都會導致反斜線被顯示出來。
用雙引號定義的字符串最重要的特征是變量會被解析,詳見變量解析。
第三種表達字符串的方法是用 heredoc
句法結構:<<<
。在該運算符之后要提供一個標識符,然后換行。接下來是字符串
string 本身,最后要用前面定義的標識符作為結束標志。
結束標識符可以使用空格或制表符(tab)縮進,此時文檔字符串會刪除所有縮進。 在 PHP 7.3.0 之前的版本中,結束時所引用的標識符必須在該行的第一列。
而且,標識符的命名也要像其它標簽一樣遵守 PHP 的規(guī)則:只能包含字母、數字和下劃線,并且必須以字母和下劃線作為開頭。
示例 #1 PHP 7.3.0 之后的基礎 Heredoc 示例
<?php
// 無縮進
echo <<<END
a
b
c
\n
END;
// 4 空格縮進
echo <<<END
a
b
c
END;
以上例程在 PHP 7.3 中的輸出:
a b c a b c
如果結束標識符的縮進超過內容的任何一行的縮進,則將拋出 ParseError 異常:
示例 #2 結束標識符的縮進不能超過正文的任何一行
<?php
echo <<<END
a
b
c
END;
以上例程在 PHP 7.3 中的輸出:
PHP Parse error: Invalid body indentation level (expecting an indentation level of at least 3) in example.php on line 4
制表符也可以縮進結束標識符,但是,關于縮進結束標識符和內容, 制表符和空格不能混合使用。在以上任何情況下, 將會拋出 ParseError 異常。 之所以包含這些空白限制,是因為混合制表符和空格來縮進不利于易讀性。
示例 #3 內容(空白)和結束標識符的不同縮進
<?php
// 以下所有代碼都不起作用。
// 正文(空格)和結束標記(制表符),不同的縮進
{
echo <<<END
a
END;
}
// 在正文中混合空格和制表符
{
echo <<<END
a
END;
}
// 在結束標記中混合空格和制表符
{
echo <<<END
a
END;
}
以上例程在 PHP 7.3 中的輸出:
PHP Parse error: Invalid indentation - tabs and spaces cannot be mixed in example.php line 8
內容字符串的結束標識符后面不需要跟分號或者換行符。 例如,從 PHP 7.3.0 開始允許以下代碼:
示例 #4 在結束標識符后繼續(xù)表達式
<?php
$values = [<<<END
a
b
c
END, 'd e f'];
var_dump($values);
以上例程在 PHP 7.3 中的輸出:
array(2) { [0] => string(11) "a b c" [1] => string(5) "d e f" }
如果在某一行的開頭找到了結束標識符,那么不管它是否是另外一個單詞的一部分, 它都可能看作結束標識符并引起 ParseError。
示例 #5 字符串內容中的結束標識符往往會導致 ParseError
<?php
$values = [<<<END
a
b
END ING
END, 'd e f'];
以上例程在 PHP 7.3 中的輸出:
PHP Parse error: syntax error, unexpected identifier "ING", expecting "]" in example.php on line 6
為了避免這個問題,遵循以下簡單的規(guī)則較為安全: 不要選擇正文內容中出現的詞作為結束標識符。
在 PHP 7.3.0 之前,請務必注意,帶有結束標識符的行不能包含除
(;
)外的任何其他字符。
這意味著標識符不能縮進,分號的前后也不能有任何空白或制表符。更重要的是結束標識符的前面必須是個被本地操作系統(tǒng)認可的換行,比如在
UNIX 和 macOS 系統(tǒng)中是 \n
,而結束定界符之后也必須緊跟一個換行。
如果不遵守該規(guī)則導致結束標識不“干凈”,PHP 將認為它不是結束標識符而繼續(xù)尋找。如果在文件結束前也沒有找到一個正確的結束標識符,PHP 將會在最后一行產生一個解析錯誤。
示例 #6 PHP 7.3.0 之前的錯誤示例
<?php
class foo {
public $bar = <<<EOT
bar
EOT;
}
// 不能縮進標識符
?>
示例 #7 即使在 PHP 7.3.0 之前也合法的示例
<?php
class foo {
public $bar = <<<EOT
bar
EOT;
}
?>
Heredocs 結構不能用來初始化類的屬性。
Heredoc 結構就象是沒有雙引號的雙引號string,這就是說在 heredoc 結構中單引號不用被轉義,但是上文中列出的轉義序列還可以使用。變量將被替換,但在 heredoc 結構中含有復雜的變量時要像 string 一樣格外小心。
示例 #8 Heredoc 結構的字符串示例
<?php
$str = <<<EOD
Example of string
spanning multiple lines
using heredoc syntax.
EOD;
/* 含有變量的更復雜示例 */
class foo
{
var $foo;
var $bar;
function __construct()
{
$this->foo = 'Foo';
$this->bar = array('Bar1', 'Bar2', 'Bar3');
}
}
$foo = new foo();
$name = 'MyName';
echo <<<EOT
My name is "$name". I am printing some $foo->foo.
Now, I am printing some {$foo->bar[1]}.
This should print a capital 'A': \x41
EOT;
?>
以上例程會輸出:
My name is "MyName". I am printing some Foo. Now, I am printing some Bar2. This should print a capital 'A': A
也可以把 Heredoc 結構用在函數參數中來傳遞數據:
示例 #9 Heredoc 結構在參數中的示例
<?php
var_dump(array(<<<EOD
foobar!
EOD
));
?>
可以用 Heredoc 結構來初始化靜態(tài)變量和類的屬性和常量:
示例 #10 使用 Heredoc 結構來初始化靜態(tài)值
<?php
// 靜態(tài)變量
function foo()
{
static $bar = <<<LABEL
Nothing in here...
LABEL;
}
// 類的常量、屬性
class foo
{
const BAR = <<<FOOBAR
Constant example
FOOBAR;
public $baz = <<<FOOBAR
Property example
FOOBAR;
}
?>
還可以在 Heredoc 結構中用雙引號來聲明標識符:
示例 #11 在 heredoc 結構中使用雙引號
<?php
echo <<<"FOOBAR"
Hello World!
FOOBAR;
?>
就象 heredoc 結構類似于雙引號字符串,Nowdoc 結構是類似于單引號字符串的。Nowdoc
結構很象 heredoc 結構,但是 nowdoc
中不進行解析操作。這種結構很適合用于嵌入 PHP
代碼或其它大段文本而無需對其中的特殊字符進行轉義。與 SGML 的
<![CDATA[ ]]>
結構是用來聲明大段的不用解析的文本類似,nowdoc 結構也有相同的特征。
一個 nowdoc 結構也用和 heredocs 結構一樣的標記
<<<
, 但是跟在后面的標識符要用單引號括起來,即
<<<'EOT'
。Heredoc 結構的所有規(guī)則也同樣適用于 nowdoc
結構,尤其是結束標識符的規(guī)則。
示例 #12 Nowdoc 結構字符串示例
<?php
echo <<<'EOD'
Example of string spanning multiple lines
using nowdoc syntax. Backslashes are always treated literally,
e.g. \\ and \'.
EOD;
以上例程會輸出:
Example of string spanning multiple lines using nowdoc syntax. Backslashes are always treated literally, e.g. \\ and \'.
示例 #13 含變量引用的 Nowdoc 字符串示例
<?php
/* 含有變量的更復雜的示例 */
class foo
{
public $foo;
public $bar;
function __construct()
{
$this->foo = 'Foo';
$this->bar = array('Bar1', 'Bar2', 'Bar3');
}
}
$foo = new foo();
$name = 'MyName';
echo <<<'EOT'
My name is "$name". I am printing some $foo->foo.
Now, I am printing some {$foo->bar[1]}.
This should not print a capital 'A': \x41
EOT;
?>
以上例程會輸出:
My name is "$name". I am printing some $foo->foo. Now, I am printing some {$foo->bar[1]}. This should not print a capital 'A': \x41
示例 #14 靜態(tài)數據的示例
<?php
class foo {
public $bar = <<<'EOT'
bar
EOT;
}
?>
注意:
Nowdoc 結構是在 PHP 5.3.0 中加入的。
當字符串用雙引號或 heredoc 結構定義時,其中的變量將會被解析。
這里共有兩種語法規(guī)則:一種簡單規(guī)則,一種復雜規(guī)則。簡單的語法規(guī)則是最常用和最方便的,它可以用最少的代碼在一個 string 中嵌入一個變量,一個 array 的值,或一個 object 的屬性。
復雜規(guī)則語法的顯著標記是用花括號包圍的表達式。
當 PHP 解析器遇到一個美元符號($
)時,它會和其它很多解析器一樣,去組合盡量多的標識以形成一個合法的變量名??梢杂没ɡㄌ杹砻鞔_變量名的界線。
<?php
$juice = "apple";
echo "He drank some $juice juice.".PHP_EOL;
// Invalid. "s" is a valid character for a variable name, but the variable is $juice.
echo "He drank some juice made of $juices.";
// Valid. Explicitly specify the end of the variable name by enclosing it in braces:
echo "He drank some juice made of ${juice}s.";
?>
以上例程會輸出:
He drank some apple juice. He drank some juice made of . He drank some juice made of apples.
類似的,一個 array 索引或一個 object
屬性也可被解析。數組索引要用方括號(]
)來表示索引結束的邊際,對象屬性則是和上述的變量規(guī)則相同。
示例 #15 簡單語法示例
<?php
$juices = array("apple", "orange", "koolaid1" => "purple");
echo "He drank some $juices[0] juice.".PHP_EOL;
echo "He drank some $juices[1] juice.".PHP_EOL;
echo "He drank some $juices[koolaid1] juice.".PHP_EOL;
class people {
public $john = "John Smith";
public $jane = "Jane Smith";
public $robert = "Robert Paulsen";
public $smith = "Smith";
}
$people = new people();
echo "$people->john drank some $juices[0] juice.".PHP_EOL;
echo "$people->john then said hello to $people->jane.".PHP_EOL;
echo "$people->john's wife greeted $people->robert.".PHP_EOL;
echo "$people->robert greeted the two $people->smiths."; // Won't work
?>
以上例程會輸出:
He drank some apple juice. He drank some orange juice. He drank some purple juice. John Smith drank some apple juice. John Smith then said hello to Jane Smith. John Smith's wife greeted Robert Paulsen. Robert Paulsen greeted the two .
從 PHP 7.1.0 起,還支持負數字索引。
示例 #16 負數索引
<?php
$string = 'string';
echo "The character at index -2 is $string[-2].", PHP_EOL;
$string[-3] = 'o';
echo "Changing the character at index -3 to o gives $string.", PHP_EOL;
?>
以上例程會輸出:
The character at index -2 is n. Changing the character at index -3 to o gives strong.
如果想要表達更復雜的結構,請用復雜語法。
復雜語法不是因為其語法復雜而得名,而是因為它可以使用復雜的表達式。
任何具有 string
表達的標量變量,數組單元或對象屬性都可使用此語法。
表達式的書寫方式與在 string 以外的方式相同,
然后用花括號 {
和 }
把它括起來即可。由于
{
無法被轉義,只有 $
緊挨著 {
時才會被識別??梢杂? {\$
來表達 {$
。下面的示例可以更好的解釋:
<?php
// 顯示所有錯誤
error_reporting(E_ALL);
$great = 'fantastic';
// 無效,輸出: This is { fantastic}
echo "This is { $great}";
// 有效,輸出: This is fantastic
echo "This is {$great}";
// 有效
echo "This square is {$square->width}00 centimeters broad.";
// 有效,只有通過花括號語法才能正確解析帶引號的鍵名
echo "This works: {$arr['key']}";
// 有效
echo "This works: {$arr[4][3]}";
// 這是錯誤的表達式,因為就象 $foo[bar] 的格式在字符串以外也是錯的一樣。
// 換句話說,只有在 PHP 能找到常量 foo 的前提下才會正常工作;這里會產生一個
// E_NOTICE (undefined constant) 級別的錯誤。
echo "This is wrong: {$arr[foo][3]}";
// 有效,當在字符串中使用多重數組時,一定要用括號將它括起來
echo "This works: {$arr['foo'][3]}";
// 有效
echo "This works: " . $arr['foo'][3];
echo "This works too: {$obj->values[3]->name}";
echo "This is the value of the var named $name: {${$name}}";
echo "This is the value of the var named by the return value of getName(): {${getName()}}";
echo "This is the value of the var named by the return value of \$object->getName(): {${$object->getName()}}";
// 無效,輸出: This is the return value of getName(): {getName()}
echo "This is the return value of getName(): {getName()}";
// 無效, 輸出: C:\folder\{fantastic}.txt
echo "C:\folder\{$great}.txt"
// 有效, 輸出: C:\folder\fantastic.txt
echo "C:\\folder\\{$great}.txt"
?>
也可以在字符串中用此語法通過變量來調用類的屬性。
<?php
class foo {
var $bar = 'I am bar.';
}
$foo = new foo();
$bar = 'bar';
$baz = array('foo', 'bar', 'baz', 'quux');
echo "{$foo->$bar}\n";
echo "{$foo->{$baz[1]}}\n";
?>
以上例程會輸出:
注意:
函數、方法、靜態(tài)類變量和類常量可使用
{$}
,在該字符串被定義的命名空間中將其值作為變量名來訪問。只單一使用花括號 ({}
) 無法處理從函數或方法的返回值或者類常量以及類靜態(tài)變量的值。
<?php
// 顯示所有錯誤
error_reporting(E_ALL);
class beers {
const softdrink = 'rootbeer';
public static $ale = 'ipa';
}
$rootbeer = 'A & W';
$ipa = 'Alexander Keith\'s';
// 有效,輸出: I'd like an A & W
echo "I'd like an {${beers::softdrink}}\n";
// 也有效,輸出: I'd like an Alexander Keith's
echo "I'd like an {${beers::$ale}}\n";
?>
string 中的字符可以通過一個從 0 開始的下標,用類似 array 結構中的方括號包含對應的數字來訪問和修改,比如 $str[42]??梢园?string 當成字符組成的 array。函數 substr() 和 substr_replace() 可用于操作多于一個字符的情況。
注意: 從 PHP 7.1.0 開始,還支持 string 負偏移量。從 string 尾部到指定位置的偏移量。 以前,負偏移量讀取時(返回空 string)會發(fā)出
E_NOTICE
, 寫入時(string 保持不變)會發(fā)出E_WARNING
。
注意: PHP 8.0.0 之前, 出于同樣的目的,可以使用大括號訪問 string,例如 $str{42}。 從 PHP 7.4.0 起,此大括號語法被棄用,自 PHP 8.0.0 開始不再受支持。
用超出字符串長度的下標寫入將會拉長該字符串并以空格填充。非整數類型下標會被轉換成整數。非法下標類型會產生一個
E_WARNING
級別錯誤。
寫入時只用到了賦值字符串的第一個字符。
PHP 7.1.0 開始,用空字符串賦值會導致 fatal 錯誤;在之前賦給的值是
NULL 字符。
PHP 的字符串在內部是字節(jié)組成的數組。因此用花括號訪問或修改字符串對多字節(jié)字符集很不安全。僅應對單字節(jié)編碼例如 ISO-8859-1 的字符串進行此類操作。
注意: 從 PHP 7.1.0 開始,對空字符串應用空索引運算符會引發(fā)致命錯誤。 以前是空字符串會被靜默轉為數組。
示例 #17 一些字符串示例
<?php
// 取得字符串的第一個字符
$str = 'This is a test.';
$first = $str[0];
// 取得字符串的第三個字符
$third = $str[2];
// 取得字符串的最后一個字符
$str = 'This is still a test.';
$last = $str[strlen($str)-1];
// 修改字符串的最后一個字符
$str = 'Look at the sea';
$str[strlen($str)-1] = 'e';
?>
字符串下標必須為整數或可轉換為整數的字符串,否則會發(fā)出警告。之前類似
"foo"
的下標會無聲地轉換成 0
。
示例 #18 字符串無效下標的例子
<?php
$str = 'abc';
var_dump($str['1']);
var_dump(isset($str['1']));
var_dump($str['1.0']);
var_dump(isset($str['1.0']));
var_dump($str['x']);
var_dump(isset($str['x']));
var_dump($str['1x']);
var_dump(isset($str['1x']));
?>
以上例程會輸出:
string(1) "b" bool(true) Warning: Illegal string offset '1.0' in /tmp/t.php on line 7 string(1) "b" bool(false) Warning: Illegal string offset 'x' in /tmp/t.php on line 9 string(1) "a" bool(false) string(1) "b" bool(false)
注意:
用
[]
或{}
訪問任何其它類型(不包括數組或具有相應接口的對象實現)的變量只會無聲地返回null
。
注意:
可以直接在字符串原型中用
[]
或{}
訪問字符。
注意:
PHP 7.4 中棄用在字符串字面量中使用
{}
來訪問字符。 PHP 8.0 已移除。
字符串可以用 '.'(點)運算符連接起來,注意 '+'(加號)運算符沒有這個功能。更多信息參考字符串運算符。
對于 string 的操作有很多有用的函數。
可以參考字符串函數了解大部分函數,高級的查找與替換功能可以參考 Perl 兼容正則表達式函數。
另外還有 URL 字符串函數,也有加密/解密字符串的函數(Sodium 和 Hash)。
最后,可以參考字符類型函數。
一個值可以通過在其前面加上 (string)
或用 strval()
函數來轉變成字符串。在一個需要字符串的表達式中,會自動轉換為
string。比如在使用函數 echo 或 print
時,或在一個變量和一個 string 進行比較時,就會發(fā)生這種轉換。類型和類型轉換可以更好的解釋下面的事情,也可參考函數
settype()。
一個布爾值 bool 的 true
被轉換成 string 的
"1"
。bool 的 false
被轉換成
""
(空字符串)。這種轉換可以在 bool
和 string 之間相互進行。
一個整數 int 或浮點數 float 被轉換為數字的字面樣式的
string(包括 float
中的指數部分)。使用指數計數法的浮點數(4.1E+6
)也可轉換。
注意:
PHP 8.0.0 起,十進制小數點字符都是
.
。 而在此之前的版本, 在腳本的區(qū)域(category LC_NUMERIC)中定義了十進制小數點字符。參見 setlocale()。
數組 array 總是轉換成字符串
"Array"
,因此,echo 和
print 無法顯示出該數組的內容。要顯示某個單元,可以用
echo $arr['foo']
這種結構。要顯示整個數組內容見下文。
必須使用魔術方法 __toString 才能將 object 轉換為 string。
資源 Resource 總會被轉變成 "Resource id #1"
這種結構的字符串,其中的 1
是 PHP
在運行時分配給該 resource 的資源數字。
While the exact structure of this string should not be relied on
and is subject to change, it will always be unique for a given resource
within the lifetime of a script being executed (ie a Web request or CLI
process) and won't be reused.
要得到一個
resource 的類型,可以用函數 get_resource_type()。
null
總是被轉變成空字符串。
如上面所說的,直接把 array,object 或 resource 轉換成 string 不會得到除了其類型之外的任何有用信息。可以使用函數 print_r() 和 var_dump() 列出這些類型的內容。
大部分的 PHP 值可以轉變成 string 來永久保存,這被稱作串行化,可以用函數 serialize() 來實現。
PHP 中的 string
的實現方式是一個由字節(jié)組成的數組再加上一個整數指明緩沖區(qū)長度。并無如何將字節(jié)轉換成字符的信息,由程序員來決定。字符串由什么值來組成并無限制;特別的,其值為
0
(“NUL bytes”)的字節(jié)可以處于字符串任何位置(不過有幾個函數,在本手冊中被稱為非“二進制安全”的,也許會把
NUL 字節(jié)之后的數據全都忽略)。
字符串類型的此特性解釋了為什么 PHP 中沒有單獨的“byte”類型 - 已經用字符串來代替了。返回非文本值的函數 - 例如從網絡套接字讀取的任意數據 - 仍會返回字符串。
由于 PHP 并不特別指明字符串的編碼,那字符串到底是怎樣編碼的呢?例如字符串
"á"
到底是等于
"\xE1"
(ISO-8859-1),"\xC3\xA1"
(UTF-8,C
form),"\x61\xCC\x81"
(UTF-8,D
form)還是任何其它可能的表達呢?答案是字符串會被按照該腳本文件相同的編碼方式來編碼。因此如果一個腳本的編碼是
ISO-8859-1,則其中的字符串也會被編碼為 ISO-8859-1,以此類推。不過這并不適用于激活了 Zend Multibyte
時;此時腳本可以是以任何方式編碼的(明確指定或被自動檢測)然后被轉換為某種內部編碼,然后字符串將被用此方式編碼。注意腳本的編碼有一些約束(如果激活了 Zend Multibyte 則是其內部編碼)-
這意味著此編碼應該是 ASCII 的兼容超集,例如
UTF-8 或 ISO-8859-1。不過要注意,依賴狀態(tài)的編碼其中相同的字節(jié)值可以用于首字母和非首字母而轉換狀態(tài),這可能會造成問題。
當然了,要做到有用,操作文本的函數必須假定字符串是如何編碼的。不幸的是,PHP 關于此的函數有很多變種:
strtoupper("á")
在區(qū)域設定正確并且 á
是單字節(jié)編碼時會返回 "á"
。如果是用 UTF-8
編碼則不會返回正確結果,其結果根據當前區(qū)域有可能返回損壞的值。
u
修飾符時)擴展中的大部分函數都是這樣。盡管這是由于其特殊用途,utf8_decode()
會假定 UTF-8 編碼而 utf8_encode() 會假定
ISO-8859-1 編碼。
最后,要書寫能夠正確使用 Unicode 的程序依賴于很小心地避免那些可能會損壞數據的函數。要使用來自于 intl 和 mbstring 擴展的函數。不過使用能處理 Unicode 編碼的函數只是個開始。不管用何種語言提供的函數,最基本的還是了解 Unicode 規(guī)格。例如一個程序如果假定只有大寫和小寫,那可是大錯特錯。