xml.dom.pulldom
--- 支持構(gòu)建部分 DOM 樹?
xml.dom.pulldom
模塊提供了一個“拉取解析器”,它能在必要時被用于產(chǎn)生文件的可訪問 DOM 的片段。 其基本概念包括從輸入的 XML 流拉取“事件”并處理它們。 與同樣地同時應(yīng)用了事件驅(qū)動處理模型加回調(diào)函數(shù)的 SAX 不同,拉取解析器的用戶要負責(zé)顯式地從流拉取事件,并循環(huán)遍歷這些事件直到處理結(jié)束或者發(fā)生了錯誤條件。
警告
xml.dom.pulldom
模塊對于惡意構(gòu)建的數(shù)據(jù)是不安全的。 如果你需要解析不受信任或未經(jīng)身份驗證的數(shù)據(jù),請參閱 XML 漏洞。
在 3.7.1 版更改: SAX 解析器默認不再處理一般外部實體以提升在默認情況下的安全性。 要啟用外部實體處理,請傳入一個自定義的解析器實例:
from xml.dom.pulldom import parse
from xml.sax import make_parser
from xml.sax.handler import feature_external_ges
parser = make_parser()
parser.setFeature(feature_external_ges, True)
parse(filename, parser=parser)
示例:
from xml.dom import pulldom
doc = pulldom.parse('sales_items.xml')
for event, node in doc:
if event == pulldom.START_ELEMENT and node.tagName == 'item':
if int(node.getAttribute('price')) > 50:
doc.expandNode(node)
print(node.toxml())
event
是一個常量,可以取下列值之一:
START_ELEMENT
END_ELEMENT
COMMENT
START_DOCUMENT
END_DOCUMENT
CHARACTERS
PROCESSING_INSTRUCTION
IGNORABLE_WHITESPACE
node
是一個 xml.dom.minidom.Document
, xml.dom.minidom.Element
或 xml.dom.minidom.Text
類型的對象。
由于文檔是被當(dāng)作“展平”的事件流來處理的,文檔“樹”會被隱式地遍歷并且無論所需元素在樹中的深度如何都會被找到。 換句話說,不需要考慮層級問題,例如文檔節(jié)點的遞歸搜索等,但是如果元素的內(nèi)容很重要,則有必要保留一些上下文相關(guān)的狀態(tài)(例如記住任意給定點在文檔中的位置)或者使用 DOMEventStream.expandNode()
方法并切換到 DOM 相關(guān)的處理過程。
- class xml.dom.pulldom.PullDom(documentFactory=None)?
- class xml.dom.pulldom.SAX2DOM(documentFactory=None)?
- xml.dom.pulldom.parse(stream_or_string, parser=None, bufsize=None)?
基于給定的輸入返回一個
DOMEventStream
。 stream_or_string 可以是一個文件名,或是一個文件類對象。 parser 如果給出,則必須是一個XMLReader
對象。 此函數(shù)將改變解析器的文檔處理程序并激活命名空間支持;其他解析器配置(例如設(shè)置實體解析器)必須在之前已完成。
如果你將 XML 存放為字符串形式,則可以改用 parseString()
函數(shù):
- xml.dom.pulldom.parseString(string, parser=None)?
返回一個
DOMEventStream
來表示 (Unicode) string。
- xml.dom.pulldom.default_bufsize?
將 bufsize 形參的默認值設(shè)為
parse()
。此變量的值可在調(diào)用
parse()
之前修改并使新值生效。
DOMEventStream 對象?
- class xml.dom.pulldom.DOMEventStream(stream, parser, bufsize)?
在 3.11 版更改: Support for
__getitem__()
method has been removed.- getEvent()?
返回一個元組,其中包含 event 和
xml.dom.minidom.Document
形式的當(dāng)前 node 如果 event 等于START_DOCUMENT
,包含xml.dom.minidom.Element
如果 event 等于START_ELEMENT
或END_ELEMENT
或者xml.dom.minidom.Text
如果 event 等于CHARACTERS
。 當(dāng)前 node 不包含有關(guān)其子節(jié)點的信息,除非expandNode()
被調(diào)用。
- expandNode(node)?
將 node 的所有子節(jié)點擴展到 node 中。 例如:
from xml.dom import pulldom xml = '<html><title>Foo</title> <p>Some text <div>and more</div></p> </html>' doc = pulldom.parseString(xml) for event, node in doc: if event == pulldom.START_ELEMENT and node.tagName == 'p': # Following statement only prints '<p/>' print(node.toxml()) doc.expandNode(node) # Following statement prints node with all its children '<p>Some text <div>and more</div></p>' print(node.toxml())
- reset()?