8.4. BaseHTMLProcessor.py 介紹

8.4. `BaseHTMLProcessor.py` 介紹

SGMLParser 自身不會產生任何結果。它只是分析，分析，再分析，對于它找到的有趣的東西會調用相應的一個方法，但是這些方法什么都不做。SGMLParser 是一個 HTML 消費者 (consumer)：它接收 HTML，將其分解成小的、結構化的小塊。正如您所看到的，在前一節中，您可以定義 SGMLParser 的子類，它可以捕捉特別標記和生成有用的東西，如一個網頁中所有鏈接的一個列表。現在我們將沿著這條路更深一步。我們要定義一個可以捕捉 SGMLParser 所丟出來的所有東西的一個類，接著重建整個 HTML 文檔。用技術術語來說，這個類將是一個 HTML 生產者 (producer)。

BaseHTMLProcessor 子類化 SGMLParser，并且提供了全部的 8 個處理方法：unknown_starttag、unknown_endtag、handle_charref、handle_entityref、handle_comment、handle_pi、handle_decl 和 handle_data。

例 8.8. `BaseHTMLProcessor` 介紹


class BaseHTMLProcessor(SGMLParser):
    def reset(self):                        
        self.pieces = []
        SGMLParser.reset(self)

    def unknown_starttag(self, tag, attrs): 
        strattrs = "".join([' %s="%s"' % (key, value) for key, value in attrs])
        self.pieces.append("<%(tag)s%(strattrs)s>" % locals())

    def unknown_endtag(self, tag):          
        self.pieces.append("</%(tag)s>" % locals())

    def handle_charref(self, ref):          
        self.pieces.append("&#%(ref)s;" % locals())

    def handle_entityref(self, ref):        
        self.pieces.append("&%(ref)s" % locals())
        if htmlentitydefs.entitydefs.has_key(ref):
            self.pieces.append(";")

    def handle_data(self, text):            
        self.pieces.append(text)

    def handle_comment(self, text):         
        self.pieces.append("<!--%(text)s-->" % locals())

    def handle_pi(self, text):              
        self.pieces.append("<?%(text)s>" % locals())

    def handle_decl(self, text):
        self.pieces.append("<!%(text)s>" % locals())

	`reset` 由 `SGMLParser.__init__` 來調用。在調用父類方法之前將 `self.pieces` 初始化為空列表。`self.pieces` 是一個數據屬性，將用來保存將要構造的 HTML 文檔的片段。每個處理器方法都將重構 `SGMLParser` 所分析出來的 HTML，并且每個方法將生成的字符串追加到 `self.pieces` 之后。注意，`self.pieces` 是一個 list。也許您想將它定義為一個字符串，然后不停地將每個片段追加到它的后面。這樣做是可以的，但是 Python 在處理 list 方面效率更高一些。 ^[5]
	因為 `BaseHTMLProcessor` 沒有為特別標記定義方法 (如在 `URLLister` 中的`start_a` 方法)， `SGMLParser` 將對每一個開始標記調用 `unknown_starttag` 方法。這個方法接收標記 (`tag`) 和屬性的名字/值對的 list(`attrs`) 兩參數，重新構造初始的 HTML，接著將結果追加到 `self.pieces` 后。這里的字符串格式化有些陌生，我們將留到下一節再說明。
	重構結束標記要簡單得多，只是使用標記名字，把它包在 `</...>` 括號中。
	當 `SGMLParser` 找到一個字符引用時，會用原始的引用來調用 `handle_charref`。如果 HTML 文檔包含 ` ` 這個引用，`ref` 將為 `160`。重構原始的完整的字符引用只要將 `ref` 包裝在 `&#...;` 字符中間。
	實體引用同字符引用相似，但是沒有#號。重建原始的實體引用只要將 `ref` 包裝在 `&...;` 字符串中間。(實際上，一位博學的讀者曾經向我指出，除些之外還稍微有些復雜。僅有某種標準的 HTML 實體以一個分號結束；其它看上去差不多的實體并不如此。幸運的是，標準 HTML 實體集已經定義在 Python 的一個叫做 `htmlentitydefs` 的模塊中了。從而引出額外的 `if` 語句。)
	文本塊則簡單地不經修改地追加到 `self.pieces` 后。
	HTML 注釋包裝在 `<!--...-->` 字符中。
	處理指令包裝在 `<?...>` 字符中。


	HTML 規范要求所有非 HTML (像客戶端的 JavaScript) 必須包括在 HTML 注釋中，但不是所有的頁面都是這么做的 (而且所有的最新的瀏覽器也都容許不這樣做) 。`BaseHTMLProcessor` 不允許這樣，如果腳本嵌入得不正確，它將被當作 HTML 一樣進行分析。例如，如果腳本包含了小于和等于號，`SGMLParser` 可能會錯誤地認為找到了標記和屬性。`SGMLParser` 總是把標記名和屬性名轉換成小寫，這樣可能破壞了腳本，并且 `BaseHTMLProcessor` 總是用雙引號來將屬性封閉起來 (盡管原始的 HTML 文檔可能使用單引號或沒有引號) ，這樣必然會破壞腳本。應該總是將您的客戶端腳本放在 HTML 注釋中進行保護。

例 8.9. `BaseHTMLProcessor` 輸出結果

    def output(self):               
        """Return processed HTML as a single string"""
        return "".join(self.pieces)

這是在 BaseHTMLProcessor 中的一個方法，它永遠不會被父類 SGMLParser 所調用。因為其它的處理器方法將它們重構的 HTML 保存在 self.pieces 中，這個函數需要將所有這些片段連接成一個字符串。正如前面提到的，Python 在處理列表方面非常出色，但對于字符串處理就遜色了。所以我們只有在某人確實需要它時才創建完整的字符串。

如果您愿意，也可以換成使用 string 模塊的 join 方法：string.join(self.pieces, "")。

進一步閱讀

W3C 討論了字符和實體引用。
Python Library Reference 解答了您的懷疑，即 htmlentitydefs 模塊的確名符其實。

Footnotes

^[5]Python 處理 list 比字符串快的原因是：list 是可變的，但字符串是不可變的。這就是說向 list 進行追加只是增加元素和修改索引。因為字符串在創建之后不能被修改，像 s = s + newpiece 這樣的代碼將會從原值和新片段的連接結果中創建一個全新的字符串，然后丟棄原來的字符串。這樣就需要大量昂貴的內存管理，并且隨著字符串變長，所需要的開銷也在增長。所以在一個循環中執行 s = s + newpiece 非常不好。用技術術語來說，向一個 list 追加 n 個項的代價為 O(n)，而向一個字符串追加 n 個項的代價是 O(n²)。

深入 Python :Dive Into Python 中文版