<span id="7ztzv"></span>
<sub id="7ztzv"></sub>

<span id="7ztzv"></span><form id="7ztzv"></form>

<span id="7ztzv"></span>

        <address id="7ztzv"></address>

            7.3. 個案研究:羅馬字母

            你可能經常看到羅馬數字,即使你沒有意識到它們。你可能曾經在老電影或者電視中看到它們 (“版權所有 MCMXLVI” 而不是 “版權所有1946”),或者在某圖書館或某大學的貢獻墻上看到它們 (“成立于 MDCCCLXXXVIII”而不是“成立于1888”)。你也可能在某些文獻的大綱或者目錄上看到它們。這是一個表示數字的系統,它實際上能夠追溯到遠古的羅馬帝國 (因此而得名)。

            在羅馬數字中,利用7個不同字母進行重復或者組合來表達各式各樣的數字。

            下面是關于構造羅馬數字的一些通用的規則的介紹:

            7.3.1. 校驗千位數

            怎樣校驗任意一個字符串是否為一個有效的羅馬數字呢?我們每次只看一位數字,由于羅馬數字一般是從高位到低位書寫。我們從高位開始:千位。對于大于或等于 1000 的數字,千位由一系列的字符 M 表示。

            例 7.3. 校驗千位數

            >>> import re
            >>> pattern = '^M?M?M?$'       1
            >>> re.search(pattern, 'M')    2
            <SRE_Match object at 0106FB58>
            >>> re.search(pattern, 'MM')   3
            <SRE_Match object at 0106C290>
            >>> re.search(pattern, 'MMM')  4
            <SRE_Match object at 0106AA38>
            >>> re.search(pattern, 'MMMM') 5
            >>> re.search(pattern, '')     6
            <SRE_Match object at 0106F4A8>
            1 這個模式有三部分:
            • ^ 表示僅在一個字符串的開始匹配其后的字符串內容。如果沒有這個字符,這個模式將匹配出現在字符串任意位置上的 M,而這并不是你想要的。你想確認的是:字符串中是否出現字符 M,如果出現,則必須是在字符串的開始。
            • M? 可選地匹配單個字符 M,由于它最多可重復出現三次,你可以在一行中匹配 0 次到 3 次字符 M
            • $ 字符限制模式只能夠在一個字符串的結尾匹配。當和模式開頭的字符 ^ 結合使用時,這意味著模式必須匹配整個串,并且在在字符 M 的前后都不能夠出現其他的任意字符。
            2 re 模塊的關鍵是一個 search 函數,該函數有兩個參數,一個是正則表達式 (pattern),一個是字符串 ('M'),函數試圖匹配正則表達式。如果發現一個匹配,search 函數返回一個擁有多種方法可以描述這個匹配的對象,如果沒有發現匹配,search 函數返回一個 None,一個 Python 空值 (null value)。你此刻關注的唯一事情,就是模式是否匹配上,于是我們利用 search 函數的返回值了解這個事實。字符串'M' 匹配上這個正則表達式,因為第一個可選的 M 匹配上,而第二個和第三個 M 被忽略掉了。
            3 'MM' 能匹配上是因為第一和第二個可選的 M 匹配上,而忽略掉第三個 M
            4 'MMM' 能匹配上因為三個 M 都匹配上了。
            5 'MMMM' 沒有匹配上。因為所有的三個 M 都匹配完了,但是正則表達式還有字符串尾部的限制 (由于字符 $),而字符串又沒有結束 (因為還有第四個 M 字符),因此 search 函數返回一個 None
            6 有趣的是,一個空字符串也能夠匹配這個正則表達式,因為所有的字符 M 都是可選的。

            7.3.2. 校驗百位數

            與千位數相比,百位數識別起來要困難得多,這是因為有多種相互獨立的表達方式都可以表達百位數,而具體用那種方式表達和具體的數值有關。

            • 100 = C
            • 200 = CC
            • 300 = CCC
            • 400 = CD
            • 500 = D
            • 600 = DC
            • 700 = DCC
            • 800 = DCCC
            • 900 = CM

            因此有四種可能的模式:

            • CM
            • CD
            • 零到三次出現 C 字符 (出現零次表示百位數為 0)
            • D,后面跟零個到三個 C 字符

            后面兩個模式可以結合到一起:

            • 一個可選的字符 D,加上零到 3 個 C 字符。

            這個例子顯示如何有效地識別羅馬數字的百位數。

            例 7.4. 檢驗百位數

            >>> import re
            >>> pattern = '^M?M?M?(CM|CD|D?C?C?C?)$' 1
            >>> re.search(pattern, 'MCM')            2
            <SRE_Match object at 01070390>
            >>> re.search(pattern, 'MD')             3
            <SRE_Match object at 01073A50>
            >>> re.search(pattern, 'MMMCCC')         4
            <SRE_Match object at 010748A8>
            >>> re.search(pattern, 'MCMC')           5
            >>> re.search(pattern, '')               6
            <SRE_Match object at 01071D98>
            1 這個模式的首部和上一個模式相同,檢查字符串的開始 (^),接著匹配千位數 (M?M?M?),然后才是這個模式的新內容。在括號內,定義了包含有三個互相獨立的模式集合,由垂直線隔開:CMCDD?C?C?C? (D是可選字符,接著是 0 到 3 個可選的 C 字符)。正則表達式解析器依次檢查這些模式 (從左到右),如果匹配上第一個模式,則忽略剩下的模式。
            2 'MCM' 匹配上,因為第一個 M 字符匹配,第二和第三個 M 字符被忽略掉,而 CM 匹配上 (因此 CDD?C?C?C? 兩個模式不再考慮)。MCM 表示羅馬數字1900
            3 'MD' 匹配上,因為第一個字符 M 匹配上,第二第三個 M 字符忽略,而模式 D?C?C?C? 匹配上 D (模式中的三個可選的字符 C 都被忽略掉了)。MD 表示羅馬數字 1500
            4 'MMMCCC' 匹配上,因為三個 M 字符都匹配上,而模式 D?C?C?C? 匹配上 CCC (字符D是可選的,此處忽略)。MMMCCC 表示羅馬數字 3300
            5 'MCMC' 沒有匹配上。第一個 M 字符匹配上,第二第三個 M 字符忽略,接著是 CM 匹配上,但是接著是 $ 字符沒有匹配,因為字符串還沒有結束 (你仍然還有一個沒有匹配的C字符)。C 字符也 匹配模式 D?C?C?C? 的一部分,因為與之相互獨立的模式 CM 已經匹配上。
            6 有趣的是,一個空字符串也可以匹配這個模式,因為所有的 M 字符都是可選的,它們都被忽略,并且一個空字符串可以匹配 D?C?C?C? 模式,此處所有的字符也都是可選的,并且都被忽略。

            哎呀!看看正則表達式能夠多快變得難以理解?你僅僅表示了羅馬數字的千位和百位上的數字。如果你根據類似的方法,十位數和各位數就非常簡單了,因為是完全相同的模式。讓我們來看表達這個模式的另一種方式吧。

            <span id="7ztzv"></span>
            <sub id="7ztzv"></sub>

            <span id="7ztzv"></span><form id="7ztzv"></form>

            <span id="7ztzv"></span>

                  <address id="7ztzv"></address>

                      亚洲欧美在线