跳到主要內容

正規表示法::不貪多演算

不論在哪種語言,正規表示法(regular Expression,簡稱RE)預設上都會盡可能的擷取更多的資料範圍,一般稱為貪心演算法。當然本篇不是在研究演算法本身,只是作為常用RE的筆記。

但是一般實務上,通常並不需要貪心演算,許多情況下,貪心演算甚至會礙事。所以,當我們在抓取資料的時候,必須要告訴電腦:老實點,別太貪心!這在RE裡面是怎麼表示呢?就是在次數表示符(quantifier)後面,加註一個『?』,例如:

『.*』代表抓取任意字元、任意次數、貪心演算
『.*?』代表抓取任意字元、任意次數、不貪心演算
『.+』代表抓取任意字元、一次以上、貪心演算
『.+?』代表抓取任意字元、一次以上、不貪心演算

在quantifier 後面加註問號,並不會改變他的意義,改變的只有他的『貪婪程度』。

其他例子:
\d*? :任意數字、任意次數、不貪心演算
\w*? :任意文字、任意次數、不貪心演算
\D*? :任意非數字、任意次數、不貪心演算
\W*? :任意非文字、任意次數、不貪心演算

其他正規表示式的參考資料

1. 比對 「一個字元」 的符號:
[...] ... 當中任何一個字元
[^...] 除了 ... 之外的任何一個字元
. 任何一個字元

2. 「定位」 功能的 anchor:
^... 以 ... 開頭的字串
...$ 以 ... 結尾的字串
\b 文數字/非文數字 的邊界。

3. 計數用, 表達 「重複出現多少次」 的 quantifier:
{5} 重複 5 次
* {3,7} 重複 3 到 7 次
? 可有可無 (0 次或 1 次)
* 重複出現任意次, 包含 0 次
+ 重複出現任意次, 至少 1 次

常用符號:
\d 等同 [0-9],代表『任意數字』
\D 等同 [^0-9],代表『任意非數字』
\w 等同 [a-zA-Z0-9_],代表『任意文字』
\W 等同 [^a-zA-Z0-9_],代表『任意非文字』
\s 等同 [ \t\n],代表『任意空白字元』
\S 等同 [^ \t\n],代表『任意非空白字元』

轉錄:
http://deer.nublog.cc/article.php?u=DeeR&i=20080225

留言

這個網誌中的熱門文章

館長的網站技術瓶頸,小弟弟來解答 - notorious-2019.com

館長的網站技術瓶頸,小弟弟來解答 - notorious-2019.com 昨天看到館長的網站倒了,也看到館長說一個月花費大概一百萬左右的月費在支持這個架設的電商網站,也對外發布出來訊息,希望求救, 直接講結論 建議解法, 1. 首先要做的事情是讓整個網站可以橫向擴展 (Load Balancer + n 台伺服器),對,相信我,IIS 也是可以做 Scale out, 這是對於 Application layer 服務的解法。 2. 資料的部分 SQL 吞吐量,建議改成 GCP Cloud SQL, 或者就直接轉到 Azure SQL Server 環境上會相對容易解決 SQL 的問題。 上述 2 個步驟都處理完,其實 100 萬的費用,應該 20000 concurrent user 是沒有問題的,但前提是要設定『對』! 額外需要花較長期時間要處理的,建議就是在 Queue 的處理,購物車的狀態都可以進入到 Queue 再來處理 SQL insert 的問題,減少不斷的 insert / update 的狀態,後文會提到 ... 底下詳細的會再說明如何後後續還有哪些處理的細節。 這兩天剛好有個小空擋,就來分析一下狀況, 可以從外部讀取得到的服務大致上如下, ASP.Net : 4.0 IIS 10 + Windows (廢話) SQL Server (推測) OP Service: PleskWin Host: Google Cloud DNS: Cloudflare 前端服務內容架構 Server-side render, jQuery base, 推測有可能採用現成購物車來進行,看起來不太像是用 wooCommerce 比較像是 Cart Functionality 這類的項目直接搭建而成(當然這純屬猜測) 功能拆解 因為網站是透過 Server site render 所有頁面都需要重新透過伺服器進行載入,這樣的狀況,如果在頻繁忙碌的 eCommerce 網站架構下會是一個致命傷, 簡單來說,數量的查詢,特惠價,優惠碼等等資訊的處理,使用者每做一步都需要重新跳轉頁面,或者整頁面重新讀取,只是為了部分的資料更新,這些都可以抽取出來成為 API ,透過 AJAX 的方式進行讀取。 讀寫分離 在不了解目前資料庫複雜狀態下,首先要讓所有人都

[分享] 腳踏車環島注意事項

很多人都期望自己能夠做點什麼,做些什麼,而退伍之後的第二個星期,就展開了環島之旅。 對很多人來說這不算什麼,甚至有人展開了走路、跑步、溜滑板、單輪車等方式環島一周,充分展現對台灣的愛與關懷。 這篇主要讓不知道怎麼準備環島的人,作一個完善的解說,首先隨身的東西要有: 證件現金類 : 身份證 健保卡 學生證 現金 提款卡 悠遊卡

直播錄影設備大公開 - 從線下轉線上到底要哪些裝備

直播錄影設備分享 蠻多朋友都在敲碗詢問,到底一場直播需要準備哪些設備,這邊聽筆者娓娓道來, 網路 好的網路上天堂,壞的網路會讓你掉落到不知道什麼地方。 會建議大家至少是一個獨立的 4G 訊號,意味著當下至少要有 30MB/s 的上傳下載,這樣在透過 Google Meet / Zoom 視訊會議的時候是比較不會卡頓的狀態。 Google Meet 輔助文件 有提到關於頻寬的最低需求, 對位於 8.8.8.8. 的 Google 公用 DNS 伺服器執行連線偵測 (ping) 測試時,延遲時間應低於 50 毫秒。 參與者的上傳訊號 (無論通訊人數多寡) 應符合 3.2 mbps 的頻寬需求。 抓在這樣的標準之上會是比較穩定的, 如果你的需求是要透過 OBS 同時播出到 youtube live / Facebook live 和多個頻道的時候,會建議需要更高頻寬,最好是連接有線網路的狀況下尤佳。 總之,網路越快越好,直接光纖肯定沒錯!(可惜我家無法 …T_T 麥克風 直接說答案,這邊採用的是   Rode Wireless go 購買網址: https://24h.pchome.com.tw/prod/DGCF07-A900B6O2U 沒有考慮類似圓剛 av310 或者 BlueYite 之類的,主要是因為可能當初規劃會有起身轉場可能,且可以支援一對多的方式進行訪談式收音。 但很可惜的是,沒有朋友!(威 Rode Wireless go 的優勢在於內建獨立麥克風,可直接夾在領夾上,或者連接更好的收音麥克風,當作訊號源來處理,可變化性蠻大的,但對於聲音細緻度,可能就沒辦法要求到這麼多,總之是不同面向考量下的選擇。 燈光 首先燈光會比攝影機要重要許多許多許多,一個好的麥克風,加上好的燈光,基本上背景只要稍微設置一下,就可以美美搭。 6 寸桌上型 LED 網美燈 購買網址: https://24h.pchome.com.tw/prod/DGCF2O-A900AFG98?fq=/S/DGCF2O 道蝦皮找應該可以找到許多更便宜的,以目前來說 6 寸網美 LED 環形燈來說算是堪用,為什麼會說堪用,如果場景允許,實際上再加上左右補光會讓畫面呈現效果更佳。 目前上述的需求,都是以大頭照拍攝,或者半身的需求為主。 如果說要拍到全身的話,基本上就是直上攝影用補光燈,這就不在此範圍內