13043

注：此文章只適合簡單驗證碼，最后也將編寫的工具附上以及關鍵部分代碼和使用說明文檔

0x00 簡介

雖然驗證碼發展到如今有許多人類都難以識別的狀態了，但人有部分老系統使用的驗證碼異常的簡單。還有一些網站由于程序員本身的素質或者缺乏相關圖像相關的知識，所以并沒有自己寫驗證碼的生成程序，而是直接在網上隨便復制粘貼一個Demo級別的代碼來用，以達到網站有驗證碼的目的，而忽略了驗證碼的強弱性，導致很多網站的驗證碼都是爆款弱驗證碼

如：

還有更傻缺的比如：

直接就能復制的...這種是完全不知道驗證碼的意義或者為了應付而做的驗證碼

0x01 處理方式

好吧忽略上面的圖繼續說

對于那些簡單驗證碼他們的共同點是

標準字體
背景單簡單甚至純色沒有背景
字體并沒有粘貼在一起

而本文討論的就是這類的驗證碼。對于那種連背景都沒有的純色、標準字體、沒有黏貼的那種再簡單不過了直接就是100%的識別率

這種就不討論了下面來看看wooyun的驗證碼

Wooyun的驗證碼有兩種狀態

一種是白色文字深色背景一種是黑色文字淺色背景

如果只有一種無論是那種設定一個閥值都能很好的二值化但現在的情況卻是有兩種所以我能想到的最簡單的方式那好我就給出兩個閥值對于黑色文字我就用一個較小一點的閥值對于白色文字我就用一個較大一點的閥值

但是這樣還是會出現一個問題白色文字二值化后背景黑色文字白色而黑色文字二值化后背景白色文字黑色就像下面一下

可以看出上面我左邊框選區域一切正常而右邊卻出了問題那是因為在我寫程序的時候我認為二值化后文字都是黑色背景是白色所以我就把黑色區域當作文字來框選就看到了如上的效果所以說這是一個問題不僅要二值化二值化后還要到底白色是文字還是黑色是文字

于是我又想到一種辦法通常情況下一張圖上背景的面積都會大于文字所占用的面積所以在二值化的同時我還做了一件事情二值化的同時記錄下黑點個數和白點個數如果黑點的個數大于了白點的個數那么我就把黑白反色一下讓黑色像素點變成最少這樣再把黑色像素當作文字處理

這樣做還有一個問題就是我應該怎么知道什么時候應該使用那一個閥值來二值化當然辦法可以有很多比如當圖像上深色像素多余淺色像素的時候使用較大閥值否則相反不過我并不是這樣做的

在工具上我提供了一個框讓用戶輸入驗證碼的字符個數這樣的話我對體統的閥值挨個遍歷二值化后去識別區域如果框出來的區域個數是有問題的那么就換下一個閥值如果所有閥值都遍歷完了還是有問題那么這驗證碼確實也是超出這個工具的范圍了因為這個工具的目的是通用對于那些需要單獨寫代碼來識別的不在他的能力范圍內

在這之前一些驗證碼可能還需要一些處理比如很常見的一些驗證碼有邊框的

左邊是沒有裁剪的邊框一起被二值化成為了黑色然后拆字就悲劇了右邊是裁剪掉了一個像素的把邊框去掉了然后就一切正常了這種情況就不說了都懂的

還有一種比較復雜的情況因為二值化并不是萬能的并不是說什么驗證碼一進行二值化后文字和背景就出來了下面這張圖是我以前程序需要做的百度推廣的驗證碼識別

上面這張圖不怎么能看到效果因為都是好幾年前的事情了驗證碼連接訪問已經是500了這張圖都是測試的時候的截圖

我描述一下情況吧上面的驗證碼首先有邊框文字干擾線即使能把邊框裁剪掉也找不到一個合適的閥值來把線條和文字分離很簡單因為他的線條的顏色比文字的顏色深如果我的閥值太小那么我的文字就沒有了只會剩下一些線條在哪里

p10

這圖為上面那張圖片上驗證碼的NZ兩個字符在ps中放大的效果(盡管上面圖像原來并非保存的png格式已經失真但大概還是能看到點什么的) 我也去翻了翻以前的代碼來看當初我二值化的時候并非直接二值化的在二值化之前還單獨對RGB進行了判斷代碼截圖如下

p11

別百度推廣的驗證碼是我做的第一個驗證碼識別程序所以我一直記得很清楚不是一個二值化就能搞定的所以說在這個工具中我也加入了同樣可以單獨處理RGB的功能

由于百度的這個驗證碼已經訪問不了了所以我找了一個同樣有線條的驗證碼但是這個驗證碼線條顏色比文字顏色淺所以我就用默認的127作為閥值假設二值化無法搞定

p12

用127閥值上面線條一起被黑化了但是圖片中文字顏色接近黑色而線條顏色卻要淺一點所以判斷的時候可以認為RGB的平均值大于20的就視為背景就可以這樣干

p13

然后效果就成了這樣

p14

這樣線條就被處理掉了不過這個驗證碼直接設置閥值就能搞定只是為了說明所以采用127作為閥值還有一點這個驗證碼和百度的那個他們線條都是在文字的下方如果是在文字上方那么同樣的超出了這個工具的范圍對于線條在上方的我想過一些處理方式假設線條為紅色的時候我在遍歷的時候遇到一個紅色像素點我就把紅色像素設置為和他相鄰像素的非紅色的顏色但是我想了一想這個“相鄰”就涉及了它周圍八個像素點我應該取那一個像素點的顏色如果是在背景上還好他周圍應該都是背景的顏色那一個都無所謂可是如果是在線條、背景還有文字的交界處就不好處理了所以工具里面暫時還沒提供這樣的功能還有那種很難分離背景或者字黏貼在一起的但是每個文字都是一個顏色的那種也想過一些處理方式但是實現起來我感覺都會純在一些小問題所以就還展示沒有做就不扯那么多了等做好了再來扯才比較有證據

0x02 拆字和識別

下面來說說驗證碼識別中的一個難點 -> 拆字

基本上在我看來能正確的拆字那么就已經成功了80%了因為剩下的就是比對的問題了我在工具中只提供了兩種方式拆字

p15

手動添加就不用說了我這里的自動識別是最傳統的深度遍歷從圖像的第一個像素點開始遍歷因為圖像已經二值化按照我的工具的理解就只剩下白色背景和黑色文字所以遇到一個黑色像素點的時候開始記錄然后開始深度遍歷大概效果如下

這是個GIF_p16

大概代碼如下

p17

對于拆字還有很多其他的方式這里只是最普通的也是最簡單的一種對于其他方式這個工具中并沒有提供因為工具只針對簡單通用的驗證碼對于那種需要單獨寫代碼的驗證碼不考慮而且工具上功能附加太多也就變得復雜了其實重點就是感覺有點付出和回報不成正比而且對于那些流傳的拆字理論知識說起來確實簡單但是實際做的時候才會發現這些理論其實是存在漏洞的只會在特定條件下才會成立而驗證碼卻是變幻多端的這里也就不扯那么多了

剩下來的就是識別了我采用的識別方式比較簡單就是兩張圖來對比一張是驗證碼上面截取出來的圖像一張是已知的樣本圖像

p18

調用函數會返回這兩張圖的重疊的像素的個數這樣我把截取出來的驗證碼字符和我所有的樣本對比一次取出nCount最高的一個作為結果也就是說取出和樣本中重疊率最高的一個出來作為結果在工具中我有兩種方式提供樣本一種是使用系統的字體一種是手動采集

p19

如果使用系統字體在文本框內輸入驗證碼可能出現的字符然后點擊生成會彈出系統對話框設置字體從而產生樣本不過對于一些非標準字體系統字體就很難搞定了無論是標準字體還是非標準的字體都建議使用手動采集的方式因為直接從驗證碼上截取下來的圖怎么說也是原配重復的圖片工具也只會采集一次不會重復添加降低效率比對下面就是一個非標準字體

p20

理論上來說樣本采集越多越全識別率就越高反正我每次都是使用的手動采集樣本對了這個工具只是一個配置工具而已并不能用來做什么其他事情當一切都配置好了之后就可以點擊工具上的文件 -> 保存將這些所有的配置保存成一個文件可以保存為兩種后最(.ci和.ci.png) 后者以圖片保存方便電腦上查看

p21

而識別是另一個獨立的工具調用如果是.NET則直接調用提供的dll來識別之所以這樣設計是因為我并不知道別人會用驗證碼識別來做什么事情所以除了識別以外我也不知道別人想要什么功能所以把所有東西全部獨立出來共別人調用或者使用對于識別我提供了一個命令行調用工具供給非.NET平臺的程序調用

p22

以python舉例：

#!python
# coding: UTF-8
import os
result = os.popen('verifytool.exe D:\\woo.ci.png -f D:\\woo-verify.png').readlines()
print (result)

在我的D盤有這樣一張圖

p23

這樣別人就可以自己寫腳本去做自己愛做的事情不過我還是建議使用-p的方式來調用

#!python
# coding: UTF-8
import urllib2
from socket import *

h = urllib2.urlopen('http://www.wooyun.org/captcha.php')  
str = h.read()                      #獲取驗證碼
s = socket(AF_INET,SOCK_DGRAM);
s.sendto(str,('localhost',14250))   #將獲取到的驗證碼發送給識別程序
code = s.recvfrom(65500)            #接受識別出來的驗證碼
print(code)

p24

如果程序是.NET平臺編寫則可直接使用VerifyReader.dll文件將其添加引用然后：

#!vb
CodeInfo ci = CodeInfo.LoadFromFile("D:\\woo.ci.png");
CodeHelper helper = new CodeHelper(ci);
string code = helper.GetCodeString(Image.FromFile("D:\\woo-verify.png"));

另外這里還單獨的做了一個賬戶爆破的工具出來

p25

以下是用自己測試的結果

p26

p27

雙擊列表即可查看數據

p28

0x03 相關鏈接

全套工具及核心代碼和使用說明下載連接：http://down.future-sec.com/VerifyReader-1.1.zip

亚洲欧美在线