第400章 不可逾越的高山

江寒在網上搜索了一番,參考了一下同類軟件。

最後他決定,採用市場接受度較高的免費下載、試用模式。

超過試用次數和時間後,只要花費58元RMB,購買註冊碼,就可以終身使用。

在軟件保護策略上,江寒毫不猶豫地啓動了“壞蘋果2代”技術。

經過加密後,“極光OCR”的可執行文件,以及動態鏈接庫等要害部位,堪稱堅不可摧。

江寒又用InstallShield Wizard,製作出一個1G大小的安裝包,然後掛到了大江官網上。

技術上的事情,至此全部搞定。

至於其他的事情,全盤委託給老江和夏如冰就好……

江寒想了想,又訪問了一下佈置在地下機房裡的數據服務器。

過了這麼多天,他爲ISLVRC2013圖像識別挑戰賽,打造的深度CNN網絡,也終於完成了訓練。

江寒將代碼中關於訓練的部分,暫時全部剔除,然後將驗證集數據加載進來,跑了一下。

結果還算不錯, top-1項目的識別正確率,達到了62.7%, top-5項目中,更是達到了85.4%的正確率。

所謂top-1,就是對於每張要分類的圖片,只允許給出唯一答案,對就對,錯就錯。

至於top-5,要求就比較寬鬆了,每張圖可以給出5種預測,有一個與標籤相同,就算分類正確。

現在這個成績,已經相當接近去年的冠軍算法了。

但江寒怎麼可能就此滿足呢?

他深入思考了一番,重新編寫了預測函數。

這一次,他使用了一個小技巧。

將待分類的圖片加載到內存中之後,先進行預處理。

從圖片的四個角,以及中間部分,依次進行矩形摳圖,這樣就得到了5張子圖片。

接下來,再對這5張子圖片,依次進行鏡像操作,子圖片的總數就變成了10。

最後再對這10張圖片,分別進行預測,再把10個結果的平均值,作爲網絡的最後輸出。

這可以有效地防止程序“發呆”,以得到更接近正確答案的預測。

不出所料,使用了這個技巧後,深度CNN在驗證集上的表現,果然改善了不少。

top-1上的正確率,足足提高了2%,在top-5上的正確率,也提高了1.84%。

不過,感覺還有進一步提升的空間。

江寒思考了一下,又對訓練集圖片的RGB數值,做了PCA,也就是主成分分析,並且對主成分做了0.1標準差的高斯擾動。

這樣做的目的,是增加一些噪聲數據,以提高模型的泛化能力。

處理完龐大的訓練集後,就可以讓網絡重新進行訓練了。

安排妥當這件事之後,江寒開始考慮學科等級的事情。

經過幾天的奮戰,他已經學完了化學、生物兩科,在大學本科階段的全部專業課。

單論理論上的水平,超過了絕大多數相應科目的本科生、甚至碩士研究生。

江寒打開系統UI看了一眼。

學科等級面板上,數學、物理、化學、生物、信息學,這五個學科全都達到了高級。

其中,信息學的經驗條已經過半,距離下一個級別不遠了。

不過,工程、材料、能源三科,仍然沒有任何評級。

江寒思考了一下,決定在網上找一找這三個專業的教材,深入地學習一番。

然而,他很快就發現了一個問題。

所謂的工程,到底是什麼工程呢?

生物工程也是工程,電子工程也是工程。

此外還有機械工程、信息工程、採礦工程、石油工程、建築工程……

不搜不知道,一搜嚇一跳,工程學這個總類裡,居然足足包括了21個小類,上百個專業!

然後是材料學。

化學材料、生物材料、金屬材料、電工材料、材料物理……

也是幾乎無所不包!

能源好一些,基本也就是引力能、熱能、生物能、化學能、核能……

好吧,既然都是交叉學科,那就交叉着學唄。

江寒上網查找了一下,將所有涉及到這三科的書籍,彙總、整理了一下,列出了一張非常長的書單。

真的很長,足足有上千種書籍。

好在其中大多數,都能下載到PDF或者Ebook資源。

江寒將這些文件,全都用極光OCR,轉換成了txt加小圖片的格式,然後輪流發送到了虛擬空間中,並打印了出來。

也有部分資料,網上根本下載不到,這種情況,就只能郵購實體書了。

江寒在各大網上書店裡,一頓狠淘,終於湊全了列表中的所有書籍。

至於花了多少錢,他也沒仔細統計,大概估計下,怎麼也得幾萬RMB。

也就是本科階段的教材並不怎麼難買,很多專業性很強的資料也都有中文版。

若是去亞馬遜海淘英文原版,估計再添一個0,可能都不怎麼夠……

※※※

有圖科技,軟件研發部。

藍嶄新再次主持會議。

與會的十來個人,全都陷入了死一般的沉寂。

良久後,藍戰新嘆了口氣:“這件事問題不在咱們,你們開發的OCR軟件,已經是國內領先的了……”

後面的話,他雖然沒說,可又有誰猜不到了?

那家大江科技,雖然成立還不到一週……

然而,誰能想到這家公司手中,竟掌握着那麼厲害的OCR技術呢?

王仁默然不語。

那個極光OCR的性能,實在太恐怖了一點,對於普通文本的識別正確率,竟然超過了98%!

這種技術代差,真是讓人越想越渾身無力。

國內外的同類軟件,沒有一個能與之競爭。

不誇張地說,這就是集體被吊打,一點還手之力都沒有……

藍戰新忽然問:“王工,你們技術部有沒有試一試,逆向一下極光OCR?”

王仁苦着臉,回答說:“我們一發現這款產品,第一時間就下載並嘗試逆向了。”

代碼雖然不能抄,至少也應該瞭解一下別人採用的算法……

王仁續道:“只可惜……試了很多辦法,全都失敗了。”

藍戰新有點意外。

王仁這些人的實力,他是十分清楚的,能難住他們的加密手段,可謂少之又少。

另一位同事搖了搖頭,說:“我們都懷疑,那是一種從來沒出現過的新加密技術。”

藍戰新若有所思:“這樣啊……”

寂靜再一次籠罩了這個房間。

良久後。

“咱們接下來怎麼辦?”一名工程師問。

藍戰新思索了一下,嘆了口氣,說:“我先彙報一下,看看顧總怎麼說。”

十五分鐘後。

“我知道了……”

藍戰新掛了電話,掃視了在座的衆人一眼:“我先嚐試和大江的人聯繫一下,看有沒有達成合作的可能。”

有圖的主要業務是賣硬件,爲了促進掃描儀的銷售,纔去研發配套的OCR軟件。

既然自家研發的OCR,性能上比不上別人,那爭取合作、取長補短,也在情理之中。

如果可以達成獨家代理,那麼無論多少錢,都一定要拿下來!

這是顧總的原話。

藍戰新看向王仁:“至於咱們研發部,還得繼續努力研發下一代產品。”

頓了頓:“至於目標……暫時先跟極光OCR看齊吧!”

在場幾位技術大拿的心頭,頓時感覺沉甸甸的。

98%!

這個數字,就彷彿一座不可逾越的高山……

※※※

兩天後,深度CNN網絡再次完成了訓練。

江寒重新跑了一次驗證集,這一次,錯誤率在原來的基礎上,又下降了1%以上。

top-1的正確率接近樂66%,而在top-5項目中,更是達到了驚人的88.8%!

江寒對這個成績還算滿意,給這個網絡命名爲:“JiangNet -3”。

然後登錄ImageNet官網,將最終的算法模型提交了上去。

他沒有對代碼進行加密,一個是賽事規則不允許,再一個也是沒有必要。

提交上去的代碼和數據,只包含網絡主體架構、激活函數、預測函數,以及訓練得到的權重數據。

至於算法的核心部分,訓練函數、損失函數和梯度下降……一概予以刪除。

這樣的代碼,根本沒有什麼可以抄的。

搞定了這件事後,江寒將目光放在了書桌上。

從昨天開始,網購的實體書就陸續快遞到了手中。

到了今天下午,終於到齊了。

看着那高高一堆,上百本書籍,他不禁有點頭疼。

看書不費力氣,一本一本慢慢看,兩、三個月怎麼也看完了。

但如果想加快學習進度,就得把這些實體書,全都折騰到虛擬空間裡……

第13章 “感知機”和“M-P模型”第232章 江寒的野望第350章 男生不準進去的地方第113章 刷分的可能性第257章 NOIP中最難的題型第63章 巧嗎?第333章 不怕教壞了乖女兒?第139章 野豬!?第125章 我有一個同桌第243章 比賽心得和騙分教程第92章 《激光雕刻機》第419章 媽可能是親媽,爹……第214章 小夥子,你很有勇氣啊!第204章 是男人就餵飽她第421章 身世大白第26章 週一凡的震驚第32章 借MacBook一用第314章 旗鼓相當?大獲全勝!第326章 “戰神一號”的弱點第379章 似真似幻,恍如隔世第362章 社會我老方第180章 想謙虛都沒地方謙虛第109章 不擅長的事情第420章 強化學習的威力第215章 儀表堂堂,器宇軒昂第324章 如果是江寒哥哥的話……第135章 巧合?考驗?第346章 密室第121章 還有誰會對自己這麼好?第417章 江寒的圍棋水平第233章 誤差反向傳播算法第416章 有困難找組織第248章 需要對答案嗎?第331章 揹着媽媽偷吃第314章 旗鼓相當?大獲全勝!第393章 男人不能沒有事業第256章 擴展歐幾里得算法,以及增強線段樹第215章 儀表堂堂,器宇軒昂第320章 法無禁止即可爲第420章 強化學習的威力第162章 奇怪的U盤第195章 二八佳人體如酥第101章 偷換概念第85章 吊橋效應第174章 良心工作室第153章 眼氣誰呢這是?第212章 他和夏總到底什麼關係?第234章 恐高症第238章 競爭對手?第255章 調整超參數,以及防止過擬合第62章 校長的鼓勵第309章 天賦異稟,出生太晚第204章 是男人就餵飽她第325章 說好的理想男神呢?第256章 擴展歐幾里得算法,以及增強線段樹第244章 屋裡陪他小電影?第142章 哪捨得叫你疊被鋪牀?第43章 寫字機器人第264章 不知人間疾苦第337章 拐着彎地誇自己?第340章 實力還是運氣?第376章 很像一臺成熟的計算機了第20章 寫論文第189章 查房第175章 一億一個第216章 有些事,再多的錢也沒得談第79章 李東的Show time第171章 蘇婉瑩的秘密第27章 買書偶遇第76章 還有什麼是他不會的?第111章 虛擬空間,開啓!第104章 鮮花與牛糞第329章 拋棄框架,從零開始造輪子第404章 神經系統疾病的終極治療手段第250章 幸虧有雙保險第268章 最終版本第353章 神乎其技第193章 這也太考驗人了吧?第350章 男生不準進去的地方第226章 還能剩下幾個?第22章 名偵探婉瑩第303章 你以爲就這樣而已?第331章 揹着媽媽偷吃第47章 都選C第371章 莫非換了個女朋友?第405章 身手很好,飯來張口第384章 把知識“安裝”到大腦裡第237章 大魚和小魚第386章 測量“虛擬空間”的曲率第278章 Root Me,Hack Me第122章 騙過多少女孩子?第42章 P站阿婆主第267章 數據增廣和集成學習第5章 三個系統準備就緒第221章 超級大腦,人傑地靈第134章 喜歡大一點的第208章 有埋伏第246章 Vigenère密碼和國王遊戲第424章 又一個冠軍到手第297章 Py大法威力無窮
第13章 “感知機”和“M-P模型”第232章 江寒的野望第350章 男生不準進去的地方第113章 刷分的可能性第257章 NOIP中最難的題型第63章 巧嗎?第333章 不怕教壞了乖女兒?第139章 野豬!?第125章 我有一個同桌第243章 比賽心得和騙分教程第92章 《激光雕刻機》第419章 媽可能是親媽,爹……第214章 小夥子,你很有勇氣啊!第204章 是男人就餵飽她第421章 身世大白第26章 週一凡的震驚第32章 借MacBook一用第314章 旗鼓相當?大獲全勝!第326章 “戰神一號”的弱點第379章 似真似幻,恍如隔世第362章 社會我老方第180章 想謙虛都沒地方謙虛第109章 不擅長的事情第420章 強化學習的威力第215章 儀表堂堂,器宇軒昂第324章 如果是江寒哥哥的話……第135章 巧合?考驗?第346章 密室第121章 還有誰會對自己這麼好?第417章 江寒的圍棋水平第233章 誤差反向傳播算法第416章 有困難找組織第248章 需要對答案嗎?第331章 揹着媽媽偷吃第314章 旗鼓相當?大獲全勝!第393章 男人不能沒有事業第256章 擴展歐幾里得算法,以及增強線段樹第215章 儀表堂堂,器宇軒昂第320章 法無禁止即可爲第420章 強化學習的威力第162章 奇怪的U盤第195章 二八佳人體如酥第101章 偷換概念第85章 吊橋效應第174章 良心工作室第153章 眼氣誰呢這是?第212章 他和夏總到底什麼關係?第234章 恐高症第238章 競爭對手?第255章 調整超參數,以及防止過擬合第62章 校長的鼓勵第309章 天賦異稟,出生太晚第204章 是男人就餵飽她第325章 說好的理想男神呢?第256章 擴展歐幾里得算法,以及增強線段樹第244章 屋裡陪他小電影?第142章 哪捨得叫你疊被鋪牀?第43章 寫字機器人第264章 不知人間疾苦第337章 拐着彎地誇自己?第340章 實力還是運氣?第376章 很像一臺成熟的計算機了第20章 寫論文第189章 查房第175章 一億一個第216章 有些事,再多的錢也沒得談第79章 李東的Show time第171章 蘇婉瑩的秘密第27章 買書偶遇第76章 還有什麼是他不會的?第111章 虛擬空間,開啓!第104章 鮮花與牛糞第329章 拋棄框架,從零開始造輪子第404章 神經系統疾病的終極治療手段第250章 幸虧有雙保險第268章 最終版本第353章 神乎其技第193章 這也太考驗人了吧?第350章 男生不準進去的地方第226章 還能剩下幾個?第22章 名偵探婉瑩第303章 你以爲就這樣而已?第331章 揹着媽媽偷吃第47章 都選C第371章 莫非換了個女朋友?第405章 身手很好,飯來張口第384章 把知識“安裝”到大腦裡第237章 大魚和小魚第386章 測量“虛擬空間”的曲率第278章 Root Me,Hack Me第122章 騙過多少女孩子?第42章 P站阿婆主第267章 數據增廣和集成學習第5章 三個系統準備就緒第221章 超級大腦,人傑地靈第134章 喜歡大一點的第208章 有埋伏第246章 Vigenère密碼和國王遊戲第424章 又一個冠軍到手第297章 Py大法威力無窮