我們正值數(shù)據(jù)井噴時(shí)代,據(jù) IDC報(bào)告顯示,目前全球數(shù)據(jù)量正以平均年增長(zhǎng)率50%的速度增長(zhǎng),預(yù)計(jì)到2025年全球數(shù)據(jù)總量將達(dá)到175ZB。1ZB相當(dāng)于1萬(wàn)億GB,假設(shè)每一個(gè)比特是一枚3毫米厚的1英鎊硬幣,一摞硬幣組成的1ZB將會(huì)有2550光年那么高,可以讓你到達(dá)最近的恒星系統(tǒng)半人馬座阿爾法星600次。
在數(shù)字化浪潮下,企業(yè)正在因?yàn)榧夹g(shù)創(chuàng)新的應(yīng)用產(chǎn)生海量非結(jié)構(gòu)化數(shù)據(jù),如圖像、語(yǔ)音、視頻等,據(jù)統(tǒng)計(jì)80%的企業(yè)數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)組成,具有規(guī)模海量且分散、形式多樣、關(guān)系復(fù)雜等顯著特點(diǎn)。企業(yè)機(jī)構(gòu)每年因糟糕的數(shù)據(jù)質(zhì)量而造成的平均損失達(dá)到1290萬(wàn)美元。
“以數(shù)據(jù)為中心”的時(shí)代已然來(lái)臨,人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國(guó)際最權(quán)威學(xué)者之一吳恩達(dá)在今年反復(fù)強(qiáng)調(diào)了這個(gè)觀點(diǎn)。他認(rèn)為,整個(gè)AI行業(yè)正在由以模型為中心的開(kāi)發(fā)模式,向著以數(shù)據(jù)為中心的開(kāi)發(fā)模式發(fā)展,人們應(yīng)該以數(shù)據(jù)為中心來(lái)開(kāi)發(fā)機(jī)器學(xué)習(xí)系統(tǒng)。
決定AI模型效果的影響因素有兩個(gè):數(shù)據(jù)和算法。現(xiàn)實(shí)中的數(shù)據(jù)集往往都是有噪聲的,對(duì)于有噪聲的數(shù)據(jù),一種是修改算法,提出能處理噪聲、有泛化能力的算法,顯然難度較大;還有一種修改數(shù)據(jù)集,提升數(shù)據(jù)集的質(zhì)量。用工具鏈和系統(tǒng)化的方法來(lái)提升數(shù)據(jù)質(zhì)量,通過(guò)不斷地喂給高質(zhì)量數(shù)據(jù),讓模型保持輕微調(diào)整,這會(huì)使模型的效果批量提升成為可能。
可以看到,更好的數(shù)據(jù)可以帶來(lái)更優(yōu)的性能提升。Gartner預(yù)測(cè)到明年,70%的企業(yè)機(jī)構(gòu)將通過(guò)指標(biāo)來(lái)嚴(yán)格追蹤數(shù)據(jù)質(zhì)量水平并將數(shù)據(jù)質(zhì)量提高60%,以此顯著降低運(yùn)營(yíng)風(fēng)險(xiǎn)和成本。
格物鈦智能科技是一家專(zhuān)注打造人工智能新型基礎(chǔ)設(shè)施的初創(chuàng)企業(yè),定位為面向機(jī)器學(xué)習(xí)的數(shù)據(jù)平臺(tái),致力于以數(shù)據(jù)為中心的開(kāi)發(fā)方式,幫助AI開(kāi)發(fā)者解決日益增長(zhǎng)的非結(jié)構(gòu)化數(shù)據(jù)難題。借助非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)TensorBay和開(kāi)源數(shù)據(jù)集社區(qū)Open Datasets,機(jī)器學(xué)習(xí)團(tuán)隊(duì)和個(gè)人可進(jìn)行數(shù)據(jù)管理、查詢(xún)、協(xié)同、可視化和版本控制等高效操作,降低高質(zhì)量數(shù)據(jù)獲取、存儲(chǔ)和處理成本,加速AI開(kāi)發(fā)和產(chǎn)品創(chuàng)新,釋放海量非結(jié)構(gòu)化數(shù)據(jù)的商業(yè)價(jià)值。
據(jù)悉,格物鈦正在向全球AI創(chuàng)新企業(yè)及團(tuán)隊(duì)、前沿高校實(shí)驗(yàn)室和機(jī)器學(xué)習(xí)開(kāi)發(fā)者社區(qū)提供數(shù)據(jù)平臺(tái)支持,涵蓋自動(dòng)駕駛、智慧零售、智慧物流、智慧醫(yī)療、視頻直播等各業(yè)務(wù)場(chǎng)景。以自動(dòng)駕駛為例,格物鈦TensorBay可以幫助企業(yè)把數(shù)據(jù)準(zhǔn)備過(guò)程從原來(lái)的以月為單位縮短到以小時(shí)為單位。某物流企業(yè)使用TensorBay短短數(shù)月,模型識(shí)別率顯著提升30%之多。
“TensorBay是我們AI開(kāi)發(fā)流程中的關(guān)鍵部分,不同于傳統(tǒng)的本地文件系統(tǒng)管理模式,她提供了一個(gè)全新的云端數(shù)據(jù)管理解決方案,讓我們看到了AI非結(jié)構(gòu)化數(shù)據(jù)管理的全新未來(lái),”格物鈦獲得客戶(hù)算法負(fù)責(zé)人高度評(píng)價(jià),“強(qiáng)大的數(shù)據(jù)管理平臺(tái)能夠和我們的開(kāi)發(fā)流程無(wú)縫銜接,為我們的數(shù)據(jù)準(zhǔn)備過(guò)程提供了非常便利的功能和開(kāi)發(fā)者工具。”通過(guò)優(yōu)化現(xiàn)有的AI項(xiàng)目工作流程來(lái)提升數(shù)據(jù)質(zhì)量,從而加速AI產(chǎn)品迭代開(kāi)發(fā),格物鈦這一創(chuàng)新未來(lái)將在更多行業(yè)場(chǎng)景中產(chǎn)生長(zhǎng)遠(yuǎn)價(jià)值。