家中狗狗在說什麼?結合強大AI功能下 翻譯狗語聲GPT神器出現了
鏟屎官終於能理解汪星人的小心思了。「狗語翻譯器」已經席捲娛樂圈。
在節目中,貴氣男孩尤長靖花了八百塊錢,買了個「狗語翻譯器」。►毛孩子有IG了,來追蹤我們吧!
汪蘇瀧下單時問他,「有兩百的、四百的和八百的,要買哪個?」
尤長靖斬釘截鐵地說,「買八百的」。
因為一分錢一分貨,越貴的肯定越精準。
結果買回來,它就各種胡言亂語。
郭麒麟和陸虎也同樣玩起了「狗語翻譯器」。
購物平台上,不少買家吐槽,這類長得像個蝴蝶結的狗語翻譯器,簡直就是智商稅。
狗叫的時候沒反應,狗睡覺了它開始說話了。
現在,AI 闖進了這個小眾賽道,帶來了不一樣的效果。
一位華人小哥搞出來一款狗語 GPT,專門識別汪星人的小情緒,其準確率高達 80%。
天啊嚕,人類都還搞不懂自己,卻聽懂了「狗叫」。
-1- 「汪星人」能聽懂人話了
最近,人類和「汪星人」絲滑對話的視頻,在社交媒體上一炮走紅。
視頻中,一位男士對着手機上的一款 APP 說:
Hi Ellie,你能幫我拿下遙控器嗎?
這款 APP 隨即就把人類語言翻譯成幾句狗叫聲。
金毛犬聽後,立馬搖着尾巴,跑到茶几上叼來了遙控器。
還有類似的案例。
女主人也是對着手機的 APP 說了一段話:你可以親我一下嗎?
隨着手機發出的幾句短促的汪汪聲,「毛孩子」聽懂了,飛身來了一個 Kiss,主人一臉的不可思議。
這款手機 APP,名叫 Traini,是一款「寵物共情 APP」,俗稱「狗語翻譯器」。
它通過 AI 聊天機器人 PetGPT,實現人類與狗狗之間的跨物種對話和交流。
其核心技術基於一個先進的寵物行為多模態翻譯模型。
這個模型採用了類似於 GPT-4o 的 Transformer 架構,並接受了大量專家級寵物行為學文本、視覺和音頻數據的訓練。
為了確保翻譯的準確性,Traini 團隊嘗試了多種訓練方法,包括使用純狗語音數據訓練,對人類語音預訓練模型進行微調,以及使用來自不同國家地區、不同品種狗的語音數據混合訓練等。
除了翻譯狗叫聲,它還能理解小狗的面部表情和身體行為,從而推薦它們的心理狀態和情感需求。
其實,小狗和人類一樣,也是通過表情、聲音和行為,來表達情緒。
比如,當它們眼睛半閉含着淚珠,這就表示痛苦;耳朵直立指向前方,就表示想玩;鼻孔張大肌肉緊張,表示戒備。
為此,該團隊收集了 10 萬隻狗的照片、聲音和視頻,餵給模型,然後不斷進行訓練。如今,Traini 可以解讀 10 種不同的寵物情緒,其準確率更是高達 80%。
用戶可以直接在 PetGPT 中上傳照片並提出問題,以了解寵物的心理狀態。
截至目前,這款應用已經吸引了超過 20 萬的用戶。
-2- 背後團隊是何方神聖?
Traini 創始人兼 CEO 名叫孫鄰家 (Arvin Sun) ,是一位華人連續創業者,曾在國內創業 7 年。
他最早的創業經歷還得追溯到大學時。
那時,他和室友一起向剛入學的新生賣被子,畢業後就去了一家上市公司做供應鏈管理,差不多做了兩年時間。
2015 年,孫鄰家又和同學一起創業,做起了零食專賣店「鄰家鋪子」,主打三公里內 30 分鐘送貨上門。
後來又為美容院提供在線預約和門店端的 SaaS 服務,曾在 3 個月內融資數百萬元。
再之後,他做了一個給電商提供配套物流的平台,融到 3000 多萬,團隊也擴充到 100 多人,業務覆蓋了 50 多個城市。
2018 年,孫鄰家去了美國,加入了最大的中餐外賣平台 GESOO 做 CEO,並實現了公司扭虧為盈。
後來又去了另一家競品公司 Chowbus 負責西海岸業務,並融資超過 1 億美金。
2022 年,孫鄰家創辦了 Traini,負責公司的客戶增長和市場拓展。
Traini 聯合創始人名叫 Jason Hong,他是一名年輕的中國小夥子,年僅 24 歲。
他曾是湖南省奧數青訓隊成員,後在美國東北大學大學攻讀計算機研究生,並在 Scale AI、OpenAI 和百度工作過,積累了先進模型的開發實踐經驗。
如今,他負責核心 PetGPT 模型架構和訓練。
此外,Traini 還有兩名全職員工,分別負責界面設計和全棧工程搭建。
公司還邀請了前 Chewy 數據科學負責人 Yiyi Yang 加入,擔任寵物健康專業顧問。
今年 5 月份,公司還完成了千萬元天使輪融資。
-3- 日本團隊搞了個雞叫 GPT
除了狗語翻譯器,日本還搞了個雞叫 GPT。
東京大學教授 Adrian David Cheok 帶領他的團隊,研究了一種 AI 和機器學習方法,可以「聽懂」雞叫,並理解其心情。
他們將這種高度數學化和創新的方法稱之為「深度情感分析學習(DEAL)」,可以通過聽覺數據對情緒狀態實現精細分析。
首先,收集雞叫聲。
研究團隊將音頻記錄分割成小片段,以專注於每隻雞的聲音,每個片段代表一個不同的聲音事件,如咯咯聲或嘎嘎聲。
為了消除背景噪音,提高雞叫聲信號質量,團隊還採用了降噪技術。
再把音頻信號進行標準化,確保它們具有一致的幅度範圍,有助於減少記錄條件中的任何變化,並確保模型可以很好地泛化不同的記錄。
其次,把雞叫聲輸入 DEAL 模型,該模型通過多個層次進行數據處理。
這個系統利用卷積層學習空間特徵層次結構,池化層減小表徵的空間大小以控制過擬合併減少計算,全連接層學習高級特徵的非線性組合。
最後,softmax 函數用於產生最終輸出情緒狀態的概率分佈。
概率最高的情緒狀態,將被選為預測的情緒狀態。
為了測試新系統,該研究團隊以 80 只雞為樣本,仔細記錄和分析了它們在不同條件下的發聲。
同時為了確保準確性,它們專門聘請了 8 名動物心理學家和獸醫,對雞的情緒狀態提供了專家的見解。
最終,他們發現這個系統可以準確地翻譯雞的各種鳴叫和心情,包括飢餓、恐懼、憤怒、滿足、興奮和痛苦等,準確率接近 80%。
然而,研究人員也指出,由於世界雞的種類繁多,可能存在無法翻譯的情況。
參考鏈接:
https://www.researchsquare.com/article/rs-3034567/v1
https://mp.weixin.qq.com/s/kgCmbIPFKVLg4dptvChkvQ
https://mp.weixin.qq.com/s/SOGWBpNx3O5QMSQAbhzIaw
https://mp.weixin.qq.com/s/_tKqvS_jrlgqWJV69gLbig
延伸閱讀:與愛犬失散7年 突然在社交平台驚見熟悉面孔 感動重逢全記錄(點擊連結看全文)
【本文轉自「機器之心」,微信公眾號:almosthuman2014】