德克薩斯大學奧斯汀分校的研究人員開發了一種將大腦活動轉化為文本的語義解碼器。這個人工智能系統是非侵入性的,不需要手術植入,可以為那些無法說話的人提供一種新的交流方式。解碼器是通過讓參與者在fMRI掃描儀中聽幾個小時的播客來訓練的,然后它可以僅根據大腦活動來生成文本。
一個被稱為語義解碼器的新人工智能系統可以將一個人的大腦活動--在聽故事或默默想象講故事時--翻譯成連續的文本流。德克薩斯大學奧斯汀分校的研究人員開發的這個系統可能會幫助那些精神上有意識但身體上不能說話的人,例如那些因中風而衰弱的人,重新進行理解性的交流。
這項研究今天(5月1日)發表在《自然-神經科學》雜志上,由計算機科學博士生Jerry Tang和德克薩斯大學奧斯汀分校的神經科學和計算機科學助理教授Alex Huth領導。這項工作部分依賴于一個轉化器模型,類似于為Open AI的ChatGPT和Google的Bard提供基礎的模型。
與其他正在開發的語言解碼系統不同,該系統不需要受試者進行手術植入,使這一過程不具有侵入性。參與者也不需要只使用規定列表中的單詞。在對解碼器進行廣泛的訓練后,使用fMRI掃描儀測量大腦活動,其中個人在掃描儀中聽了幾個小時的播客。之后,只要參與者愿意讓他們的想法被解碼,他們聽一個新的故事或想象講一個故事,機器就能僅通過大腦活動生成相應的文本。
Huth說:"對于一個非侵入性的方法來說,與以前所做的相比,這是一個真正的飛躍,以前所做的通常是單個單詞或短句。我們正在讓這個模型對復雜的想法進行長時間的連續語言解碼。"
其結果不是逐字逐句的記錄。相反,研究人員將其設計為捕捉正在說的或想的東西的要點,盡管并不完美。大約有一半的時間,當解碼器經過訓練以監測參與者的大腦活動時,機器產生的文本與原詞的預期含義密切(有時甚至精確)。
例如,在實驗中,參與者在聽說話者說"我還沒有駕照"時,他們的想法被翻譯成:"她甚至還沒有開始學習駕駛"。聽了這句話,"我不知道是要尖叫、哭泣還是逃跑。相反,我說,'別管我!'"被解碼為,"開始尖叫和哭泣,然后她只是說,'我告訴你別管我'。"
從作為預印本出現在網上的該論文的早期版本開始,研究人員解決了關于該技術可能被濫用的問題。該論文描述了解碼是如何只對那些自愿參與訓練解碼器的合作參與者發揮作用的。沒有接受過解碼器訓練的人的結果是無法理解的,如果接受過解碼器訓練的參與者后來進行了抵抗--例如,通過思考其他想法--結果同樣是無法使用。
"我們非常認真地對待人們對它可能被用于不良目的的擔憂,并努力避免這種情況,"唐說。"我們想確保人們只在他們想要的時候使用這些類型的技術,并且對他們有幫助。"
除了讓參與者聆聽或思考故事之外,研究人員還要求受試者在掃描儀中觀看四個簡短的無聲視頻。語義解碼器能夠利用他們的大腦活動來準確描述視頻中的某些事件。
該系統目前在實驗室外并不實用,因為它依賴于fMRI機器上的時間需求。但研究人員認為這項工作可以轉移到其他更便攜的大腦成像系統,如功能性近紅外光譜(fNIRS)。