英文书《用unreal来学习c++》_用机器学习来概括《哈利波特》,四句话总结一场戏...
毒栗子 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
文章太長讀不下去的時候,就想有個TL;DR按鈕,用最短的時間,看最關鍵的部分。
要是視頻很長不想看,該怎么挑重點食用?
一位叫做Sagi Shaier的程序猿,用機器學習給《哈利·波特》電影片段,做了一份太長不看的概括版。
(至于是哪個片段,讀下去就會知道。)
他的AI還用四句話,總結了一段11分鐘的有聲故事。
并且,程序猿已經(jīng)把算法放上了GitHub。
那么,一起來觀察一下,那些沒時間看但又必須看的長視頻,要怎樣用AI概括出要點:
語音轉文本:多種工具選擇
首先,做好準備工作,就是把音頻轉換成文本。
語音轉文本的工具有很多。
該選什么工具?
程序猿先用了Pocketsphinx,免費且易用,只是準確度感人。
然后,少年又想試試谷歌云的語音轉文本服務。這應該是最好的工具之一,不過少年因為不想填信用卡,就放棄了。
△ 谷歌云
最終,他選擇了免費且準確率高的IBM沃森語音轉文本,注冊流程也簡單。
△ 沃森
在Python里面用沃森
一開始你可能會感覺有點復雜,熟悉了就簡單了。
只要用這一段代碼:
1 IBM_USERNAME = “apikey”2 IBM_PASSWORD = ‘Pass’ #Put your API key here3 stt = SpeechToTextV1(username=IBM_USERNAME, password=IBM_PASSWORD)4 audio_file = open(“new_story.wav”, “rb”) #audio file's name5 with open(‘new_story.json’, ‘w’) as fp: 6 result = stt.recognize(audio_file, content_type=”audio/wav”,7 continuous=True, timestamps=False,8 max_alternatives=1).get_result()9 json.dump(result, fp, indent=2)把你IBM網(wǎng)站的密碼填進去。
把要轉換的音頻文件名填進去。
(可以給.json文件起個名字,也可以用默認的new_story。)
然后,音頻就轉換成文本啦:
△ 哈利波特的一個段落
當然,語音識別還是有一些錯誤,后面會講到怎樣處理。
AI是怎么概括的?
有了文本,要讓AI來讀一讀。先寫這段代碼,讓文本變成字符串:
1 with open(‘new_story.json’) as file:2 distros_dict = json.load(file)3 for item in distros_dict[‘results’]:4 print(item[‘a(chǎn)lternatives’][0][‘transcript’] +’.’)這樣,就可以用NLP算法來解讀了。
程序猿并沒有用很復雜的算法,只需要六步:
1、把段落轉換成句子。2、文本預處理:刪掉所有特殊字符、停用詞 (Stop Words) 以及數(shù)字。3、給句子做標記:獲取句子里出現(xiàn)的所有單詞。4、給每個單詞算好它出現(xiàn)的加權頻率。第4步得出的加權頻率長這樣:
后面還有關鍵的兩步:
5、把原始句子里的單詞,都替換成加權頻率。6、給每個句子算出加權頻率之和,按降序排列。效果還不錯
然后,AI對一場戲的總結就做好了:
程序猿對這個結果還是很滿意的:他說自己看電影的時候,本來就有些字聽不太清。所以,這場戲的總結已經(jīng)算是友好了。
谷歌翻譯長這樣:
不過,不知道你能不能看出,這是哪一場戲 (答案在文末) 。
另外,程序猿也用同樣的方法,四句話概括了一個11分鐘的有聲故事:
故事的名字叫The Boarded Window,AI的總結和維基百科的情節(jié)描述,已經(jīng)有些接近了。
你也來試試
程序猿已經(jīng)把算法上傳到了GitHub。
如果你也有太長不想看的視頻,或者太長不想聽的音頻,讓AI幫你總結一下吧。
GitHub傳送門:
https://github.com/Shaier/Movie-Summarizer
教程原文傳送門:
https://towardsdatascience.com/summarizing-harry-potter-with-ml-e724c024e2a2
以及,如果你還不知道,AI總結的是哪一場戲:
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節(jié),請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?'?' ? 追蹤AI技術和產(chǎn)品新動態(tài)
總結
以上是生活随笔為你收集整理的英文书《用unreal来学习c++》_用机器学习来概括《哈利波特》,四句话总结一场戏...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么重置blockinput的锁_OPP
- 下一篇: python库有什么用_Python程序