作為社交大數據領域領跑行業發展的人工智能技術公司,慧科訊業基于累積多年的AI技術實力與27年豐富客戶服務經驗,落地于AI驅動的知識圖譜技術提升數據價值和效率,實現AI在營銷中的實戰應用,充分釋放商業價值。
背靠擁有100+ AI及大數據專家的Wisers AI Lab,立足于自研四大模型和三大獨有AI技術,慧科訊業自研的行業權威媒介大數據挖掘分析模型(Wisers Industry LLM)在數據處理和分析的全面性、準確性、時效性等方面都在業界遙遙領先。準確率引領行業最高標準,可對標DeepSeek R1 Level;性能優勢顯著,處理每個調用平均時長僅為通用LLM的1/20。在穩定性方面,實現更高并發和高性能的同時,慧科訊業已基于火山引擎和華為云上的DeepSeek,使用雙活LLM及自由蒸餾行業化模型(2+1)的模式規模化服務客戶,實現更準確、速度快、情感準的行業化應用,賦能客戶最大化挖掘和商用社交媒體數據價值。
隨著大語言模型的應用日漸廣泛,大模型的幻覺問題也逐漸凸顯。“幻覺”指大模型在生成內容時,有時輸出的結果看似豐富有邏輯,但經過人工核實后,發現信息與問題不符或是完全虛構的。大語言模型的“幻覺”現象已成為當前人工智能領域備受關注的問題之一,企業在應用大語言模型的過程中,如何借助技術方案,解決AI幻覺問題?
慧科訊業基于累積多年的AI技術實力與服務經驗,已將自研大模型及RAG等技術投入于營銷應用。在商業實踐中,慧科訊業進一步驗證了RAG技術的應用價值:除了在技術層面從數據、訓練、推理三方面緩解大模型幻覺外,還將RAG與商業場景充分結合,為企業提供數據擴展性極強的事件發現和脈絡分析方案,實現AI在營銷中的實戰應用。
何為大模型“幻覺”?
大模型幻覺是指模型生成的輸出內容不準確、具有誤導性、與現實世界事實不符、與用戶指令或提供的上下文不一致,或者無法通過已知事實來驗證。這些輸出可能完全是捏造的,也可能是對現有知識的錯誤引用或扭曲。模型在產生幻覺時,往往表現得非常“自信”,使得用戶難以辨別真偽。
通常來說,大模型幻覺分為兩大類——事實性幻覺與忠實性幻覺。事實性幻覺指生成的內容與可驗證的現實世界事實不一致,如錯誤地回答歷史事件的時間、人物關系等或生成的內容是完全虛構的。忠實性幻覺指生成的內容與用戶的指令或提供的上下文不一致,輸出偏離了用戶的明確指令,輸出與提供的上下文信息不符,或生成內容存在邏輯矛盾。如要求總結A文章,卻生成了B文章的摘要,或要求總結某篇文章,但生成的摘要包含了原文未提及的觀點或信息。在長篇幅或多輪對話中出現前后矛盾的陳述。
隨著越來越多的企業在業務中應用大語言模型,大模型幻覺可能對企業帶來多方面的危害和風險。錯誤信息和虛假信息被用戶采信并傳播,可能造成廣泛的誤導。在醫療、金融、法律等關鍵領域,基于幻覺內容做出的決策可能導致嚴重后果。生成帶有偏見、歧視性或有害的內容,也可能引發倫理爭議甚至觸犯法律法規。
大模型運作基于統計模式而非事實核查,缺乏真正的理解和對真理的認知。因此,幻覺可能是大型語言模型的一種固有屬性,難以完全避免。綜合而言,大模型產生幻覺的原因主要涉及大模型在數據、訓練和推理的三大環節。
前期,模型預訓練所需海量數據,其中可能包含錯誤、過時、偏見或矛盾內容。訓練數據存在知識邊界,無法覆蓋所有知識領域且存在截止日期,導致模型缺乏對某些領域或最新事件的了解。此外,數據集中的重復樣本帶來的數據重復或不平衡、數據標注中存在錯誤或不一致,也可能導致模型生成內容時產生偏差。
在模型架構與訓練過程中,大模型概率驅動的生成機制決定了優化的是生成文本的流暢性、連貫性和統計上的可能性,而非事實的準確性。模型參數與復雜性,以及訓練過程中過擬合(模型過度學習訓練數據細節,泛化能力差)或欠擬合,也增加了出錯和“過度思考”產生幻覺的可能性。
在大模型推理生成階段,內容生成時采用的解碼策略(如束搜索、隨機采樣)以及溫度等參數設置會影響輸出的多樣性和隨機性,都可能導致偏離事實的生成。內容層面,模型可能無法完全理解長距離依賴關系或細微的語境差異,對上下文理解的限制帶來了生成內容的不準確。對齊階段,人類標注的期望超出模型的能力邊界,或基于人類反饋的強化學習帶來的能力錯位或信念錯位,都可能導致模型不得不犧牲事實準確性以生成內容。此外,不清晰、有歧義或引導性的用戶輸入也可能誘導模型產生幻覺。
如何借助技術,緩解大模型“幻覺”問題?
大模型幻覺雖不能完全得到消除,可以借助技術,針對根據大模型幻覺產生的原因,從數據、訓練、推理三方面進行緩解。RAG(Retrieval-Augmented Generation,檢索增強生成)是一種將信息檢索與大型語言模型的生成能力相結合的技術框架。它不是直接修改大模型的內部參數,而是在大模型生成回答之前,先從一個外部的、可信的知識庫中檢索相關信息,并將這些信息作為上下文提供給大模型,指導其生成更準確、更可靠的回答。
針對大模型“幻覺”產生的三大原因,RAG技術能一定程度上緩解大模型幻覺問題。
數據層面
RAG通過動態更新知識和注入事實依據解決大模型因知識過時而產生的幻覺。RAG所依賴的外部知識庫可以獨立于LLM進行更新。這意味著可以通過更新知識庫來輕松地讓系統掌握最新的信息,而無需重新訓練龐大的LLM。此外,RAG會根據用戶的問題,從一個指定的、通常是更新更頻繁、更可靠的外部知識源(如公司內部文檔庫、最新的新聞數據庫、專業知識庫等)中檢索最相關的信息片段。然后,它將這些檢索到的信息作為“事實依據”注入到給LLM的提示中。LLM被明確指示要基于這些提供的信息來生成回答。這相當于給模型提供了“開卷考試”的參考資料,大大降低了它憑空捏造事實的可能性。
訓練層面
RAG通過增強答案的特異性和相關性與減少對模型內部記憶的依賴降低大模型因缺乏具體信息或過度依賴這種內部記憶而產生幻覺的可能性。RAG通過檢索步驟,能夠定位到與用戶查詢最相關的具體信息,并將這些條款提供給LLM。這樣,LLM生成的答案就能緊密圍繞這些具體條款,而不是基于其泛化的內部知識進行猜測。另外,RAG將一部分知識查找的任務外包給了外部檢索系統。LLM的角色更多地轉變為理解問題、整合檢索到的信息,并以自然語言形式生成流暢回答。它不再需要僅僅依賴其可能不準確或過時的內部記憶來回答事實性問題。
推理層面
RAG提供提高透明度和可驗證性,大大降低了憑空捏造“事實性幻覺”的可能性。RAG系統通??梢蕴峁┢浯鸢杆罁脑夹畔碓矗礄z索到的文檔或片段)。用戶可以查看這些來源,自行驗證信息的準確性。這種可追溯性不僅增強了用戶對答案的信任,也使得發現和糾正潛在的幻覺(無論是檢索錯誤還是生成錯誤)變得更加容易。
總結來說,RAG通過以下核心機制緩解幻覺:
數據層面,通過外部知識注入補充內部知識:RAG用實時、相關、通常更可信的外部信息來補充或替代模型可能不準確的內部知識。
訓練層面,增強上下文約束降低大模型對內部記憶的過度依賴:RAG通過檢索步驟及外部檢索系統,強制模型在生成答案時優先考慮提供的外部上下文信息。
推理層面,借助來源追溯機制降低大模型捏造“事實性幻覺”可能性:RAG允許驗證答案所依據的信息來源,增強用戶對答案的信任同時糾正潛在的幻覺。
RAG應用于商業實踐,高效助力非結構化數據價值挖掘
隨著人工智能技術的發展,越來越多的AI技術正在與商業場景結合,在實際應用中激發出技術潛能。在當下,全球數據量正出現大幅增長,非結構化數據仍然是最主要的數據形式。IDC數據顯示,2023年的數據中非結構化數據占92.9%。大量非結構化數據蘊含著巨大的商業價值,如何借助技術手段,從其中挖掘出商業金礦?
面對公域海量多模態非結構化社媒大數據,企業可從海量百億文檔和評論內容中進行熱點話題/事件、新趨勢話題/事件抽取與發現,并持續追蹤話題/事件。從中提前洞察最新營銷趨勢及消費者動態,輔助商業決策。此外,非結構化數據處理費時費力,如何實現自動無人工、準確、全面、高效、成本可控,則是當下技術層面聚焦的一大難題。
作為社交大數據領域領跑行業發展的人工智能技術公司,慧科訊業基于累積多年的AI技術實力與27年豐富客戶服務經驗,落地于AI驅動的知識圖譜技術提升數據價值和效率,為企業提供基于RAG技術的豐富商業應用場景。慧科訊業話題事件發現及脈絡分析,能幫助企業實現對非結構化社媒大數據自動、高效、高精度、成本可控地發現重點事件話題、公眾情感態度、事件關聯脈絡、自動預測發展趨勢,實現AI在營銷中的實戰應用,充分釋放商業價值。
在趨勢事件與話題發現層面
慧科訊業話題事件發現算法能在百億數據上實時進行話題事件發現抽取,并自動識別主體進行聚類,自動呈現完整的事件脈絡,相比行業傳統做法無需人工干預?;劭朴崢I自研大模型可自動識別新事件,結合積累的行業know-how,將行業、類型與目標主體高度相關,算法可實現話題歸一率95%。后續,話題事件可自動按聲量、參與者、相關度、類型等維度靈活排序,為企業實時生成完整的事件脈絡。
在持續追蹤話題或事件過程中
慧科訊業自研大模型在數據打標及構建知識圖譜的全面性、準確性、時效性均在業界遙遙領先??梢宰詣映掷m對新增數據進行話題事件打標,幫助企業持續追蹤話題事件,隨時靈活調整,同時杜絕人工配置監控關鍵詞,話題事件打標不準確等問題。
話題事件類型與關聯主體發現時
慧科訊業自研大模型能夠無延遲自動從大數據文本中抽取歸納行業知識,形成知識圖譜,自動進行話題事件類型判斷及事件關聯主體抽取??蓪崿F主體和維度實時構建并擴充,覆蓋率保持98%以上,相比傳統人工進行話題事件類型判斷及關聯主體抽取效率高、成本低。
細分到客觀/主觀態度識別過程中
慧科訊業大模型可自動識別話題事件參與者的客觀態度。相較普遍采用的人工判斷費時費力且不準確,借助四元關系組識別技術,可準確理解企業關注和內容真實表達情感。
慧科訊業基于自研大模型及RAG等技術,為企業提供數據擴展性極強的事件發現和脈絡分析方案,可支持千萬至億萬量級輸入數據,準確高效、成本可控。未來,基于累積多年的AI技術實力和數據優勢,結合高質量知識庫、精準檢索算法和生成模型的適配訓練,慧科訊業將繼續為企業提供更智能高效的事件發現和脈絡分析解決方案,助力企業充分挖掘數據商業潛力。