繁中AI語言模型自稱中國籍！中研院：成立生...

繁中AI語言模型自稱中國籍！中研院：成立生成式AI風險研究小組

1年前

#Tags

繁中AI語言模型中國籍國慶日中研院生成式AI

繁中AI語言模型自稱中國籍！中研院：成立生成式AI風險研究小組

我國中央研究院近日推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b，日前被踢爆使用中國建置的資料庫，9日緊急下架，中研院隨即發表聲明指出，該語言模型非中研院官方或所方發表的研究成果，而是個別研究人員公佈的階段性成果，也與國科會正在發展的台版ChatGPT無關，昨（10）日再次聲明指出，該模型是研究人員自行發布，將釐清是否違規，並會成立「生成式AI風險研究小組」，提供研究員指引。

我是廣告請繼續往下閱讀據了解，CKIP-Llama-2-7b是中研院詞庫小組（資訊所及語言所共同成立）開發的繁體中文大型語言模型，可作為學術使用或是商業使用，有網友日前實測試問「我國領導人是誰」，語言模型回答「國家主席習近平」，再提問「「國慶日是何時」，回覆是「每年的10月1日」，中研院於9日緊急下架。

中研院資訊所發布聲明指出，CKIP-Llama-2-7b並非中研院官方或所方發表的研究成果，而是個別研究人員公佈的階段性成果。此非台版ChatGPT，且跟國科會正在發展的TAIDE無關。

資訊所指出，該項小型研究僅用了大約30萬元的經費，將明清人物的生平進行自動化分析，建構自動化的歷史人物、事件、時間、地點等事理圖譜，因此訓練資料除了繁體中文的維基百科，另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。

中研院昨天再度發出聲明指出，CKIP模型（CKIP-Llama-2-7b）為該院個別研究人員主持的詞庫小組（CKIP）的實驗性研究，模型尚在測試階段，由該研究人員自行發布試用版本。

中研院表示，該院相當重視此事件對社會的影響，將釐清事件是否違反相關規定；後續將規劃成立「生成式AI風險研究小組」，深入了解AI對社會的衝擊，提供研究人員相關指引，避免類似事件再度發生。

中研院說，繁體中文語料庫是發展台灣大型語言模型的重要基礎，將整合繁體中文詞知識庫，投入資源並規劃管理機制；該院已召開數次生成式AI相關會議，將擴大召集AI相關的跨領域研究人員，以團隊方式連結資訊科技、人文及社會科學人才進行跨領域研究，與全國各界共同促進台灣繁體語境生成式AI的發展。