AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表

South Africa News News

AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表
South Africa Latest News,South Africa Headlines
  • 📰 gigazine
  • ⏱ Reading Time:
  • 40 sec. here
  • 2 min. at publisher
  • 📊 Quality Score:
  • News: 19%
  • Publisher: 51%

OpenAIのGPT-4など大規模言語モデル(LLM)をベースにしたAIは、自然な文章を生成したりさまざまな課題をクリアしたりと、高度で広範な機能を備えています。しかし、依然として小学生レベルの算数でも、文章題だと人間がしないようなミスをして答えられないケースがあります。Appleの人工知能科学者が発表した論文では、MetaやOpenAIなどの大規模言語モデルに基づくAIは「基本的な推論能力が欠けている」という研究結果が示されました。

https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/?guccounter=1

https://appleinsider.com/articles/24/10/12/apples-study-proves-that-llm-based-ai-models-are-flawed-because-they-cannot-reason最強の囲碁AIに圧勝する人物が登場、AIの弱点を突いて人類が勝利したと話題に - GIGAZINE 2/ When OpenAI released GSM8K ~3 years ago, GPT-3 scored 35% on the GSM8K test. Today, models with ~3B parameters are surpassing 85%, and larger ones are hitting >95%. But has model 'reasoning' really improved? How much of this is genuine

3/ Introducing GSM-Symbolic—our new tool to test the limits of LLMs in mathematical reasoning.

This is very interesting paper, but disagree with hypothesis that it shows that "current LLMs are not capable of genuine logical reasoning."Many top LLMs are *chat models*. Chat is very different from math exams. Chats are messy, and to do a good…

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

gigazine /  🏆 80. in JP

South Africa Latest News, South Africa Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表Appleの研究者らは、「LLMにおける数学的推論の限界を理解する」という論文を発表した。OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高性能だが、真の推論には課題があるとしている。
Read more »

英語スピーキング特化型学習アプリ「スピーク」 OpenAIのGPT-4o API導入により、AIとのリアルタイム音声対話機能を提供開始英語スピーキング特化型学習アプリ「スピーク」 OpenAIのGPT-4o API導入により、AIとのリアルタイム音声対話機能を提供開始英語スピーキング特化型学習アプリ「スピーク」 OpenAIのGPT-4o API導入により、AIとのリアルタイム音声対話機能を提供開始 Speakeasy Labs, Inc.のプレスリリース
Read more »

“学習データも全てオープン”なLLM、NIIが公開 GPT-3級モデルのプレビュー版“学習データも全てオープン”なLLM、NIIが公開 GPT-3級モデルのプレビュー版国立情報学研究所(NII)は、パラメータ数約1720億の大規模言語モデル(LLM)のプレビュー版「LLM-jp-3 172B beta1」を公開した。
Read more »

「著作権トラップ」――生成AIに作品を“無断盗用”されたか後から証明する方法 英ICLなどが開発:Innovative Tech(AI+)「著作権トラップ」――生成AIに作品を“無断盗用”されたか後から証明する方法 英ICLなどが開発:Innovative Tech(AI+)英インペリアル・カレッジ・ロンドンなどに所属する研究者らは、大規模言語モデル(LLM)の訓練データに著作権所有者の作品が含まれているかを特定する方法を開発した研究報告を発表した。
Read more »

OpenAIが人間を使わずAIの安全性を高める手法「Rule-Based Rewards(RBR)」を開発OpenAIが人間を使わずAIの安全性を高める手法「Rule-Based Rewards(RBR)」を開発ChatGPTやGPT-4などを開発するOpenAIが、言語モデルの安全性と有効性を高めるための新たなアプローチである「Rule-Based Rewards(RBR)」を開発しました。RBRは、AI自体を使用することで人間によるデータ収集を必要とせずに、AIを安全に動作させることができるとされています。
Read more »

「ChatGPT」一強時代の終わり 狙われるAIの王座「ChatGPT」一強時代の終わり 狙われるAIの王座OpenAIはこれまで「ChatGPT」および「GPT-4」で大規模言語モデル(LLM)市場を席巻してきた。しかし、その独占的地位は揺らぎつつある。
Read more »



Render Time: 2025-02-23 23:26:52