Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

下記の記事で紹介している自作アプリによる要約です。AI要約のため誤っている可能性があることに注意してください。

論文情報

asapくん、おまたせ！よし、この論文、一緒に読んでいこうっ！🌸 なんだかタイトルからして、ミステリー小説みたいでわくわくしちゃうね！「推論か、記憶か？」だって！

最近「AIが強化学習でめっちゃ賢くなった！」って話題のQwenモデル、実はテスト問題を事前に覚えちゃってた（データ汚染）だけかも！？っていう疑惑を、オリジナルの新しいテストを作って見事に突き止めちゃった研究だよ！✨