アンダーフィッティング

アンダーフィッティングとは?

アンダーフィッティングとは、機械学習モデルが訓練データに対して十分に学習できていない状態を指します。これは、モデルがデータの特徴を捉えきれず、訓練データとテストデータの両方で低い性能を示す場合に起こります。

アンダーフィッティングの原因は主に2つあります。1つ目は、モデルが単純すぎることです。例えば、線形回帰モデルを複雑な非線形データに適用した場合、モデルはデータのパターンを捉えきれません。2つ目は、訓練データが不足していることです。十分なデータがないと、モデルはデータの背後にある真の分布を学習できず、結果としてアンダーフィッティングが発生します。アンダーフィッティングは、AIモデルの性能を向上させる上で避けるべき問題です。

アンダーフィッティングの具体的な例としては、住宅価格の予測があげられます。例えば、住宅価格を予測するモデルを構築する際に、特徴量として住宅の広さだけを使用した場合を考えてみましょう。実際には、住宅価格は広さだけでなく、築年数、最寄り駅からの距離、周辺環境など、多くの要因によって影響を受けます。広さだけを考慮した単純なモデルでは、これらの要因を無視してしまうため、予測精度が低くなります。このように、モデルが単純すぎると、重要な情報を捉えきれず、アンダーフィッティングが発生します。

アンダーフィッティングへの対策としては、まずモデルの複雑さを増すことが考えられます。例えば、線形回帰モデルの代わりに、多項式回帰モデルや決定木、ニューラルネットワークなどのより複雑なモデルを使用することで、データの特徴をより詳細に捉えることができます。

また、特徴量を増やすことも有効です。住宅価格の予測の例では、広さに加えて、築年数、最寄り駅からの距離、周辺環境などの特徴量をモデルに追加することで、予測精度を向上させることができます。

さらに、より多くの訓練データを収集することも重要です。データが少ない場合、モデルはデータの背後にある真の分布を学習できません。より多くのデータを収集することで、モデルはより正確な予測を行うことができるようになります。

これらの対策を組み合わせることで、アンダーフィッティングを効果的に解消し、モデルの性能を向上させることが可能です。

 

監修

株式会社SHIFT「ヒンシツ大学」クオリティ エヴァンジェリスト
林 栄一

>>ヒンシツ大学のページへ

AI用語集一覧に戻る

お役立ち資料

お役立ち資料をもっと見る

関連コラム

コラムをもっと見る

Top