Dans un contexte de grande dimension, une approche classique pour estimer le paramètre inconnu en régression linéaire gaussienne est de minimiser les moindres carrés pénalisés. Pour obtenir une inégalité oracle sur le risque prédictif, la théorie développée par (Birgé et Massart, 2001) fournit une fonction de pénalité connue à une constante multiplicative près. Cette constante est actuellement fixée à 2 via des considérations d'optimalité asymptotique sur le risque.
Dans cet exposé, je présenterai brièvement le contexte biologique qui a motivé le sujet de thèse et je montrerai que dans ce cadre, minimiser uniquement le risque prédictif n'est plus suffisant. En effet, le nombre de variables sélectionnées à tord doit être réduit le plus possible. Notre approche consiste à modifier la constante multiplicative et d'étudier l'impact de cette variation sur le taux de fausses découvertes (false discovery rate (FDR)) en plus du risque prédictif.