Radeon HD 4800 et OCCT 3.1 : le problème
La dernière version en date d’OCCT, la 3.1, a mis en lumière un problème sur les Radeon HD 4870, 4870 X2 et 4890 de référence. Cette version du logiciel de test de stabilité intègre un nouveau test pour le GPU que ne semblent pas apprécier ces Radeon qui plantent rapidement voire instantanément. Nous avons voulu savoir et nous nous sommes entretenus du problème avec AMD après avoir passé à la loupe les composants du système d’alimentation des cartes impliquées.
Ce test a la particularité de charger particulièrement les Radeon avec un équilibre tel qu’autant les unités de textures que les unités de calcul, les ROPs et la mémoire fonctionnent simultanément à un très haut niveau d’utilisation. Le problème est que l’étage d’alimentation n’a pas été conçu pour supporter une telle charge. Il se met donc en sécurité et éteint en quelque sorte la carte graphique pour la protéger, ce qui nécessite un reboot de la machine.
AMD nous a indiqué qu’il s’agit là d’un choix délibéré pour protéger les composants de l’étage d’alimentation face à une surchauffe ou à une surintensité, les deux étant bien entendu liés. Si les GPUs AMD actuels sont capables de se protéger en cas de dépassement du TDP, notamment en réduisant leur fréquence, ils sont incapables de communiquer avec le contrôleur de l’étage d’alimentation et ne peuvent donc pas agir si celui-ci est dépassé, son seul recours étant alors de couper complètement l’alimentation de la carte.
Depuis quelques années, les étages d’alimentation passent progressivement de l’analogique au numérique qui permet, entre autre, un monitoring complet de l’alimentation. Il est d’ailleurs possible de récupérer ses informations à travers un logiciel, comme le fait Rivatuner. C’est AMD qui a été le premier à utiliser un tel étage d’alimentation numérique sur une carte graphique avec la Radeon X1950 Pro et il nous semble incompréhensible que depuis tout ce temps AMD n’ait pas encore jugé utile de tirer partie des informations fournies par le contrôleur d’alimentation. Le fabricant se justifie par le fait que le problème ne s’était pas encore présenté et sera corrigé dans les futurs GPUs.
Pour AMD, il est normal de ne pas concevoir un étage d’alimentation en fonction de la consommation maximale du GPU, compte tenu du fait de l’écart énorme entre la consommation en charge normale et le maximal théorique. C’est logique puisque le maximal théorique pourrait endommager le GPU. Toutes les puces récentes peuvent consommer plus que leur TDP et disposent de mécanismes pour les maintenir dans ces limites. Par contre ce qui est anormal c’est de ne pas avoir conçu un système d’alimentation qui corresponde au TDP parce que c’est bien là qu’est le problème. Avec les Radeon HD 4870, 4870 X2 et 4890 de référence, AMD a fixé un TDP à une limite qu’il n’est pas possible d’atteindre avec les PCBs de référence. Imaginez par exemple un GPU qui accepte 100A avant d’enclencher un mode de protection et un étage d’alimentation qui, lui, se met en protection dès 90A.
Pour se justifier, AMD indique qu’aucun cas pratique ne va charger autant le GPU. Et c’est vrai. Il faut le chercher pour y parvenir et utiliser un code spécifique pour une architecture donnée. Et d’ailleurs rien ne dit qu’il n’est pas possible de concevoir un bout de code qui cause un problème similaire sur d’autres cartes y compris des GeForce. Notez que certains indiquent que le problème, s’il ne se rencontre pas dans les jeux pourrait apparaître en GPU computing. Mais c’est encore moins probable puisque la plupart des unités fixes du GPU sont inutilisées dans ce mode.
Cette justification ne change cependant rien à l’erreur de design. Puisque même si c’est improbable, rien ne garanti que le problème ne se présentera pas. C’est également la porte ouverte à un virus qui profiterait de cette faille.
L’étage d’alimentation d’une Radeon HD 4870 de référence avec, à gauche, les 2 phases dédiées à la mémoire et à droite les 3 phases dédiées au GPU.
Les cartes concernées utilisent toutes un circuit d’alimentation numérique Volterra. Ces circuits sont composés d’un ou deux contrôleurs, des drivers-fet intégrés et d’inducteurs multi-phases couplés. Le nombre de phases n’est pas le problème, c’est le système d’alimentation dans son ensemble qu’il faut prendre en compte. Voici le détail des cartes qui n’ont pas passé le test :
HD 4870 de référence : 1 contrôleur, 3 drivers-fet de 40A, 1 inducteur 3 phases
HD 4870 X2 de référence : idem HD 4870 pour chaque GPU
HD 4890 de référence : 2 contrôleurs, 1 driver-fet de 40A + 4 drivers-fet de 30A, 1 inducteur 3 phases + 1 inducteur 2 phases
HD 4890 « 1 GHz » : 2 contrôleurs, 3 driver-fet de 40A + 2 drivers-fet de 30A, 1 inducteur 3 phases + 1 inducteur 2 phases
Notez que nous n’avons décrit ici que l’alimentation de la partie GPU, la mémoire ayant un système distinct qui ne pose pas de problème. Nous avons donc des Radeon HD 4870 avec 3 phases pour un total de 120A qui plantent tout comme des Radeon HD 4890 avec 5 phases et 160A. Difficile de savoir de quel composant vient le problème puisque les documentations de Volterra ne sont pas publiques. Quant à la Radeon HD 4890 « 1 GHz » de Sapphire, 5 phases et 180A, elle ne plante pas directement, mais au bout de quelques temps après une surchauffe de l’étage d’alimentation dont les driver-fet atteignent 160°.
3 phases (à droite) ou 5 phases (à gauche), même problème.
Les cartes différentes du design de référence qui utilisent d’autres composants, ne présentent pas ce problème et encaissent très bien la charge, nous l’avons vérifié sur les Radeon HD 4870 Golden Sample de Gainward (4 phases) et Vapor-X de Sapphire (3 phases) qui sont les modèles que nous vous avons recommandé dans notre comparatif. Reste que cela peut être dû à deux raisons : l’étage d’alimentation est assez costaud ou il n’est pas protégé, ce qui pourrait à terme endommager la carte. Si rien ne nous indique que ces cartes dépassent leurs limites, nous vous conseillerons malgré tout, dans le doute, de ne pas abuser de ce test d’OCCT.
Dans l’immédiat AMD nous a dit ne pas prévoir de modification pour corriger le problème sur les produits existants. Pourtant le fabricant pourrait revoir les limites sur le GPU pour que celui-ci entre en mode protection avant l’étage d’alimentation. AMD pourrait également utiliser d’une manière logicielle les informations du contrôleur d’alimentation pour réduire la fréquence automatiquement et éviter le plantage. AMD pourrait également proposer un nouveau design de référence, surtout pour la Radeon HD 4890. Encore une fois AMD insiste sur le fait qu’à sa connaissance le problème ne se pose dans aucune application. Une justification insuffisante selon nous puisque cela rend ces Radeon « à priori fiables » et pas simplement « fiables ».
Faut-il éviter à tout prix ces Radeon ? Nous n’irons pas jusque là, même s’il est logique que celui qui veut éviter tout problème éventuel laisse de côté les modèles de référence, voire, dans le doute, se tourne vers une GeForce.
Bien entendu, et il est utile de le préciser, les cartes overclockées manuellement peuvent rencontrer des problèmes similaires ou différents dans OCCT. Dans ce cas, AMD ou le fabricant n’est pas responsable, si aux fréquences et voltages d’origine la carte ne rencontre pas de problème.
Contenus relatifs
- [+] 04/05: Nvidia abandonne son GeForce Partne...
- [+] 27/04: AMD Vega 7nm en labo, Zen 2 échanti...
- [+] 18/04: ASUS AREZ, l'effet GeForce Partner ...
- [+] 10/04: Nvidia : fin du support Fermi et 32...
- [+] 27/03: Pilotes Radeon et GeForce pour Far ...
- [+] 20/03: Pilotes GeForce 391.24 pour Sea of ...
- [+] 20/03: Microsoft annonce DirectX Raytracin...
- [+] 20/03: Radeon Software 18.3.3 beta avec Vu...
- [+] 08/03: 3 millions de GPU vendus pour le mi...
- [+] 08/03: Radeon Software 18.3.1 optimisé pou...