Kanske man bör räkna bort dom transistorer som används för L1+L2 cache för att få en bra jämförelse?
Sedan är Intel kända för att lägga dit massa transistorer och klocka högt så det värmer gott men gör lite

(med P4 som skräckexempel)
wikipedia.. ARM_architecture:
"
The ARM2 was possibly the simplest useful 32-bit microprocessor in the world, with only 30 000 transistors (compare the transistor count with Motorola's six-year older 68000 model with around 70 000 transistors). Much of this simplicity comes from not having microcode (which represents about one-quarter to one-third of the 68000) and, like most CPUs of the day, not including any cache. This simplicity led to its low power usage, while performing better than the Intel 80286.[5] A successor, ARM3, was produced with a 4 KB cache, which further improved performance. .. ARM2 had 30 000 transistors, while the ARM6 grew to only 35 000."
Något för Intel/AMD att fundera djupt över..
Apropå Intel/AMD så har jag vid flera tester sett hur Intel generellt sett brukar klara ca 33% bättre prestanda när man syntiserar FPGA binärer (kompilerar VHDL/Verilog -> .bit).