und auf manchem xeon bis zu 2 milliarden transistoren, die meisten jedoch für den cache

nein, es gibt mittlerweile auch gute szenarien, die multikerne effizient ausnutzen. ein sehr intuitiver fall ist das thread-pooling, wo ein programm quasi mehrere threads auf abruf anlegt, aber noch nicht startet. und wenn dann eine intensive berechnung ansteht, so lässt sich diese seriell auf die threads verteilen. also nicht ganz die effizienz von parallel-berechnungen, aber im prinzip eine pipeline auf thread-ebene

dual-core kam deshalb auf dem markt, weil die leiterbahnen sonst geschmolzen wären unter der hitzeentwicklung bei höheren takten und spannungsversorgungen. das problem der leckströme existiert weiterhin, auch wenn man bereits bei 45 Nanometer-Strukturen angelangt ist.