Granite or sapphire rapids are very under rated for MoE inference loads. But you...

		robotswantdata 23 hours ago \| parent \| context \| favorite \| on: A 10 year old Xeon is all you need Granite or sapphire rapids are very under rated for MoE inference loads. But you need a GPU for the KV cache. Plus many boards also support CXL for RAM expansion over PCI 5! Source: building a hybrid inference business for regulated industry workloads.

		help