heyiamjj

JJ heyiamjj

Popular repositories Loading

disentangling-gradients-recursive-reasoning disentangling-gradients-recursive-reasoning Public

Disentangling gradient quality from architecture in recursive reasoning. Controlled experiment: 1-step gradient approximation is the sole bottleneck in HRM vs TRM performance gap.

Jupyter Notebook 1
when-better-gradients-hurt when-better-gradients-hurt Public

Completing the 2x2 factorial: HRM's hierarchy with full BPTT reveals gradient-architecture interaction

Jupyter Notebook 1