Proceedings of Machine Learning Research

Jekyll2026-01-05T18:53:52+00:00https://proceedings.mlr.press/v267/feed.xmlProceedings of Machine Learning ResearchProceedings of the 42nd International Conference on Machine Learning Held in Vancouver Convention Center, Vancouver, Canada on 13-19 July 2025 Published as Volume 267 by the Proceedings of Machine Learning Research on 06 October 2025. Volume Edited by: Aarti Singh Maryam Fazel Daniel Hsu Simon Lacoste-Julien Felix Berkenkamp Tegan Maharaj Kiri Wagstaff Jerry Zhu Series Editors: Neil D. Lawrence PMLRAggregation of Dependent Expert Distributions in Multimodal Variational Autoencoders2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/a-mancisidor25a[{"given"=>"Rogelio", "family"=>"A. Mancisidor"}, {"given"=>"Robert", "family"=>"Jenssen"}, {"given"=>"Shujian", "family"=>"Yu"}, {"given"=>"Michael", "family"=>"Kampffmeyer"}]

Lightweight Protocols for Distributed Private Quantile Estimation2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/aamand25a[{"given"=>"Anders", "family"=>"Aamand"}, {"given"=>"Fabrizio", "family"=>"Boninsegna"}, {"given"=>"Abigail", "family"=>"Gentle"}, {"given"=>"Jacob", "family"=>"Imola"}, {"given"=>"Rasmus", "family"=>"Pagh"}]

Breaking the $n^1.5$ Additive Error Barrier for Private and Efficient Graph Sparsification via Private Expander Decomposition2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/aamand25b[{"given"=>"Anders", "family"=>"Aamand"}, {"given"=>"Justin Y.", "family"=>"Chen"}, {"given"=>"Mina", "family"=>"Dalirrooyfard"}, {"given"=>"Slobodan", "family"=>"Mitrović"}, {"given"=>"Yuriy", "family"=>"Nevmyvaka"}, {"given"=>"Sandeep", "family"=>"Silwal"}, {"given"=>"Yinzhan", "family"=>"Xu"}]

Improved Approximations for Hard Graph Problems using Predictions2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/aamand25c[{"given"=>"Anders", "family"=>"Aamand"}, {"given"=>"Justin Y.", "family"=>"Chen"}, {"given"=>"Siddharth", "family"=>"Gollapudi"}, {"given"=>"Sandeep", "family"=>"Silwal"}, {"given"=>"Hao", "family"=>"Wu"}]

Graph Neural Network Generalization With Gaussian Mixture Model Based Augmentation2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/abbahaddou25a[{"given"=>"Yassine", "family"=>"Abbahaddou"}, {"given"=>"Fragkiskos D.", "family"=>"Malliaros"}, {"given"=>"Johannes F.", "family"=>"Lutzeyer"}, {"given"=>"Amine M.", "family"=>"Aboussalah"}, {"given"=>"Michalis", "family"=>"Vazirgiannis"}]

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/abdulhai25a[{"given"=>"Marwa", "family"=>"Abdulhai"}, {"given"=>"Isadora", "family"=>"White"}, {"given"=>"Charlie Victor", "family"=>"Snell"}, {"given"=>"Charles", "family"=>"Sun"}, {"given"=>"Joey", "family"=>"Hong"}, {"given"=>"Yuexiang", "family"=>"Zhai"}, {"given"=>"Kelvin", "family"=>"Xu"}, {"given"=>"Sergey", "family"=>"Levine"}]

Task Generalization with Autoregressive Compositional Structure: Can Learning from $D$ Tasks Generalize to $D^T$ Tasks?2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/abedsoltan25a[{"given"=>"Amirhesam", "family"=>"Abedsoltan"}, {"given"=>"Huaqing", "family"=>"Zhang"}, {"given"=>"Kaiyue", "family"=>"Wen"}, {"given"=>"Hongzhou", "family"=>"Lin"}, {"given"=>"Jingzhao", "family"=>"Zhang"}, {"given"=>"Mikhail", "family"=>"Belkin"}]

Consensus Is All You Get: The Role of Attention in Transformers2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/abella25a[{"given"=>"Álvaro Rodrı́guez", "family"=>"Abella"}, {"given"=>"João Pedro", "family"=>"Silvestre"}, {"given"=>"Paulo", "family"=>"Tabuada"}]

Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/ablin25a[{"given"=>"Pierre", "family"=>"Ablin"}, {"given"=>"Angelos", "family"=>"Katharopoulos"}, {"given"=>"Skyler", "family"=>"Seto"}, {"given"=>"David", "family"=>"Grangier"}]

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models2025-10-06T00:00:00+00:002025-10-06T00:00:00+00:00https://proceedings.mlr.press/v267/abnar25a[{"given"=>"Samira", "family"=>"Abnar"}, {"given"=>"Harshay", "family"=>"Shah"}, {"given"=>"Dan", "family"=>"Busbridge"}, {"given"=>"Alaaeldin", "family"=>"El-Nouby"}, {"given"=>"Joshua M.", "family"=>"Susskind"}, {"given"=>"Vimal", "family"=>"Thilak"}]