Topic

§ Research

Every story tagged with this topic, ordered by date.

Kindergarten-grade nouns

Reddit user reports Claude Opus struggles to distinguish word obscurity via corpus frequency vs. human recognition familiarity.

u/babelphishy·1 day ago·58 pts / 5 comm

r/LocalLLaMA· COMMUNITY

12M Context Window and some some sprinkle of lies?

SubQ claims 12M context window in marketing but production model capped at 1M; benchmark results show significant performance drop vs. research variant and competitors.

u/prokajevo·2 days ago·57 pts / 25 comm

Latent Space· ANALYST

🔬Doing Vibe Physics — Alex Lupsasca, OpenAI

Alex Lupsasca (OpenAI) details how GPT-5.x generated novel theoretical physics and quantum gravity results.

Latent Space·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

A Closed-Form Adaptive-Landmark Kernel for Certified Point-Cloud and Graph Classification

PALACE: kernel method for certified point-cloud/graph classification with adaptive landmarks and cover-theoretic guarantees.

Sushovan Majhi·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

OpenSeeker-v2: SFT on informative trajectories achieves frontier LLM search agent capabilities without full RL pipeline.

Yuwen Du·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures

HeadsUp: scalable feed-forward 3D Gaussian head reconstruction from multi-view captures using UV-parameterized representation.

Evangelos Ntavelis·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Conditional Diffusion Sampling

CDS (Conditional Diffusion Sampling): combines parallel tempering and diffusion for sampling from unnormalized multimodal distributions.

Francisco M. Castro-Macías·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Enhanced 3D Brain Tumor Segmentation Using Assorted Precision Training

Medical imaging: assorted precision training for 3D brain tumor segmentation to improve early identification.

Adwaitt Pandya·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

An Agent-Oriented Pluggable Experience-RAG Skill for Experience-Driven Retrieval Strategy Orchestration

Experience-RAG Skill introduces agent-oriented retrieval orchestration layer that learns task-specific retrieval strategies via experience memory.

Dutao Zhang·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

From Intent to Execution: Composing Agentic Workflows with Agent Recommendation

Framework automates multi-agent system composition through intent-to-execution workflow and agent recommendation, replacing manual orchestration.

Kishan Athrey·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Flow Sampling: Learning to Sample from Unnormalized Densities via Denoising Conditional Processes

Flow Sampling framework uses diffusion models to sample from unnormalized densities via denoising conditional processes without data.

Aaron Havens·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Logical Consistency as a Bridge: Improving LLM Hallucination Detection via Label Constraint Modeling between Responses and Self-Judgments

Hallucination detection method bridges implicit neural uncertainty and explicit self-judgments via label constraint modeling for improved reliability.

Hao Mi·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Pretrained Model Representations as Acquisition Signals for Active Learning of MLIPs

Active learning for quantum chemistry via pretrained MLIP latent space acquisition signals; domain-specific chemistry application.

Eszter Varga-Umbrich·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Transformers with Selective Access to Early Representations

Transformer architecture innovation enables selective early layer access via learned mixing coefficients for memory-efficient low-level feature recovery.

Skye Gunasekaran·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

The Counterexample Game: Iterated Conceptual Analysis and Repair in Language Models

Study finds LMs can iteratively refine conceptual definitions through counterexample generation, but accept invalid counterexamples at 2× the human acceptance rate.

Daniel Drucker·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Atomic Fact-Checking Increases Clinician Trust in Large Language Model Recommendations for Oncology Decision Support: A Randomized Controlled Trial

RCT of 356 clinicians shows atomic fact-checking (decomposing LLM recommendations into verifiable claims) increases trust from 27% to 67% vs. traditional explainability methods.

Lisa C. Adams·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

Task vector arithmetic on BEATs encoders composes 661-species bioacoustic classifier without data sharing; task vectors near-orthogonal, geometry aligns with acoustic niche hypothesis.

Ragib Amin Nihal·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Steer Like the LLM: Activation Steering that Mimics Prompting

Framework shows popular activation steering methods misalign with prompt steering mechanics; proposes distilling prompt behavior into interpretable models to close performance gap.

Geert Heyman·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Graph Neural Networks in the Wilson Loop Representation of Abelian Lattice Gauge Theories

Gauge-invariant GNN architecture for Abelian lattice gauge theories using Wilson loop representations; application to condensed matter and quantum systems.

Ali Rayat·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Contextual Multi-Objective Optimization: Rethinking Objectives in Frontier AI Systems

Argues frontier AI failures in open-ended tasks (scientific assistance, agents, personalization) stem from objective ambiguity rather than capability gaps; proposes contextual multi-objective optimization.

Jie Zhou·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

From Data Lifting to Continuous Risk Estimation: A Process-Aware Pipeline for Predictive Monitoring of Clinical Pathways

Process-aware pipeline for continuous predictive monitoring of clinical pathways using prefix-based representations on COVID-19 ICU admission prediction.

Pasquale Ardimento·2 days ago

r/LocalLLaMA· COMMUNITY

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding- Google Developers Blog

Google demonstrates 3X LLM inference speedup on TPUs using diffusion-style speculative decoding technique.

u/eternviking·2 days ago·41 pts / 11 comm

arXiv (cs.AI/CL/LG)· ACADEMIA

Raising the Ceiling: Better Empirical Fixation Densities for Saliency Benchmarking

Proposes improved empirical fixation density estimation methods beyond fixed-bandwidth Gaussian KDE for saliency benchmarking and per-image model evaluation.

Susmit Agrawal·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

DMGD: Train-Free Dataset Distillation with Semantic-Distribution Matching in Diffusion Models

DMGD proposes training-free dataset distillation using diffusion models with semantic-distribution matching guidance.

Qichao Wang·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Spatiotemporal Convolutions on EEG signal -- A Representation Learning Perspective on Efficient and Explainable EEG Classification with Convolutional Neural Nets

Study compares 2D spatiotemporal convolutions vs. concatenated 1D convolutions for EEG signal classification with CNNs.

Laurits Dixen·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics

EvoLM enables self-improvement in language models using co-evolved discriminative rubrics without external reward supervision.

Shuyue Stella Li·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

On Adaptivity in Zeroth-Order Optimization

MEAZO: memory-efficient adaptive zeroth-order optimizer for LLM fine-tuning, outperforms ZO-Adam with scalar-only tracking.

Hassan Dbouk·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Memory-Efficient Continual Learning with CLIP Models

Distributionally robust continual learning method for CLIP models using dynamic per-class loss reweighting with small memory buffers.

Ryan King·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Quantifying the human visual exposome with vision language models

Vision language models quantify semantic richness of personal visual environments to predict mental health outcomes from 2674 participant photos.

Christian Rominger·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

TraceLift: planner-executor framework trains LLM reasoning traces on executor-grounded rewards, not just final-answer correctness.

Tianyang Han·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following

MCJudgeBench: benchmark for constraint-level evaluation of LLM judges in multi-constraint instruction following with per-constraint gold labels.

Jaeyun Lee·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Mechanical Conscience: A Mathematical Framework for Dependability of Machine Intelligenc

Mathematical framework for dependability of distributed collaborative intelligence systems where locally correct decisions compose into unsafe global behaviors.

Munkhdegerekh Batzorig·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Complex Equation Learner: Rational Symbolic Regression with Gradient Descent in Complex Domain

Complex-valued gradient descent for symbolic regression enables discovery of equations with singularities and domain constraints like division and logarithms.

Sergei Garmaev·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

On Computing Total Variation Distance Between Mixtures of Product Distributions

Randomized algorithm approximates total variation distance between mixtures of product distributions with polynomial-time complexity bounds.

Weiming Feng·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Realizable Bayes-Consistency for General Metric Losses

Theoretical characterization of Bayes-consistency for learning with general metric losses in the realizable setting.

Dan Tsir Cohen·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration

Conformal Predictive Self-Calibration framework for multimodal learning handles modality imbalance and noisy corruption via predictive uncertainty.

Xun Jiang·2 days ago

r/MachineLearning· COMMUNITY

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

PhD student reports 4% accuracy gap when reproducing computer vision paper baseline; raises reproducibility concerns common in published ML research.

u/Plane_Stick8394·2 days ago·34 pts / 23 comm

OpenAI· FRONTIER

GPT-5.5 Instant System Card

OpenAI releases GPT-5.5 Instant system card detailing model capabilities, limitations, and safety properties.

OpenAI·2 days ago

Simon Willison· ANALYST

April 2026 newsletter

Simon Willison's April 2026 newsletter covers Opus 4.7, GPT-5.5 price increases, Claude Mythos, LLM security research, and ChatGPT Images 2.0.

Simon Willison·3 days ago

r/LocalLLaMA· COMMUNITY

FastDMS: 6.4X KV-cache compression running faster than vLLM BF16/FP8

FastDMS achieves 6.4× KV-cache compression on Llama 3.2 1B via learned token eviction, matching vLLM performance with lower memory overhead.

u/randomfoo2·3 days ago·51 pts / 10 comm

r/singularity· COMMUNITY

Anthropic co-founder Jack Clark says AI is nearing the point where it can automate AI research

Jack Clark (Anthropic co-founder) estimates 30% probability AI research automation by end-2027, 60%+ by end-2028, citing rapid progress from coding to ML systems research.

u/Outside-Iron-8242·3 days ago·128 pts / 43 comm

arXiv (cs.AI/CL/LG)· ACADEMIA

Enhancing RL Generalizability in Robotics through SHAP Analysis of Algorithms and Hyperparameters

SHAP-based framework decomposes RL algorithm and hyperparameter contributions to generalization gaps in robotic control tasks.

Lingxiao Kong·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring

Layer-wise peeling framework monitors transformer training dynamics by locally optimizing each layer against intermediate representations.

Arian Eamaz·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Compress Then Adapt? No, Do It Together via Task-aware Union of Subspaces

JACTUS unifies parameter-efficient fine-tuning and model compression into single joint optimization framework.

Jingze Ge·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

First-Order Efficiency for Probabilistic Value Estimation via A Statistical Viewpoint

Statistical approach improves Monte Carlo estimation of Shapley values and semivalues for model explainability.

Ziqi Liu·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

SCPRM: A Schema-aware Cumulative Process Reward Model for Knowledge Graph Question Answering

SCPRM process reward model mitigates risk compensation bias in knowledge graph reasoning by enforcing schema constraints.

Jiujiu Chen·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

Framework applies reinforcement learning to multi-agent LLM systems via orchestration traces capturing spawning, delegation, and communication.

Chenchen Zhang·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

FunFuzz: An LLM-Powered Evolutionary Fuzzing Framework

FunFuzz evolutionary fuzzing framework uses LLMs with multi-island search and feedback-driven prompt adaptation for structured input generation.

Mario Rodríguez Béjar·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Static Analysis of Recursive SHACL

Static analysis framework for recursive SHACL shape definitions to decide constraint document implication.

Anouk Oudshoorn·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Fine-Grained Graph Generation through Latent Mixture Scheduling

Conditional VAE with latent mixture scheduling enables fine-grained topological control in graph generation for drug discovery.

Nidhi Vakil·3 days ago

← Front Page50 stories