Technology ❯ Artificial Intelligence ❯ Machine Learning

Model Architecture

Mixture-of-Experts Mixture of Experts Transformer Models Vision-Language Models Sparse Attention Mechanism Encoder-Decoder Models Dynamic Tiling Thinker-Talker Architecture Dense Models Matryoshka Autoencoders Diffusion Transformer Base model weights Long-Context Modeling Gemma Models T2I-Adapter Models Adapters Multi-Head Systems Dynamic Masking and Attention Matformer Model Sparsity in Models Dual-Encoder Architecture Dual Vision Encoder Sparse Attention Large Language Models Routing Mechanisms Granite 4.0 Dynamic Clustering Tiny Recursive Model Recursive Models ReXMoE DeepEncoder MoE Architecture ExplicitLM Memory and Reasoning Output Consistency MLP Adapters Neural Pathways DiT Multimodal Systems World Models GPU vs TPU Corpus Expansion Diffusion Models Recursive Language Model Dual-Track Language Model Kimi K2.5 FalconMamba 7B GLM-5 Routing Models Phi 3.5 MoE Hyper-Connections Transformer Alternatives Sparse Mixture of Experts

Moonshot AI Releases Open-Source Kimi K2.5 With Visual Coding and Agent Swarm

Independent benchmarks suggest the open release narrows China’s gap with US model leaders.

Qwen3-TTS Launches as Open-Source, Low-Latency Multilingual TTS With 3-Second Voice Cloning

DeepSeek Publishes mHC to Stabilize Wider Residual Streams in LLMs

Google Releases T5Gemma 2, a Compact Multimodal Encoder-Decoder With 128K Context

Black Forest Labs Debuts FLUX.2, Advanced Image Models With Open Weights and Managed APIs

Ilya Sutskever Says AI’s Scale-First Phase Has Peaked, Urges a Return to Research

DeepSeek-OCR Turns Text Into Images to Slash Context Tokens

DeepSeek Open-Sources OCR System That Compresses LLM Contexts With Visual Tokens

Samsung Releases 7M-Parameter Recursive AI That Rivals Larger Models on Reasoning Benchmarks

Studies Unveil Scaling Laws and Edge Quantization for Mixture-of-Experts Language Models