A new preprint is out! We find a theoretical explanation for why Transformers struggle to learn sensitive functions such as Parity and show empirical evidence supporting our reasoning. arXiv link