Enable Flash Attention #1065

jiqing-feng · 2024-12-12T02:28:52Z

In CPU torch 2.5 we got flash attention for prefill, it's faster than varlen attention. We also apply SDPA when no past_key_values found.

It also use fused linear on gpt2 model.

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

HuggingFaceDocBuilderDev · 2024-12-12T02:34:09Z

The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update.

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng · 2025-01-14T04:24:18Z

Hi @sywangyi , please review these changes. Thanks!

optimum/exporters/ipex/modeling_utils.py

jiqing-feng · 2025-01-14T09:12:56Z

Hi @IlyasMoutawwakil. Do you mind reviewing this PR? Thanks!

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

IlyasMoutawwakil

LGTM, would love some benchmark numbers.

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng · 2025-01-15T01:52:04Z

It has 20%+ speed-up for 1st token over the patched models.

use real varlen attn

6d21075

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng force-pushed the varlen branch from 569cc78 to 422134f Compare December 12, 2024 07:34

jiqing-feng added 14 commits December 12, 2024 10:18

optimize gpt2 by using linear instead of conv1D

b792875

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

Merge branch 'huggingface:main' into varlen

422134f

fix usage without pkv

36884cb

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

use sdpa for no cache forward

d061e69

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix format

31c635a

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix sdpa

73a5ef7

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

revert shape for sdpa

f9c021b

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix sdpa precision, still have error

d069407

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix sdpa shape

2c54045

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

upgrad minimum torch version to 2.5

bce9aa9

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

rm pdb

72ac9e6

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix non patch path

3fdb3a5

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

Merge branch 'main' into varlen

7e20b86

Merge branch 'huggingface:main' into varlen

c1bd7f7

jiqing-feng marked this pull request as ready for review January 13, 2025 08:07

jiqing-feng marked this pull request as draft January 13, 2025 08:07

Merge branch 'huggingface:main' into varlen

fb71c2e

jiqing-feng marked this pull request as ready for review January 14, 2025 04:22

jiqing-feng changed the title ~~[WIP] Enable Real Varlen Attention~~ Enable Real Varlen Attention Jan 14, 2025

jiqing-feng changed the title ~~Enable Real Varlen Attention~~ Enable Flash Attention Jan 14, 2025

sywangyi reviewed Jan 14, 2025

View reviewed changes

optimum/exporters/ipex/modeling_utils.py Outdated Show resolved Hide resolved

sywangyi reviewed Jan 14, 2025

View reviewed changes

optimum/exporters/ipex/modeling_utils.py Outdated Show resolved Hide resolved

sywangyi reviewed Jan 14, 2025

View reviewed changes

optimum/exporters/ipex/modeling_utils.py Show resolved Hide resolved

jiqing-feng added 2 commits January 14, 2025 10:10

use varlen if flash attn not available

6186aaf

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

revert ipex version change

cbc232b

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng added 3 commits January 14, 2025 10:14

fix flash attn check

4dd2e44

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

prefill attn

372d3f8

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix cache

daddabf

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

IlyasMoutawwakil approved these changes Jan 14, 2025

View reviewed changes

IlyasMoutawwakil merged commit f28aabc into huggingface:main Jan 14, 2025
22 checks passed

jiqing-feng added 3 commits January 14, 2025 13:54

refactor attention

95b7043

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

use flash attn for decode

71aa6b0

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix dtype

9211803

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng mentioned this pull request Jan 15, 2025

set paged attn block size as a env parameter #1109

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Enable Flash Attention #1065

Enable Flash Attention #1065

jiqing-feng commented Dec 12, 2024 •

edited

Loading

HuggingFaceDocBuilderDev commented Dec 12, 2024

jiqing-feng commented Jan 14, 2025

jiqing-feng commented Jan 14, 2025

IlyasMoutawwakil left a comment •

edited

Loading

jiqing-feng commented Jan 15, 2025 •

edited

Loading

Enable Flash Attention #1065

Enable Flash Attention #1065

Conversation

jiqing-feng commented Dec 12, 2024 • edited Loading

HuggingFaceDocBuilderDev commented Dec 12, 2024

jiqing-feng commented Jan 14, 2025

jiqing-feng commented Jan 14, 2025

IlyasMoutawwakil left a comment • edited Loading

Choose a reason for hiding this comment

jiqing-feng commented Jan 15, 2025 • edited Loading

jiqing-feng commented Dec 12, 2024 •

edited

Loading

IlyasMoutawwakil left a comment •

edited

Loading

jiqing-feng commented Jan 15, 2025 •

edited

Loading