Amazon EC2 Inf2 인스턴스를 선택해야 하는 이유
Amazon Elastic Compute Cloud(Amazon EC2) Inf2 인스턴스는 딥 러닝(DL) 추론을 위해 특별히 제작되었으며, Amazon EC2에서 최저 비용으로 대규모 언어 모델(LLM) 및 비전 변환기를 비롯한 생성형 인공 지능 모델을 위한 고성능을 제공합니다. Inf2 인스턴스를 사용하면 텍스트 요약, 코드 생성, 비디오 및 이미지 생성, 음성 인식, 개인화, 사기 탐지 등을 위한 추론 애플리케이션을 실행할 수 있습니다.
Inf2 인스턴스는 2세대 AWS Inferentia 칩인 AWS Inferentia2로 구동됩니다. Inf2 인스턴스는 Inf1보다 3배 더 뛰어난 컴퓨팅 성능, 4배 더 많은 총 액셀러레이터 메모리, 최대 4배 더 높은 처리량, 최대 10배 짧은 지연 시간으로 향상된 성능을 제공합니다. Inf2 인스턴스는 Amazon EC2 최초의 추론 최적화 인스턴스로, Inferentia 칩 간의 초고속 연결을 통한 스케일 아웃 분산 추론을 지원합니다. 이제 Inf2 인스턴스에서 여러 칩에 수천억 개의 파라미터가 포함된 모델을 효율적이고 경제적으로 배포할 수 있습니다.
AWS Neuron SDK는 AWS Inferentia 칩에 모델을 배포하고 AWS Trainium 칩에서 모델을 훈련하는 데 도움이 됩니다. 이 SDK는 PyTorch 및 TensorFlow 같은 프레임워크와 기본적으로 통합되므로 기존 워크플로와 애플리케이션 코드를 계속 사용하고 Inf2 인스턴스에서 실행할 수 있습니다.
이점
기능
제품 세부 정보
인스턴스 크기 | Inferentia2 칩 | 액셀러레이터 메모리 (GB) |
vCPU | 메모리 (GiB) |
로컬 스토리지 |
칩 내 상호 연결 |
네트워크 대역폭 (Gbps) |
EBS 대역폭 (Gbps) |
온디맨드 요금 | 1년 예약 인스턴스 | 3년 예약 인스턴스 |
inf2.xlarge | 1 | 32 | 4 | 16 | EBS 전용 | 해당 사항 없음 | 최대 15 | 최대 10 | 0.76 USD | 0.45 USD | 0.30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | EBS 전용 | 해당 사항 없음 | 최대 25 | 10 | 1.97 USD | 1.81 USD | 0.79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | EBS 전용 | 예 | 50 | 30 | 6.49 USD | 3.89 USD | 2.60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | EBS 전용 | 예 | 100 | 60 | 12.98 USD | 7.79 USD | 5.19 USD |
고객 및 파트너 추천사
고객과 파트너가 Amazon EC2 Inf2 인스턴스를 사용하여 비즈니스 목표를 달성한 몇 가지 사례를 소개합니다.
-
Leonardo.ai
Leonardo의 우리 팀은 생성형 AI를 활용하여 창의적 전문가와 마니아들이 최고의 품질, 속도, 스타일 일관성을 갖춘 시각적 자산을 제작할 수 있도록 지원합니다. AWS Inf2의 가격 대비 성능인 AWS Inf2를 활용하면 성능 저하 없이 비용을 80% 절감하여 보다 저렴한 가격대에서 최첨단 기능을 제공함으로써 고객에게 근본적으로 다른 가치를 제안할 수 있습니다. 또한 성장 및 확장에 따라 점점 더 중요해지는 보조 AI 서비스의 비용과 용량 가용성에 대한 우려를 줄여줍니다. 이것은 생성형 AI에 대한 가능성의 한계를 계속해서 넓혀 사용자에게 창의성과 표현력의 새로운 시대를 열어줄 수 있는 핵심 기술입니다.
Pete Werner, Leonardo.ai, Head of AI -
Runway
저희 Runway의 AI Magic Tools 제품군을 사용하면 사용자가 이전과는 전혀 다른 방식으로 콘텐츠를 생성하고 편집할 수 있습니다. 저희는 AI 기반 콘텐츠 제작을 활용하여 가능성의 한계를 끊임없이 극복하고 있으며, 저희의 AI 모델이 갈수록 복잡해지면서 이러한 모델을 대규모로 실행하는 데 필요한 기반 인프라 비용이 높아질 수 있습니다. AWS Inferentia를 기반으로 하는 Amazon EC2 Inf2 인스턴스를 활용하면서, 저희는 일부 모델을 유사한 GPU 기반 인스턴스보다 최대 2배 더 높은 처리량으로 실행할 수 있게 되었습니다. 이 고성능 저비용 추론 기능 서비스 덕분에 더 많은 기능을 도입하고, 더 복잡한 모델을 배포하며, 궁극적으로 Runway를 사용하는 수백만 명의 제작자에게 더 나은 경험을 제공할 수 있게 되었습니다.
Cristóbal Valenzuela, Runway 공동 설립자 겸 CEO -
Qualtrics
Qualtrics는 경험 관리 소프트웨어를 설계하고 개발합니다.
Qualtrics는 고객, 직원, 브랜드 및 제품의 경험 격차를 메우는 기술을 구축하는 데 초점을 둡니다. 이를 달성하기 위해 당사는 복잡한 멀티 태스크, 멀티 모드의 DL 모델을 개발하여 텍스트 분류, 시퀀스 태깅, 담론 분석, 핵심 문구 추출, 주제 추출, 클러스터링 및 전체적인 대화 이해와 같은 새로운 기능을 출시하고 있습니다. 이와 같이 더 복잡한 모델을 더 많은 애플리케이션에서 활용하려면 비정형 데이터의 양이 증가하기 때문에 추론에 최적화된 더 높은 성능의 솔루션이 필요합니다. 예를 들어 Inf2 인스턴스처럼 요구 사항을 충족하면서 최상의 고객 경험을 제공할 수 있어야 합니다. 새로운 Inf2 인스턴스에 대한 기대가 큰데, 처리량을 높여주고 지연 시간을 극적으로 줄여줄 뿐만 아니라 분산 추론 및 향상된 동적 입력 형태 지원과 같은 새로운 기능을 통해 더 크고 복잡한 대규모 모델을 배포할 때의 요구 사항을 충족할 수 있기 때문입니다.
Aaron Colak, Qualtrics Head of Core Machine Learning -
Finch Computing
Finch Computing은 정부, 금융 서비스 및 데이터 통합 사업자 고객을 위한 인공 지능 애플리케이션을 제공하는 자연어 기술 회사입니다.
당사는 실시간 자연어 처리에 대한 고객의 요구 사항을 충족하기 위해 대규모 프로덕션 워크로드로 확장되는 최첨단 DL 모델을 개발합니다. 글로벌 데이터 피드를 처리하려면 트랜잭션의 지연 시간을 줄이고 처리량을 높여야 합니다. 이미 많은 프로덕션 워크로드를 Inf1 인스턴스로 마이그레이션하여 GPU 대비 80%의 비용을 절감했습니다. 지금은 기록된 텍스트에서 더 심층적이고 유용한 의미를 추출하는 더 크고 복잡한 모델을 개발하고 있습니다. 많은 고객이 이러한 인사이트에 실시간으로 액세스해야 하는데, Inf2 인스턴스의 성능은 Inf1 인스턴스보다 지연 시간을 줄이고 처리량을 높이는 데 큰 도움이 될 것으로 보입니다. Inf2의 개선된 성능과 동적 입력 크기 지원과 같은 새로운 Inf2 기능은 회사의 비용 효율성을 개선하고 실시간 고객 경험을 향상시키며 데이터에서 새로운 인사이트를 얻는 데 도움이 됩니다.
Franz Weckesser, Finch Computing Chief Architect -
Money Forward Inc.
Money Forward Inc.는 개인 및 기업 고객을 위한 개방형의 공정한 금융 플랫폼을 제공합니다. Money Forward 그룹의 자회사인 HiTTO Inc.는 이 플랫폼의 일부로 AI 챗봇 서비스를 제공하는데, 이 서비스는 맞춤형 자연어 처리(NLP) 모델을 사용하여 기업 고객의 다양한 요구 사항을 해결합니다.
당사는 대규모 AI 챗봇 서비스를 Amazon EC2 Inf1 인스턴스에서 출시하여 추론 지연 시간을 비교 가능한 GPU 기반 인스턴스 대비 97% 단축하는 동시에 비용도 절감했습니다. Amazon EC2 Inf2 인스턴스에 대한 초기 테스트 결과에서 추가 성능 개선 효과를 확인하게 되어 매우 기뻤습니다. AWS Inf2에서는 동일한 사용자 지정 NLP 모델을 사용하여 Inf1에 비해 지연 시간을 10배 더 줄일 수 있었습니다. 더 규모가 큰 수십억 개의 파라미터 모델로 전환하는 데 있어, Inf2는 고객에게 우수한 엔드 투 엔드 사용자 경험을 지속적으로 제공할 수 있다는 확신을 줍니다.
Takuya Nakade, Money Forward, Inc. CTO -
Fileread
Fileread.ai에서는 질문을 통해 손쉽게 문서와 상호 작용할 수 있는 솔루션을 구축하고 있습니다. 이 솔루션을 통해 사용자는 모든 문서에서 원하는 내용을 찾고 올바른 정보를 더 빠르게 얻을 수 있습니다. 새로운 Inf2 EC2 인스턴스로 전환한 이후, 저희의 NLP 추론 능력이 크게 개선되었습니다. 비용 절감만으로도 품질 저하 없이 리소스를 더 효율적으로 할당할 수 있게 되면서 시장의 판도를 바꿀 만한 요인이 되었습니다. 저희는 추론 지연 시간을 33% 줄이고 처리량을 50% 늘려 고객의 만족도를 높였습니다. 저희 팀은 이전 G5 인스턴스와 비교하여 향상된 Inf2의 속도와 성능에 깜짝 놀랐고, Inf2가 미래의 NLP 모델 배포 솔루션이 될 것이라는 것을 확신하게 되었습니다.
Daniel Hu, Fileread CEO -
Yaraku
Yaraku의 사명은 사람들이 언어 장벽을 넘어 소통할 수 있도록 돕는 인프라를 구축하는 것입니다. 저희의 주력 제품인 YarakuZen을 사용하면 전문 번역가부터 단일 언어를 구사하는 개인에 이르기까지, 누구나 텍스트와 문서를 자신 있게 번역하고 사후 편집할 수 있습니다. 이 프로세스를 지원하기 위해 저희는 번역, 텍스트 간 단어 정렬, 문장 분할, 언어 모델링 등의 작업을 포함하는 DL 모델을 기반으로 한 다양하고 정교한 도구를 제공합니다. Inf1 인스턴스를 사용한 덕분에 GPU 기반 인스턴스에 비해 추론 비용을 50% 이상 줄이면서 늘어나는 수요를 충족하도록 서비스 속도를 높일 수 있었습니다. 이제 저희는 지연 시간을 줄이면서 수요를 충족하기 위해 Inf2 인스턴스의 향상된 기능을 필요로 하는 차세대 대형 모델의 개발에 착수하고 있습니다. Inf2를 활용하여 비슷한 처리량을 유지하면서 모델을 10배 스케일 업하여 고객에게 더 높은 수준의 품질을 제공할 수 있게 되었습니다.
Giovanni Giacomo, Yaraku NLP Lead -
Hugging Face
Hugging Face는 우수한 ML을 대중화하여 전 세계 ML 개발자들이 실제 문제를 해결할 수 있도록 돕는 것을 사명으로 합니다. 그 핵심은 최고의 최신 모델을 클라우드를 기반으로 한 최고의 ML 칩에서 최대한 효율적으로 빠르게 실행하는 것입니다. Inferentia2가 생성형 AI 모델을 대규모로 배포하는 새로운 표준 방식이 될 수 있다는 것을 매우 기쁘게 생각합니다. Inf1 덕분에 기존 GPU 기반 인스턴스보다 비용을 최대 70% 절감했으며 Inf2를 사용하면서 BERT와 유사한 변환기의 지연 시간이 Inferentia1을 사용할 때에 비해 최대 8배 더 짧아졌습니다. Inferentia2를 통해 저희 커뮤니티는 이 성능을 1천억 개 이상의 파라미터 규모로, 그리고 LLM과 최신 확산 및 컴퓨터 비전 모델로 손쉽게 확장할 수 있을 것입니다.
-
PyTorch
PyTorch는 ML 개발자를 위한 연구 프로토타이핑 단계부터 프로덕션 배포 단계까지의 경로를 가속화합니다. 저희는 새로운 AWS Inferentia2 기반 Amazon EC2 Inf2 인스턴스에 대한 네이티브 PyTorch를 지원을 제공하기 위해 AWS 팀과 협력했습니다. 대규모 생성형 AI 모델을 배포하려는 커뮤니티 멤버가 늘어나는 상황에서, AWS 팀과의 협력을 통해 칩 간의 고속 NeuronLink 연결을 사용하여 Inf2 인스턴스에 대한 분산 추론을 최적화하게 되어 기쁩니다. Inf2 덕분에 PyTorch를 사용하는 개발자들이 이제 초대형 LLM 및 비전 트랜스포머 모델을 손쉽게 배포할 수 있게 되었습니다. 또한 Inf2 인스턴스는 효율적인 데이터 유형, 동적 셰이프, 사용자 지정 연산자 및 하드웨어에 최적화된 확률 반올림을 비롯한 다른 혁신적인 기능을 PyTorch 개발자에게 제공하므로 PyTorch 커뮤니티에서 폭넓게 도입하기에 적합합니다.
-
Nextira
LLM, 더 넓게는 엔터프라이즈급 생성형 AI 애플리케이션의 역사적 과제는 고성능 DL 모델 교육 및 실행 관련 비용입니다. AWS Trainium과 함께 AWS Inferentia2는 고성능 교육이 필요한 경우 고객의 비용 부담을 줄입니다. 이제 교육 및 추론에서 이점을 찾고 있는 고객은 더 적은 비용으로 더 나은 결과를 얻을 수 있습니다. Trainium과 Inferentia는 조정을 가속화하여 오늘날 가장 큰 기업의 가장 까다로운 DL 요구 사항도 충족합니다. 대규모 AI 워크로드를 실행하는 많은 Nextira 고객은 이러한 새로운 칩셋을 직접 활용하여 비용 절감 및 성능의 효율성을 높이고 시장에서 더 빠른 결과를 얻을 수 있습니다.
Jason Cutrer, Nextira 설립자 겸 CEO -
Amazon CodeWhisperer
Amazon CodeWhisperer는 통합 개발 환경(IDE)에서 한 줄 코드 또는 완전한 기능을 갖춘 코드의 권장 사항을 실시간으로 생성하여 소프트웨어를 신속하게 구축하는 데 도움을 주는 AI 코딩 도우미입니다.
저희는 CodeWhisperer에서 생성형 AI 모델을 사용하여 코드 권장 사항을 제공함으로써 소프트웨어 개발자의 생산성을 개선하고 있습니다. 매우 효과적인 코드 권장 사항을 개발하기 위해 DL 네트워크를 수십억 개의 파라미터로 확장했습니다. 고객이 입력할 때 실시간으로 코드 권장 사항을 제시해야 하므로, 짧은 응답 지연 시간이 매우 중요합니다. 대규모 생성형 AI 모델에는 1초도 미만의 응답 시간을 제공할 수 있는 고성능 컴퓨팅이 필요합니다. Inf2를 사용하면 대규모 입력 및 출력 시퀀스에 최적화된 GPU 인스턴스를 훈련할 때 CodeWhisperer를 실행하는 것과 동일한 지연 시간을 제공할 수 있습니다. 따라서 Inf2 인스턴스는 개발자에게 최상의 경험을 제공하는 동시에 비용과 전력을 절약하는 데 도움이 됩니다.
Doug Seven, Amazon CodeWhisperer 총 관리자 -
Amazon Search
매일 수십억 개의 제품을 검색하고 수십억 건의 고객 쿼리를 처리하는 Amazon의 제품 검색 엔진은 세계에서 가장 많이 사용되는 서비스 중 하나입니다.
Inf2 GA 출시가 정말 기대됩니다. Inf2의 뛰어난 성능과 수십억 개의 파라미터가 있는 대규모 모델을 처리할 수 있는 기능은 저희 서비스를 위한 완벽한 솔루션이며, 모델 복잡성과 정확성 측면에서 새로운 가능성을 열어줍니다. Inf2가 제공하는 상당한 속도 향상 효과와 비용 효율성을 생각할 때, 이 서비스를 Amazon Search 서비스 인프라에 통합하면 갈수록 높아지는 고객의 요구를 충족하는 데 도움이 될 수 있습니다. 저희는 Inf2를 사용하는 생성형 LLM을 사용하여 새로운 쇼핑 경험을 지원할 계획입니다.
Trishul Chilimbi, Amazon Search VP