AI검증

토모펀의 AWS Inferentia2 기반 펫 행동 감지 모델 비용 최적화

펫테크 기업 토모펀이 고비용 GPU 인프라를 AWS Inferentia2로 전환하여 운영 효율성을 높였습니다. 기존 모델 구조를 유지하면서도 인프라 비용을 절감한 기술적 사례를 소개합니다.

2026년 5월 6일

주장토모펀은 펫 카메라 서비스인 퍼보의 실시간 행동 감지 기능을 유지하면서 인프라 비용을 절감해야 하는 과제에 직면했습니다. 기존 그래픽 처리 장치 기반의 아마존 탄력적 컴퓨팅 클라우드 인스턴스는 높은 처리량을 제공하지만, 상시 가동되는 추론 작업에는 비용 부담이 컸습니다.

팩트토모펀은 대만에 본사를 둔 펫테크 스타트업으로, 스마트 카메라와 인공지능을 결합해 반려동물의 짖음이나 이상 행동을 실시간으로 감지합니다. 이 서비스는 수십만 대의 기기에서 발생하는 영상 데이터를 처리하기 위해 고성능 비전-언어 모델인 블립을 사용합니다.

교차검증그래픽 처리 장치에서 아마존 웹 서비스 인퍼런시아2 기반의 인스턴스로 전환하는 과정에서 가장 큰 우려는 기존 파이토치 기반의 방대한 코드베이스를 재작성해야 한다는 점이었습니다. 토모펀은 모델의 핵심 로직을 변경하지 않고도 추론 환경을 최적화할 기술적 해결책이 필요했습니다.

팩트토모펀은 인퍼런시아2 전용 인공지능 칩을 탑재한 인스턴스를 도입하여 문제를 해결했습니다. 이 과정에서 뉴런 소프트웨어 개발 키트를 활용해 블립 모델의 구성 요소를 독립적으로 컴파일하고, 경량 래퍼를 사용하여 모델 구조를 유지했습니다.

팩트블립 모델은 이미지 인코더, 텍스트 인코더, 텍스트 디코더의 세 가지 구성 요소로 나뉩니다. 각 구성 요소는 토치 뉴런 엑스를 통해 독립적으로 컴파일되었으며, 이를 통해 원본 모델의 사전 학습된 로직을 그대로 보존했습니다.

교차검증모델 컴파일 시 토치 뉴런 엑스 트레이스 응용 프로그램 인터페이스는 특정 형태의 텐서 입출력을 요구합니다. 토모펀은 모델의 내부 로직을 수정하는 대신, 입출력 형식을 표준화하는 어댑터 계층인 래퍼 코드를 도입하여 이 문제를 해결했습니다.

팩트시스템 아키텍처는 아마존 클라우드 프론트, 탄력적 로드 밸런싱, 그리고 탄력적 컴퓨팅 클라우드 자동 확장 그룹으로 구성됩니다. 토모펀은 클라우드 워치를 통해 지연 시간, 처리량, 오류율을 모니터링하며 트래픽 변화에 따라 실시간으로 인스턴스 규모를 조정합니다.

주장이번 사례는 특정 하드웨어에 종속되지 않는 유연한 아키텍처 설계의 중요성을 보여줍니다. 토모펀은 응용 프로그램 인터페이스 수정 없이 그래픽 처리 장치와 인퍼런시아2 백엔드를 실시간으로 전환할 수 있는 구조를 구축하여 서비스 가용성을 극대화했습니다.

주장이번 전환은 인공지능 서비스 기업들이 고비용 그래픽 처리 장치 의존도에서 벗어나 전용 칩셋을 통해 운영 효율성을 높일 수 있는 실질적인 경로를 제시합니다. 특히 상시 가동이 필요한 실시간 추론 서비스에서 비용 절감과 성능 유지라는 두 가지 목표를 동시에 달성하는 전략적 모델이 됩니다.

출처해당 내용은 아마존 웹 서비스 머신러닝 블로그(https://aws.amazon.com/blogs/machine-learning/cost-effective-deployment-of-vision-language-models-for-pet-behavior-detection-on-aws-inferentia2/)를 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Anthropic CEO Dario Amodei: I think if AI is used in an appropriate way, not even warfare, but think of intelligence collection. Let's say we're able to predict an invasion of Taiwan or a new movement in Ukraine. Our adversaries will think twice about conducting some kind of invasion or military operation if we know everything that they're doing. Source: Bloomberg

4시간 전

TELEGRAM · Clash Report

Pope Leo XIV: Integration does not mean erasing the history of the person who arrives, nor demanding that they leave behind everything that forms part of their memory. Neither does it mean creating parallel worlds, closed off from one another, where people live side by side without truly meeting. Integration is a reciprocal journey. The one who arrives learns to inhabit a new land, and the one who receives learns to enlarge their own home without diluting their identity or closing their heart to

4시간 전

TELEGRAM · Clash Report

Keir Starmer: I'm not going to walk away. I don't think we should plunge the country into the chaos of a leadership election. And let me just be clear with you, that's not about personal vanity, it's not about a stubbornness, it's out of a very deep sense of duty. I was elected to serve this country...

4시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

제프 베이조스의 인공지능 스타트업 프로메테우스 120억 달러 투자 유치

AI22시간 전

AI 봇 트래픽 급증에 따른 서버 인프라 비용 관리 전략

마케팅14시간 전

아바타 AI의 인도 시장 맞춤형 영상 생성 모델 바리아 출시

AI8시간 전

오라클 피플소프트 보안 결함으로 인한 100개 기업 해킹 피해

AI19시간 전

방글라데시-미얀마 국경 안보 위기와 민간인 피해 확산

국제19시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain==1.3.8

langchain==1.3.8

langchain 1.3.8 릴리즈에서는 문서 문자열 내 이중 백틱을 제거하고, `create_agent`에 오버로드를 추가했습니다. 또한, 비동기 미들웨어 데코레이터 타이핑을 지원하고 구조화된 출력 모델의 폴백을 개선했습니다.

15시간 전

meta-llama/llama-stackv1.1.0

v1.1.0

이번 릴리즈에서는 라이브러리 클라이언트의 요청 빌드 전 헤더 정리, CI 환경에서 테스트 픽스처가 메인 서버 로그를 덮어쓰는 문제 수정, OpenAI 응답 스키마 드리프트 검사기 추가 등 다양한 수정 사항이 포함되었습니다. 또한, 라우터의 헬스 체크 및 벡터 스토어 팬아웃 병렬 처리, 비-OpenAI 모델을 위한 5단계 토크나이저 해석 체인 추가, pgvector에서 psycopg2를 asyncpg로 마이그레이션하는 등의 성능 개선 및 기능 추가가 이루어졌습니다. Anthropic Message Batches API가 추가되었으며, 여러 프로바이더의 비동기 안전성 개선 및 비밀 처리 강화 등 전반적인 안정성 향상에 초점을 맞추었습니다.

1일 전

LangChainlangchain-core==1.4.6

langchain-core==1.4.6

이번 릴리즈에서는 추적 메타데이터에 패키지 버전 추적 기능이 추가되었습니다. 또한, v1 스트리밍 도구 호출이 정규화되었으며, 타입 체크 설정이 통합되었습니다.

1일 전

LangChainlangchain-model-profiles==0.0.6

langchain-model-profiles 0.0.6

langchain-model-profiles 0.0.6 버전이 릴리즈되었습니다. 이번 업데이트에서는 모델 프로필에 `text_inputs` 및 `text_outputs` 필드가 추가되었으며, 프로필 생성을 위한 도구가 개선되었습니다. 또한, 여러 종속성이 업데이트되었습니다.

1일 전

LangChainlangchain-core==1.4.5

langchain-core==1.4.5

langchain-core 1.4.5 릴리즈에서는 스트리밍 시 툴 호출 청크 유효성 검사 기능이 추가되었습니다. 또한, 비동기 트레이서의 동기 컨텍스트에서의 대체 동작 및 구조화된 출력 모델의 대체 동작이 개선되었습니다.

1일 전

PAPERS

cs.AI

LLM을 활용한 사회 및 행동 과학 분야의 자동화된 재현성 평가

1일 전

cs.AI

EurekAgent: 자율적 과학 발견을 위한 에이전트 환경 엔지니어링의 모든 것

1일 전