Cuộc đua vũ khí AI: Khám phá những tiến bộ mới nhất trong các mô hình ngôn ngữ lớn và nội dung được tạo bởi AI

Khám phá những tiến bộ mới nhất trong các mô hình ngôn ngữ lớn và nội dung được tạo bởi AI, bao gồm sự có sẵn của Gemini 1.5, GPT-4 Turbo và các mô hình nguồn mở như Stable LM2 và MixtureOfExperts 8X 22B. Khám phá cách các mô hình AI này đang biến đổi các ngành công nghiệp và tác động đến các công ty khởi nghiệp, tiếp thị và sáng tạo nội dung.

5 tháng 2, 2025

Trí tuệ nhân tạo đang nhanh chóng thay đổi cách chúng ta tạo ra và tiêu thụ nội dung. Bài đăng trên blog này khám phá những tiến bộ mới nhất trong các mô hình ngôn ngữ lớn, tạo video được hỗ trợ bởi AI và cuộc chạy đua vũ trang AI ngày càng gia tăng, cung cấp những hiểu biết có thể giúp các doanh nghiệp tận dụng những công nghệ này để nâng cao chiến lược tiếp thị và tiếp cận thị trường của họ.

Mới nhất về các mô hình ngôn ngữ lớn: Gemini 1.5, GPT-4 Turbo và các sáng tạo nguồn mở
Giảm phụ thuộc vào GPU Nvidia: Các chip AI mới từ Google, Intel và Meta
Cách mạng hóa việc tạo video với AI: Image-In 2, Google Vids và Magic Time
Thúc đẩy minh bạch: Dự luật đề xuất về việc công bố dữ liệu huấn luyện AI
Ôm ấp nghệ thuật được hỗ trợ bởi AI: Nhà phát triển trò chơi bài đầu tư 90.000 USD
Kết luận

Mới nhất về các mô hình ngôn ngữ lớn: Gemini 1.5, GPT-4 Turbo và các sáng tạo nguồn mở

Câu chuyện thực sự trong tuần này là tin tức xung quanh các mô hình ngôn ngữ lớn mới đang trở nên có sẵn hoặc sắp được phát hành.

Google đã thông báo rằng Gemini 1.5 hiện có sẵn ở hơn 180 quốc gia, với cửa sổ ngữ cảnh 1 triệu token - tương đương khoảng 750.000 từ. Cửa sổ ngữ cảnh mở rộng này là một cải tiến lớn so với các mô hình trước đây. Các nhà phát triển bây giờ có thể truy cập Gemini 1.5 thông qua API để xây dựng các ứng dụng.

Phản ứng lại, OpenAI đã thông báo một mô hình GPT-4 Turbo cải tiến hiện có sẵn thông qua API và đang được triển khai trong ChatGPT. Mặc dù chi tiết còn hạn chế, nhưng nó được cho là tốt hơn về lập trình và toán học so với các phiên bản trước đây.

Thế giới mã nguồn mở cũng đang nóng lên. Stability AI đã phát hành Stable LLM2, một mô hình 12 tỷ tham số. Trong khi đó, Anthropic âm thầm phát hành một mô hình Mixture of Experts 22 tỷ tham số mới, Mixr 8X 22B, dưới dạng tải về qua torrent.

Giảm phụ thuộc vào GPU Nvidia: Các chip AI mới từ Google, Intel và Meta

Ba công ty công nghệ lớn đang xây dựng các mô hình ngôn ngữ lớn đều đang cố gắng giảm sự phụ thuộc vào GPU của Nvidia. Nvidia hiện đang thống trị thị trường GPU được sử dụng trong việc đào tạo AI, nhưng Google, Intel và Meta đều đang giới thiệu các chip AI tùy chỉnh của riêng họ.

Google đã giới thiệu các bộ xử lý Axion của họ tại sự kiện Google Cloud Next. Intel đã giới thiệu chip AI Gaudi 3 của họ, mà họ cho rằng có hiệu suất tiết kiệm điện năng tốt hơn 40% so với GPU H100 của Nvidia. Meta đã thông báo chip gia tốc MTI (Meta Training and Inference) thế hệ thứ hai của họ, mà họ nói có hiệu suất cải thiện 3 lần so với thế hệ đầu tiên.

Meanwhile, tại sự kiện GTC của Nvidia sớm hơn trong năm nay, họ đã giới thiệu chip Nvidia Blackwell thế hệ tiếp theo của họ, được cho là mạnh hơn 4 lần so với các GPU H100 hiện tại. Điều này cho thấy Nvidia vẫn đang dẫn đầu về sức mạnh tính toán thô cho việc đào tạo AI.

Cách mạng hóa việc tạo video với AI: Image-In 2, Google Vids và Magic Time

Tại sự kiện Google Cloud Next, công ty công nghệ khổng lồ này đã giới thiệu một số công cụ tạo video được hỗ trợ bởi AI, những công cụ này sẽ biến đổi ngành công nghiệp.

Image-In 2: Câu trả lời của Google cho các công cụ như Dolly và Firefly, Image-In 2 có thể tạo ra không chỉ hình ảnh tĩnh mà còn cả GIF hoạt hình và đoạn video ngắn. Những khả năng chuyển văn bản thành hình ảnh động này cho phép người dùng tạo ra các hình ảnh động hấp dẫn một cách dễ dàng.

Google Vids: Được mô tả là một trình tạo video "giống PowerPoint", Google Vids sử dụng AI để tạo ra các video dựa trên slide từ các kịch bản hoặc lời nhắc. Các video kết quả mô phỏng thẩm mỹ của phần mềm trình bày chuyên nghiệp, làm cho nó trở thành một công cụ có giá trị để tạo nội dung video được điều khiển bởi AI một cách chuyên nghiệp.

Magic Time: Được phát triển bởi một nhóm nghiên cứu, Magic Time là một trình tạo video chuyên biệt tập trung vào việc tạo ra các đoạn video time-lapse chất lượng cao. Chỉ cần cung cấp một lời nhắc, người dùng có thể tạo ra các video time-lapse tuyệt đẹp của các cảnh như cây trồng hoặc các dự án xây dựng. Mã nguồn mở và demo Hugging Face khiến Magic Time trở nên dễ tiếp cận để thử nghiệm và tích hợp vào các quy trình video khác nhau.

Thúc đẩy minh bạch: Dự luật đề xuất về việc công bố dữ liệu huấn luyện AI

Theo bản ghi, một dự luật mới đã được giới thiệu tại Quốc hội Hoa Kỳ nhằm buộc các công ty trí tuệ nhân tạo phải tiết lộ tài liệu có bản quyền mà họ sử dụng để đào tạo các mô hình AI tạo ra nội dung. Các điểm chính là:

Dự luật sẽ yêu cầu các công ty AI nộp một báo cáo về tài liệu có bản quyền mà họ đã sử dụng để đào tạo các mô hình của họ, ít nhất 30 ngày trước khi phát hành mô hình AI.
Điều này được xem là một bước để tăng tính minh bạch, vì một số công ty công nghệ lớn như Google, Microsoft và Meta có thể không muốn tiết lộ dữ liệu mà họ đã sử dụng để đào tạo.
Có lo ngại rằng những công ty mạnh mẽ này có thể vận động chống lại dự luật để ngăn nó được thông qua.
Dự luật được đề xuất đến giữa sự chú ý ngày càng tăng về dữ liệu đào tạo được sử dụng bởi các mô hình ngôn ngữ lớn, với các báo cáo cho rằng OpenAI có thể đã sử dụng hơn một triệu giờ video YouTube để đào tạo GPT-4.

Ôm ấp nghệ thuật được hỗ trợ bởi AI: Nhà phát triển trò chơi bài đầu tư 90.000 USD

Một nhà phát triển trò chơi bài gần đây đã đầu tư đáng kể vào nghệ thuật do AI hỗ trợ, trả 90.000 USD cho một nghệ sĩ AI để tạo ra nghệ thuật thẻ bài. Mặc dù thuật ngữ "nghệ sĩ AI" có thể được tranh luận, cách tiếp cận này nổi bật tiềm năng của AI trong việc hỗ trợ các nghệ sĩ tạo ra nội dung chất lượng cao với quy mô lớn.

Nhà phát triển đã phát hiện rằng không có nghệ sĩ con người nào có thể khớp với chất lượng của các hình ảnh được tạo bởi AI. Tuy nhiên, quá trình này bao gồm nhiều hơn là chỉ nhấn một nút và để AI làm việc. Nhà phát triển sau đó đã chỉnh sửa và hoàn thiện các hình ảnh do AI tạo ra bằng Photoshop và các công cụ chỉnh sửa hình ảnh khác, đảm bảo màu sắc, tính nhất quán và phong cách tổng thể phù hợp với thẩm mỹ mong muốn.

Cách tiếp cận này cho thấy sức mạnh của nghệ thuật do AI hỗ trợ, nơi AI tạo ra khái niệm ban đầu và sau đó nghệ sĩ con người tinh chỉnh và hoàn thiện đầu ra để đạt được kết quả mong muốn. Bằng cách sử dụng AI, nhà phát triển đã có thể tạo ra một số lượng lớn các hình ảnh thẻ bài một cách hiệu quả, đồng thời vẫn duy trì được sự chạm tay nghệ thuật và kiểm soát chất lượng cần thiết cho dự án của họ.

Câu hỏi thường gặp

Gemini 1.5 là gì?

Gemini 1.5 có thể làm gì?

Phiên bản mới nhất của GPT-4 Turbo là gì?

Mixr 8X 22B là gì?

LLaMA 3 là gì?

Những chip AI mới nào đã được công bố trong tuần này?

Image In 2 là gì?

Google Vids là gì?

Magic Time là gì?

Humane AI Pin là gì?

The Next Wave là gì?