Implement WebVoyager with Java and OpenAI vision model

Dựa vào thuật toán ML WebVoyager như browser-use mình thử implement bằng Java dựa theo repo https://github.com/MinorJerry/WebVoyager/tree/mainarrow-up-right

Dưới đây là các bước:

Step 1: Tạo các hình chữ nhật (rectangle) để labeling các đối tượng trên 1 trang để giúp AI model có thể thêm context.

Step 2: đọc html page rồi generate các đối tượng với tagName, Text, attributes, aria-label, việc này giúp bổ sung context cho LLM model

Code snippet:

Step 3: tạo một method call LLM với image

Step 4: code demo

System Prompt

Và đây là kết quả

Last updated