致力於打造由人工智慧技術所帶來的自然搜尋服務,現已全面投入多模態(Multimodal)AI 技術的新創公司 Jina AI。近日釋出一個從根本上協助 AI 語言模型可以更輕鬆了解網頁內容。繼續閱讀加個網址就能讓 AI 輕鬆解析網頁,Jina AI 最新免費開源工具 Reader API 開放使用(試用心得教學)報導內文。
▲本篇圖片來源:Jina AI
神簡單!網址加前綴就能讓 AI 更精準解析網頁,Jina AI 最新免費開源工具 Reader API 開放使用(試用心得教學)
致力於打造由人工智慧技術所帶來的自然搜尋服務,現已全面投入多模態(Multimodal)AI 技術的新創公司 Jina AI。近日釋出一個從根本上協助 AI 語言模型可以更輕鬆了解網頁內容,讓 AI 在進行針對網址類似爬蟲行為的時候,可「透過從 URL 中提取核心內容並將其轉換為乾淨、LLM 友好的文字來解決這些問題,確保您的代理程式和 RAG 系統具有高品質輸入。」
根據 Jina AI 官方的說明,他們這次發表的免費開源 Reader API,會使用 Proxy 來取得任何 URL,在瀏覽器中呈現其內容以提取高品質的主要內容。
對於測試或使用這個 API 的使用者或開發者。基本上只要簡單的在想要解析的網址之前貼上「https://r.jina.ai/」這個網址,後面再貼上想要解析的網址,然後在一般的網頁瀏覽器中執行/前往便可看到由 Jina AI 的 Reader API 所解析出來的成果。
我們以電腦王阿達「SHARP 四氣流水潤溫控吹風機」的實測文章網址「https://www.kocpc.com.tw/archives/542403」來測試。基本上網址就是「https://r.jina.ai/」加上「https://www.kocpc.com.tw/archives/542403」,就可以得到「https://r.jina.ai/https://www.kocpc.com.tw/archives/542403」這個頁面的結果 – 有興趣的朋友,可以透過這個方法用在別的網頁測試。
Jina AI Reader API 基本上就跟很多「閱讀器」效果類似。只是相對於去除廣告讓「人」更好閱讀的一般閱讀器,它所讀出來的內容會分門別類以 Title、URL Source、Markdown Content 分別整理出的純文字頁面,就是希望能整理出讓各種 AI 都更好「閱讀」網頁裡的內容,以提供更精準的相關分析或是彙整等功能。
簡言之,就是這個 API 並不僅限於 Jina AI 所開發或認證的 LLM 語言模型。其免費開源的特性,是可以讓所有人/開發者都可以利用 Jina AI 的技術來讓 AI 得以更容易搞懂網頁的內容。
Jina AI Reader 使用教學
官方也有透過 Demo 的頁面,讓你可以實際測試 Reader API 應用在 LLM 模型解析網頁的效果 – 這個部分一般使用者如你我也可以善加利用。
從 Demo 頁面(傳送門),我們可以直接在「Enter your URL」貼入想解析的網址,後方便會自動產生「Reader URL」。接著按下表格之間的「FETCH CONTENT」按鈕,便會瞬間解析網頁內容成左右分別為程式碼與整理為 Markdown Content 的內容。(PS:如果遇到問題的話,可以嘗試切換為「Stream Mode」來讀取 – 但筆者目前還沒遇到什麼狀況就是了)
而你若是想要嘗試以生成式 AI 來解析總結網頁的相關資訊,便可直接在底下的「Pose a Question」進行針對大型語言模型的相關問題詢問。
以我們前面所貼的「SHARP 四氣流水潤溫控吹風機」的文章網址為例。當我們貼入 Google Gemini AI 總結的時候不知為何會失敗;貼入 Microsoft Copilot 進行總結的時候則是會顯示別的產品介紹的資訊,可說是相當奇怪 – 大概是跟網頁有自動讀取推薦次篇的功能有關?
然而透過 Jina AI 的 Reader API 則是很順利的就在「總結連結」後,取得以下的摘要,效果算是可圈可點:
「SHARP 四氣流水潤溫控吹風機是一款具有多項功能的吹風機,它採用了獨家的速乾方式「簾狀四氣流」技術,能夠提供更強勁的風力和更快的乾髮時間。此外,它還搭載了Plasmacluster自動除菌離子技術,能夠保護頭髮的水分和蛋白質,減少靜電和摩擦所帶來的傷害,並保護頭髮的色彩。此外,它還具有距離感測器和AI技術,能夠調整風溫,避免過熱損傷頭髮。這款吹風機還具有輕巧的機身和多種吹風模式,非常適合日常使用和旅行。」
根據 Jina AI 的說明,他們的這項「AI 網頁閱讀器」並不會提供翻譯的功能。因此你解析出來的外文網站顯然就會呈現全英文的狀態。像是以外媒 The Verge 的「Google’s Pixel 9 may get an Apple-like satellite SOS feature」新聞網頁為例,基本上就只會收到全英文的分析資訊,但其實只要將改為「以繁體中文總結連結」之類的指令即可對應這方面的使用情境(其實複製英文到 Gemini 或 Copilot 翻譯也很簡單就是了),以下則為簡單的摘要範例:
「據消息人士透露,Google可能會在Pixel 9和下一代Pixel Fold中加入類似於蘋果緊急求救功能的功能。消息人士稱,Google將與T-Mobile合作提供這一功能,但未來可能會與其他供應商合作。與蘋果的系統類似,Google的SOS功能將要求用戶回答一系列問題,以確定發生了什麼情況…」
結語
整體來說,Jina AI 的 Reader API 雖然主要瞄準的是讓其他開發者,能運用這項工具來從源頭改善大型語言模型解讀網頁的效果。不過這個 Demo 頁面個人覺得也十分適合拿來應付一些會造成 AI 舉雙手投降無法讀取,又或者是會讀出錯誤資料的網頁。
雖然感覺上這樣的「閱讀」能耐應該早已深化到了 Jina AI 的模型之中 – 這個 API 某種程度也算他們的火力展示?因此顯然最簡單的方法就,是使用他們的服務就能時時獲得這樣的網頁解析能力。
不過說真的其他 AI 會碰到問題的網頁也不是這麼的多,再加上普遍的 AI 也依然在不斷進步(搞不好也直接就引入了這個 API)。所以個人會推薦當你在其他生成式 AI 服務解析網頁時遇到狀況,再拿來這裡處理倒也不失為一個臨時的解決方案。可以將 https://jina.ai/reader/#demo 頁面存下來以備不時之需。
引用來源|