頭條資訊 - 為您提供最新最全的新聞資訊,每日實時更新

解放程序員雙手!GPT-3自動生成SQL語句|代碼開源

科技數碼 量子位

金磊 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

“無所不能”的GPT-3,現在又來解放程序員們的雙手了。

像這樣,只需用簡單的英文問下GPT-3“上個月註冊了多少個用戶”。

GPT-3便會迅速作答,給出對應的SQL語句:

SELECT COUNT(*) FROM users

WHERE signup_time > now() - interval ‘1 month’

解放程序員雙手!GPT-3自動生成SQL語句|代碼開源

更神奇的是,GPT-3是在不知道“數據庫模式”的情況下,默認存在“users”這個表;以及在用戶註冊過程中,存在“signup_time”這樣的字段。

相當的智能了!

就連開發者本人都連連驚歎道:妙啊!

更復雜的SQL語句,GPT-3 hold得住嗎?

當然,剛才提到的提到的例子,只是非常簡單的提問。

那當GPT-3面對更加複雜的SQL查詢時,還能如此智能嗎?

為此,作者給它“投喂”了更多的上下文,以及與“數據庫模式”相關的信息:

輸入一個問題,GPT-3需要回答正確的PostgreSQL。

數據庫包含2個表,分別是“users”和“charges”。

“users”表包含的字段有:id (integer), signup_dt (timestamp), email (character varying)和 plan_type (character varying)。

“charges”表包含的字段有:amount (bigint), user_id (integer), 以及charge_dt (timestamp)。

OK,信息“投喂”完畢,現在來看下GPT-3的表現。

輸入:

how much revenue did we have in the past 7 days?

GPT-3:

SELECT SUM(amount) FROM charges WHERE chargedt > now() - interval ‘7 days’

解放程序員雙手!GPT-3自動生成SQL語句|代碼開源

不難看出,GPT-3正確地推斷出了”amount” = “revenue”,並且知道為了回答問題,要用SUM()來彙總過去7天的費用。

看來GPT-3已經掌握了基本的SQL語法。

但作者也表示,GPT-3有的時候喜歡自己“發明”一些字段,所以現在就用“例子引發”的方式,讓它變得更加智能。

先讓GPT-3做些簡單的例子實驗,例如讓它從“users”和“charges”2個表中,提取所有可用的字段。

基於這樣的引導之後,再向GPT-3提問:

what was the largest payment amount made in the past 30 days?

GPT-3回答道:

SELECT MAX(amount) FROM charges WHERE charge_dt > NOW() - INTERVAL ‘30 days’

這個小實驗的結果看著還是挺不錯的,但當作者加大難度後,問題還是出現了。

作者提出了更加複雜的問題:

when did user with email [email protected] make his last payment?

這次GPT-3的回答是:

SELECT MAX(charge_dt) FROM charges WHERE user_id = 1 AND email = ‘[email protected]

很明顯,在“charges”表中,並沒有“email”這樣的字段,而是存在於“users”表中。

也就是說,對於SQL經常用到的聯合查詢,GPT-3還沒有get到。

讓GPT-3一步步學會“聯合查詢”

於是,作者還是通過“例子”的方式,一步一步讓它“學”會聯合查詢。

輸入:how many users signed up in the past 30 days?

GPT-3:

SELECT COUNT(*) FROM users WHERE signup_dt >= now() - interval ‘30 days’

輸入:when did user with email [email protected] sign up?

GPT-3:

SELECT signup_dt FROM users WHERE email = ‘[email protected]

輸入:how much revenue did we have in the past 7 days?

GPT-3:

SELECT SUM(amount) from charges WHERE charge_dt >= now() - interval ‘7 days’

輸入:how much revenue did we have from 10-01-20 through 11-15-20?

GPT-3:

SELECT SUM(case when charge_dt>= ‘10-01-20’::date and charge_dt < ‘11-15-20’::date then amount else 0 end) as revenue

FROM charges

輸入:how much revenue have we had from users that signed up in the last 6 months?

GPT-3:

SELECT SUM(charges.amount) FROM users INNER JOIN

charges ON users.id = charges.user_id

WHERE users.signup_dt>= now() - interval ‘6 months’

輸入:when did user with email [email protected] make his first payment?

GPT-3:

SELECT MIN(charge_dt) as last_payment_dt from users INNER JOIN

charges ON users.id = charges.user_id

WHERE users.email = ‘[email protected]

輸入:how many new users signed up in each of the last 2 months?

GPT-3:

SELECT sum(case when signup_dt>= now() - interval ‘1 month’ then 1 else 0 end) as signups_this_month,

sum(case when signup_dt>= now() - interval ‘2 months’ and signup_dt

FROM users

在經過這樣一番“學習”之後,回過頭來,再去問GPT-3剛剛出錯的問題:

how many payments has user with email [email protected] made?

這次它的回答是:

SELECT COUNT(*) FROM users INNER JOIN charges ON users.id = charges.user_id WHERE users.email = ‘[email protected]

瞧瞧!GPT-3學會“內聯”了,很酷有木有!

當然,除了用“例子”的方式讓GPT-3變得更加聰明外,作者表示還可以通過調參的方式。

同時作者還強調了一點,他發現,起碼在“讓GPT-3寫SQL語句”這件事上,GPT-3 Instruct 要比泛化(generalized)的GPT-3引擎好用得多。

為什麼要搞這個項目?

這個項目的作者是一位分析師,目前就職於一家叫做SeekWell的公司。

他每天日常的工作,就是編寫大量的SQL語句,來回答與業務相關的問題。

解放程序員雙手!GPT-3自動生成SQL語句|代碼開源

這就讓他萌生了“自動化”的想法。

與此同時,他也注意網友們用大火的GPT-3,做了各種各樣有創意的項目。

例如自動生成HTML、CSS代碼等等,於是他便操刀開始訓練GPT-3生成SQL語句。

當然,效果也是讓他震驚不已,在博客中也是連連發出“Cool”的聲音。

……

最後,作者將這個項目的代碼在GitHub中開源了,感興趣的讀者可戳下方鏈接。

轉載請超鏈接註明:頭條資訊 » 解放程序員雙手!GPT-3自動生成SQL語句|代碼開源
免責聲明
    :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。
加載中...