金磊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
“無所不能”的GPT-3,現在又來解放程序員們的雙手了。
像這樣,只需用簡單的英文問下GPT-3“上個月註冊了多少個用戶”。
GPT-3便會迅速作答,給出對應的SQL語句:
SELECT COUNT(*) FROM users
WHERE signup_time > now() - interval ‘1 month’
更神奇的是,GPT-3是在不知道“數據庫模式”的情況下,默認存在“users”這個表;以及在用戶註冊過程中,存在“signup_time”這樣的字段。
相當的智能了!
就連開發者本人都連連驚歎道:妙啊!
更復雜的SQL語句,GPT-3 hold得住嗎?
當然,剛才提到的提到的例子,只是非常簡單的提問。
那當GPT-3面對更加複雜的SQL查詢時,還能如此智能嗎?
為此,作者給它“投喂”了更多的上下文,以及與“數據庫模式”相關的信息:
輸入一個問題,GPT-3需要回答正確的PostgreSQL。
數據庫包含2個表,分別是“users”和“charges”。
“users”表包含的字段有:id (integer), signup_dt (timestamp), email (character varying)和 plan_type (character varying)。
“charges”表包含的字段有:amount (bigint), user_id (integer), 以及charge_dt (timestamp)。
OK,信息“投喂”完畢,現在來看下GPT-3的表現。
輸入:
how much revenue did we have in the past 7 days?
GPT-3:
SELECT SUM(amount) FROM charges WHERE chargedt > now() - interval ‘7 days’
不難看出,GPT-3正確地推斷出了”amount” = “revenue”,並且知道為了回答問題,要用SUM()來彙總過去7天的費用。
看來GPT-3已經掌握了基本的SQL語法。
但作者也表示,GPT-3有的時候喜歡自己“發明”一些字段,所以現在就用“例子引發”的方式,讓它變得更加智能。
先讓GPT-3做些簡單的例子實驗,例如讓它從“users”和“charges”2個表中,提取所有可用的字段。
基於這樣的引導之後,再向GPT-3提問:
what was the largest payment amount made in the past 30 days?
GPT-3回答道:
SELECT MAX(amount) FROM charges WHERE charge_dt > NOW() - INTERVAL ‘30 days’
這個小實驗的結果看著還是挺不錯的,但當作者加大難度後,問題還是出現了。
作者提出了更加複雜的問題:
when did user with email [email protected] make his last payment?
這次GPT-3的回答是:
SELECT MAX(charge_dt) FROM charges WHERE user_id = 1 AND email = ‘[email protected]’
很明顯,在“charges”表中,並沒有“email”這樣的字段,而是存在於“users”表中。
也就是說,對於SQL經常用到的聯合查詢,GPT-3還沒有get到。
讓GPT-3一步步學會“聯合查詢”
於是,作者還是通過“例子”的方式,一步一步讓它“學”會聯合查詢。
輸入:how many users signed up in the past 30 days?
GPT-3:
SELECT COUNT(*) FROM users WHERE signup_dt >= now() - interval ‘30 days’
輸入:when did user with email [email protected] sign up?
GPT-3:
SELECT signup_dt FROM users WHERE email = ‘[email protected]’
輸入:how much revenue did we have in the past 7 days?
GPT-3:
SELECT SUM(amount) from charges WHERE charge_dt >= now() - interval ‘7 days’
輸入:how much revenue did we have from 10-01-20 through 11-15-20?
GPT-3:
SELECT SUM(case when charge_dt>= ‘10-01-20’::date and charge_dt < ‘11-15-20’::date then amount else 0 end) as revenue
FROM charges
輸入:how much revenue have we had from users that signed up in the last 6 months?
GPT-3:
SELECT SUM(charges.amount) FROM users INNER JOIN
charges ON users.id = charges.user_id
WHERE users.signup_dt>= now() - interval ‘6 months’
輸入:when did user with email [email protected] make his first payment?
GPT-3:
SELECT MIN(charge_dt) as last_payment_dt from users INNER JOIN
charges ON users.id = charges.user_id
WHERE users.email = ‘[email protected]’
輸入:how many new users signed up in each of the last 2 months?
GPT-3:
SELECT sum(case when signup_dt>= now() - interval ‘1 month’ then 1 else 0 end) as signups_this_month,
sum(case when signup_dt>= now() - interval ‘2 months’ and signup_dt
FROM users
在經過這樣一番“學習”之後,回過頭來,再去問GPT-3剛剛出錯的問題:
how many payments has user with email [email protected] made?
這次它的回答是:
SELECT COUNT(*) FROM users INNER JOIN charges ON users.id = charges.user_id WHERE users.email = ‘[email protected]’
瞧瞧!GPT-3學會“內聯”了,很酷有木有!
當然,除了用“例子”的方式讓GPT-3變得更加聰明外,作者表示還可以通過調參的方式。
同時作者還強調了一點,他發現,起碼在“讓GPT-3寫SQL語句”這件事上,GPT-3 Instruct 要比泛化(generalized)的GPT-3引擎好用得多。
為什麼要搞這個項目?
這個項目的作者是一位分析師,目前就職於一家叫做SeekWell的公司。
他每天日常的工作,就是編寫大量的SQL語句,來回答與業務相關的問題。
這就讓他萌生了“自動化”的想法。
與此同時,他也注意網友們用大火的GPT-3,做了各種各樣有創意的項目。
例如自動生成HTML、CSS代碼等等,於是他便操刀開始訓練GPT-3生成SQL語句。
當然,效果也是讓他震驚不已,在博客中也是連連發出“Cool”的聲音。
……
最後,作者將這個項目的代碼在GitHub中開源了,感興趣的讀者可戳下方鏈接。
轉載請超鏈接註明:頭條資訊 » 解放程序員雙手!GPT-3自動生成SQL語句|代碼開源
免責聲明 :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。