پرش به محتوا

ترنسفورمر تولیدگر از پیش آموزش‌دیده

از ویکی‌پدیا، دانشنامهٔ آزاد
معماری مدل اصلی جی‌پی‌تی ۱

ترنسفورمر تولیدگر از پیش آموزش‌دیده[الف] (به انگلیسی: Generative pre-trained transformers) یا به اختصار جی‌پی‌تی (به انگلیسی: GPT) نوعی مدل زبانی بزرگ (LLM)[۵][۶][۷] و یک چارچوب مشهور برای هوش مصنوعی تولیدگر است.[۸][۹] اولین جی‌پی‌تی در سال ۲۰۱۸ توسط شرکت آمریکایی اوپن‌ای‌آی معرفی شد.[۱۰][۱۱] مدل‌های جی‌پی‌تی شبکه‌های عصبی مصنوعی مبتنی بر معماری ترنسفورمرها هستند که از قبل، بر روی مجموعه ای از داده‌های حجیم از متون بدون برچسب، آموزش دیده‌اند و قادر به تولید محتوای جدید شبه انسانی هستند.[۶][۷] از سال ۲۰۲۳، اکثر مدل‌های زبانی بزرگ این ویژگی‌ها را دارند[۱۲] و گاهی به‌طور گسترده به عنوان جی‌پی‌تی شناخته می‌شوند.[۱۳][۱۴]

اوپن‌ای‌آی مدل‌های تأثیرگذاری از خانواده جی‌پی‌تی منتشر کرده که به ترتیب شماره گذاری شده‌اند تا سری GPT-n خود را تشکیل دهند.[۱۵] به دلیل افزایش اندازه (تعداد پارامترهای قابل آموزش) و تعلیم بیشتر، هر یک از مدل‌ها به‌طور قابل توجهی از قبلی توانایی بیشتری به دست آوردند. جدیدترین خانواده سری جی‌پی‌تی به نام جی‌پی‌تی-۴ در مارس ۲۰۲۳ منتشر شد. بات مکالمه چت‌جی‌پی‌تی نمونه ای از این مدل زبانی است که مورد توجه زیاد رسانه‌ها و جهان قرار گرفت.[۱۶][۱۷][۱۸]

همچنین اصطلاح «جی‌پی‌تی» در نام‌ها و توضیحات چنین مدل‌هایی که توسط دیگران ساخته شده استفاده می‌شود.[۱۹][۲۰] به‌طور مثال شرکت‌ها در صنایع مختلف جی‌پی‌تی‌های اختصاصی خود را توسعه داده‌اند مانند بلومبرگ‌جی‌پی‌تی برای سرمایه‌گذاری.[۲۱][۲۲]

تاریخچه

[ویرایش]

تولیدگر از پیش آموزش دیده (به انگلیسی: Generative pretraining) یک مفهوم قدیمی در زمینه علوم یادگیری ماشینی بود[۲۳][۲۴] در سال ۲۰۱۷ معماری ترنسفورمرها توسط گوگل اختراع شد.[۲۵] که منجر به ظهور مدل‌های زبان بزرگ مانند BERT در سال ۲۰۱۸[۲۶] و XLNet در سال ۲۰۱۹ شد،[۲۷] این مدل‌های زبانی فقط ترنسفورمرهای از پیش آموزش‌دیده (به انگلیسی: pretrained transformers) بودند که قابلیت زایش و تولید متن را نداشتند و صرفاً رمزگذار بودند.[۲۸] در حوالی سال ۲۰۱۸، اوپن‌ای‌آی مقاله ای تحت عنوان «بهبود درک زبان توسط تولیدگر از پیش آموزش‌دیده» منتشر کرد که نخستین سیستم ترنسفورمر تولیدگر از پیش آموزش‌دیده (GPT) را معرفی کرد.[۲۹][۳۰]

قبل از معماری‌های مبتنی بر ترنسفورمرها، مدل‌های NLP عصبی (پردازش زبان‌های طبیعی) وجود داشتند که از طریق مقادیر زیادی از داده‌های برچسب‌گذاری شده نظارت شده آموزش می‌دیدند. اتکا به یادگیری نظارت شده، استفاده از آن مدل‌ها را در مجموعه داده‌هایی که به خوبی حاشیه نویسی نشده بودند، محدود می‌کرد، همچنین آموزش مدل‌های زبانی بسیار بزرگ بسیار پرهزینه و وقت گیر می‌شد.[۳۱]

رویکرد نظارت ضعیف اوپن‌ای‌آی برای ایجاد یک سیستم تولیدی در مقیاس بزرگ (که برای اولین بار با یک مدل ترنسفورمر انجام می‌شد) - شامل دو مرحله بود: یک مرحله «یادگیری خودران» بدون نظارت جهت تنظیم پارامترهای اولیه و یک مرحله نظارت شده «تنظیم دقیق» جهت تطبیق این پارامترها.[۳۱][۳۲]

مدل‌های پایه

[ویرایش]

مدل پایه مدل هوش مصنوعی مدلی است که بر روی داده‌های زیادی آموزش داده شده و می‌تواند با طیف گسترده‌ای از وظایف سازگار شود.[۳۳] تاکنون، قابل توجه‌ترین مدل پایه جی‌پی‌تی از سری GPT-n شرکت اوپن‌ای‌آی بوده‌است. جدیدترین مورد از آن جی‌پی‌تی-۴ است که اوپن‌ای‌آی از انتشار اندازه یا جزئیات آموزشی آن خودداری کرد.[۳۴]

سری GPT-n شرکت اوپن‌ای‌آی
مدل معماری شمارش پارامتر داده‌های آموزش یافته تاریخ انتشار هزینه
جی‌پی‌تی ۱ دیکودر ترنسفورمر ۱۲ سطحی، ۱۲ سر (بدون رمزگذار) ۱۱۷ میلیون ۴٫۵ گیگابایت متن، از ۷۰۰۰ کتاب منتشر نشده در ژانرهای مختلف.[۳۵] ۰۲۰۱۸−۰۶−۱۱ ۱۱ ژوئن ۲۰۱۸[۱۱] ۱ ماه بر روی ۸ پردازنده گرافیکی",[۱۱] یا 1.7e19 فلاپ.[۳۶]
جی‌پی‌تی ۲ جی‌پی‌تی-۱، اما با نرمال سازی اصلاح شده ۱٫۵ میلیارد وب تکست: ۴۰ گیگابایت متن، ۸ میلیون سند، از ۴۵ میلیون صفحه وب که در ردیت رأی بالایی داشته‌اند. ۰۲۰۱۹−۰۲−۱۴ ۱۴ فوریه ۲۰۱۹ (نسخه اولیه/محدود) و ۰۲۰۱۹−۱۱−۰۵ ۵ نوامبر ۲۰۱۹ (نسخه کامل)[۳۷] "ده‌ها پتافلاپ در روز",[۳۸] یا 1.5e21 فلاپ.[۳۶]
جی‌پی‌تی ۳ جی‌پی‌تی-۲ اما با تغییراتی برای تبدیل شدن به مقیاس بزرگتر ۱۷۵ میلیارد ۴۹۹ میلیارد توکن (۵۷۰ گیگابایت)، وب تکست، ویکی‌پدیای انگلیسی و دو مجموعه کتاب ۰۲۰۲۰−۰۵−۲۸ ۲۸ مه ۲۰۲۰[۳۸] ۳۶۳۰ پتافلاپ در ثانیه,[۳۸] یا 3.1e23 فلاپ.[۳۶]
جی‌پی‌تی ۳٫۵ عمومی نشده ۱۷۵ میلیارد عمومی نشده ۱۵ مارس ۲۰۲۲ عمومی نشده
جی‌پی‌تی ۴ قابلیت پیش بینی کننده متن و تقویت یادگیری از بازخورد انسانی را شامل شده که هم متن و هم عکس را به عنوان ورودی می‌پذیرد. جزئیات بیشتر عمومی نشده.[۳۴] عمومی نشده عمومی نشده ۰۲۰۲۳−۰۳−۱۴ ۱۴ مارس ۲۰۲۳ عمومی نشده ولی 2.1e25 فلاپ تخمین زده شده.[۳۶]

مدل‌های دیگری از این دست عبارتند از مدل زبانی مسیرها شرکت گوگل [۳۹][۴۰] و هوش مصنوعی متا که دارای یک مدل زبان بزرگ پایه مبتنی بر ترنسفورمر مولد است که تحت عنوان LLaMA شناخته می‌شود.[۴۱][۴۲]

همچنین برخی جی‌پی‌تی‌ها می‌توانند از روش‌هایی غیر از متن ورودی/خروجی استفاده کنند. جی‌پی‌تی-۴ قادر به پردازش متن و ورودی تصویر است (اگرچه خروجی آن محدود به متن است).[۴۳][۴۴]

یادداشت

[ویرایش]
  1. در برخی منابع «ترنسفورمر از پیش آموزش‌دیده مولد»[۱] یا «ترنسفورمر از پیش تعلیم‌یافته زایا»[۲] یا «مولد ازپیش‌آموزش‌یافته ترنسفورمر»[۳] یا «مبدل تولیدگر از پیش تعلیم‌دیده»[۴] نیز ترجمه شده‌است.

منابع

[ویرایش]
  1. «OpenAI در ثبت علامت تجاری GPT ناکام ماند». دیجیاتو. دریافت‌شده در ۲۰۲۴-۱۰-۲۱.
  2. «شرکت OpenAI برای مقابله با نمونه‌های رقیب می‌خواهد نشان تجاری GPT را ثبت کند». دیجیاتو. دریافت‌شده در ۲۰۲۳-۰۶-۰۹.
  3. «OpenAI؛‌ شرکت مرموزی که می‌خواهد زودتر از همه به هوش مصنوعی انسان‌گونه برسد». زومیت. ۲۰۲۳-۰۲-۲۶. دریافت‌شده در ۲۰۲۳-۰۶-۰۹.
  4. جنانی، افشین (۲۰۲۳-۰۱-۳۰). «ChatGPT چیست و چه اثری بر دیجیتال مارکتینگ و تولید محتوا دارد؟». دریافت‌شده در ۲۰۲۳-۰۶-۰۹.
  5. Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.
  6. ۶٫۰ ۶٫۱ "Generative AI: a game-changer society needs to be ready for". World Economic Forum.
  7. ۷٫۰ ۷٫۱ "The A to Z of Artificial Intelligence". Time. April 13, 2023.
  8. Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium.
  9. "CSDL | IEEE Computer Society". www.computer.org.
  10. Solaiman, Irene; Brundage, Miles; Clark, Jack; Askell, Amanda; Herbert-Voss, Ariel; Wu, Jeff; Radford, Alec; Krueger, Gretchen; Kim, Jong Wook; Kreps, Sarah; McCain, Miles; Newhouse, Alex; Blazakis, Jason; McGuffie, Kris; Wang, Jasmine (2019-11-12). "Release Strategies and the Social Impacts of Language Models". arXiv:1908.09203 [cs.CL].
  11. ۱۱٫۰ ۱۱٫۱ ۱۱٫۲ "Improving language understanding with unsupervised learning". openai.com (به انگلیسی). Archived from the original on 2023-03-18. Retrieved 2023-03-18.
  12. Toews, Rob. "The Next Generation Of Large Language Models". Forbes.
  13. Mckendrick, Joe (March 13, 2023). "Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests". Forbes.
  14. "GPT-2: 1.5B release". openai.com (به انگلیسی). Retrieved 2023-05-01.
  15. "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". MUO. April 11, 2023.
  16. gpt-2, OpenAI, 2023-05-01, retrieved 2023-05-01
  17. "WebGPT: Improving the factual accuracy of language models through web browsing". openai.com (به انگلیسی). Archived from the original on 21 Jun 2023. Retrieved 2023-07-02.
  18. Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (2021-12-01). "WebGPT: Browser-assisted question-answering with human feedback". CoRR. arXiv:2112.09332.
  19. Alford, Anthony (July 13, 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ.
  20. "News" (Press release).
  21. Morrison, Ryan (7 March 2023). "Salesforce launches EinsteinGPT built with OpenAI technology". Tech Monitor.
  22. "The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech". Forbes.
  23. Hinton (et-al), Geoffrey (October 15, 2012). "Deep neural networks for acoustic modeling in speech recognition" (PDF). IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
  24. "A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core". Cambridge.org. 2014-01-22. doi:10.1017/atsip.2013.9. S2CID 9928823. Retrieved 2023-05-21. {{cite journal}}: Cite journal requires |journal= (help)
  25. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (December 5, 2017). "Attention Is All You Need". arXiv:1706.03762. {{cite journal}}: Cite journal requires |journal= (help)
  26. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (May 24, 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2. {{cite journal}}: Cite journal requires |journal= (help)
  27. Yang (et-al), Zhilin (2019). "XLNet" (PDF). Proceedings from NeurIPS 2019.
  28. Naik, Amit Raja (September 23, 2021). "Google Introduces New Architecture To Reduce Cost Of Transformers". Analytics India Magazine.
  29. OpenAI (2023-03-27). "GPT-4 Technical Report". arXiv:2303.08774 [cs.CL].
  30. Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023-04-13). "Sparks of Artificial General Intelligence: Early experiments with GPT-4". arXiv:2303.12712 [cs.CL].
  31. ۳۱٫۰ ۳۱٫۱ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. Archived (PDF) from the original on 26 January 2021. Retrieved 23 January 2021.
  32. "GPT-4". openai.com (به انگلیسی). Retrieved 2023-05-01.
  33. "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI.
  34. ۳۴٫۰ ۳۴٫۱ OpenAI (2023). "GPT-4 Technical Report" (PDF). Archived (PDF) from the original on 2023-03-14. Retrieved 2023-03-16.
  35. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. Archived from the original on 2023-02-05. Retrieved 2023-02-07.
  36. ۳۶٫۰ ۳۶٫۱ ۳۶٫۲ ۳۶٫۳ "ML input trends visualization". Epoch (به انگلیسی). Retrieved 2023-05-02.
  37. Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge.
  38. ۳۸٫۰ ۳۸٫۱ ۳۸٫۲ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165v4. {{cite journal}}: Cite journal requires |journal= (help)
  39. Vincent, James (March 14, 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge.
  40. "Google Opens Access to PaLM Language Model".
  41. هوش مصنوعی متا. «شماره مجازی چت جی پی تی». دریافت‌شده در ۲۰۲۴-۰۵-۰۵.
  42. "Meta Debuts AI Language Model, But It's Only for Researchers". PCMAG.
  43. Islam, Arham (March 27, 2023). "Multimodal Language Models: The Future of Artificial Intelligence (AI)". Archived from the original on 15 May 2023. Retrieved 9 June 2023.
  44. GPT-4 System Card, OpenAI, March 23 2023 (Accessed May 22 2023).