diff --git a/upload2huggingface_hub.ipynb b/upload2huggingface_hub.ipynb index 1abf97c90..d2c9f3384 100644 --- a/upload2huggingface_hub.ipynb +++ b/upload2huggingface_hub.ipynb @@ -7,22 +7,21 @@ "metadata": { "tags": [] }, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "/home/wannaphong/.local/lib/python3.10/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n", - " from .autonotebook import tqdm as notebook_tqdm\n" - ] - } - ], + "outputs": [], "source": [ - "import os\n", "import glob\n", + "import os\n", "import pandas as pd\n", "import re\n", - "from tqdm.auto import tqdm" + "from unicodedata import normalize\n", + "from tqdm.auto import tqdm\n", + "import re\n", + "# as per recommendation from @freylis, compile once only\n", + "CLEANR = re.compile('<.*?>') \n", + "\n", + "def cleanhtml(raw_html):\n", + " cleantext = re.sub(CLEANR, '', raw_html)\n", + " return cleantext" ] }, { @@ -48,7 +47,7 @@ { "data": { "text/plain": [ - "30380" + "44680" ] }, "execution_count": 3, @@ -88,6 +87,8 @@ " text[\"url\"] = line.strip().split(\" \")[-1]\n", " else:\n", " text[\"context\"] +=line.strip().replace(\"\\xa0\",\"\")+\"\\n\"\n", + " text[\"context\"]=cleanhtml(normalize('NFKD', text[\"context\"])).strip()\n", + " text[\"raw\"]=text[\"title\"]+\"\\n\"+text[\"context\"]\n", " return text" ] }, @@ -103,7 +104,7 @@ "name": "stdout", "output_type": "stream", "text": [ - "{'title': 'รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-นายกรัฐมนตรี ยกสถานการณ์โควิด-19 ที่ผ่านมาเป็นบทเรียน พร้อมวิเคราะห์ เรียนรู้ต่อเนื่อง เพื่อรับมือกับสถานการณ์ในปัจจุบัน', 'context': 'วันเสาร์ที่ 6 กุมภาพันธ์ 2564\\nนายกรัฐมนตรี ยกสถานการณ์โควิด-19 ที่ผ่านมาเป็นบทเรียน พร้อมวิเคราะห์ เรียนรู้ต่อเนื่อง เพื่อรับมือกับสถานการณ์ในปัจจุบัน\\nนายกรัฐมนตรี ยกสถานการณ์โควิด-19 ที่ผ่านมาเป็นบทเรียน พร้อมวิเคราะห์ เรียนรู้ต่อเนื่อง เพื่อรับมือกับสถานการณ์ในปัจจุบัน\\nวันนี้ (6 กุมภาพันธ์ 2564) เวลา 8.30 น. พลเอก ประยุทธ์ จันทร์โอชา นายกรัฐมนตรีและรัฐมนตรีว่าการกระทรวงกลาโหม พูดคุยถึงการบริหารจัดการกับการระบาดใหม่ของโควิด-19 ในประเทศ ผ่าน PM PODCAST สรุปประเด็นดังนี้\\nนายกรัฐมนตรีกล่าวถึงการระบาดโควิด-19 ในประเทศครั้งนี้ ไม่ได้เชื่อมโยงกับการระบาดในรอบแรก ที่ไทยสามารถควบคุมการแพร่ระบาดของโควิด-19 ได้ภายในสองเดือน การระบาดในรอบปัจจุบันส่งผลกระทบต่อระบบเศรษฐกิจอย่างต่อเนื่อง จึงต้องนำสถานการณ์ที่ผ่านมาเป็นบทเรียน วิเคราะห์ ประมวลสถานการณ์อย่างต่อเนื่อง ทำให้เกิดการเรียนรู้ เชื่อมั่น สามารถรับมือกับสถานการณ์ดังกล่าวได้มากขึ้น รวมทั้งใช้มาตรการต่างๆ ที่สอดคล้องกับสถานการณ์ โดยตั้งอยู่บนหลักวิชาการและบริบทของประเทศไทย เช่น การปิดสถานประกอบการที่ต้องคำนึงถึงตัวเลขสถิติเพื่อออกมาตรการที่เหมาะสม ปัจจุบันรัฐบาลสามารถเลี่ยงการล็อคดาวน์ เปลี่ยนเป็นการแบ่งพื้นที่และกำหนดมาตรการควบคุมให้เหมาะสมกับความเสี่ยงของพื้นที่ในแต่ละระดับ ลดผลกระทบต่อการใช้ชีวิตประจำวันของประชาชน และลดผลกระทบเศรษฐกิจของประเทศในภาพรวมได้มากที่สุด\\nนายกรัฐมนตรีเผยช่วงแรกของการระบาดครั้งนี้ หนักหน่วงกว่าที่ผ่านมา เพราะเกิดการระบาดในกลุ่มแรงงานต่างด้าว บ่อนการพนัน ซึ่งระดมสรรพกำลังติดตามสอบสวนโรคทุกราย เพิ่มการตรวจเชิงรุกในพื้นที่โรงงาน ชุมชน โดยใช้มาตรการ Bubble and Seal ไม่ให้มีการระบาดออกนอกพื้นที่ ไม่ต้องปิดโรงงาน และเศรษฐกิจก็ยังสามารถดำเนินต่อไป เมื่อสถานการณ์คลี่คลายลงรัฐบาลจะผ่อนคลายมาตรการควบคุมให้สอดคล้องกับความเป็นจริง พร้อมทั้งกำชับหน่วยงานความมั่นคงให้เฝ้าระวังพื้นที่แนวชายแดน ป้องกันการลักลอบเข้าเมืองอย่างเข้มงวด\\nนายกรัฐมนตรียังกล่าวถึงการทำงานของหน่วยงานต่างๆ เช่น กระทรวงมหาดไทยได้สร้างกลไกเสริมเชื่อมโยงกับ ศบค. ระดับประเทศ ระดับตำบล บูรณาการร่วมกับกับหน่วยงานสาธารณสุขเพื่อสร้างโครงข่ายเฝ้าระวังทั่วประเทศ ขณะที่กระทรวงกลาโหมและตำรวจ จัดชุดตรวจดูแลสถานประกอบการที่มีความเสี่ยงต่อการแพร่ระบาดให้ดำเนินตามมาตรการป้องกันโรคตามที่ ศบค. กำหนด โดยเฉพาะการเร่งติดตามกลุ่มบุคคลมั่วสุมทำผิดกฎหมาย ที่มีความเสี่ยงต่อการแพร่ระบาด พร้อมทั้งดำเนินการตามกฎหมายอย่างเด็ดขาด สำหรับการทำงานในส่วนของ ศบค. คือการตรวจเชิงรุกควบคู่กับการจัดตั้งโรงพยาบาลสนาม ติดตามสอบสวนผู้ที่มีความเสี่ยง\\nนายกรัฐมนตรียังย้ำในช่วงท้ายถึงความสำคัญของโรงพยาบาลสนามว่า เป็นทางออกหนึ่งที่สร้างความเชื่อมั่น ช่วยเพิ่มประสิทธิภาพการทำงานของหมอ พยาบาล ในการดูแลทั้งผู้ป่วยนอก ผู้ป่วยใน ผู้ป่วยโควิด ให้ได้รับการดูแลอย่างเหมาะสม รวมทั้งจัดพื้นเหมาะสมให้กับผู้ติดเชื้อ ป้องกันการแพร่เชื้อไปสู่ชุมชน ซึ่งการจัดตั้งโรงพยาบาลสนามต้องเป็นไปตามมาตรฐานที่กำหนดไว้แล้วเพื่อให้ความสำคัญกับความปลอดภัยเป็นอันดับแรกภายใต้การทำงานร่วมกันของกระทรวงสาธารณสุข\\n………………………………..\\nกลุ่มประชาสัมพันธ์และเผยแพร่ สำนักโฆษก\\nYour browser does not support the video tag.\\n', 'url': 'https://www.thaigov.go.th/news/contents/details/38926'}\n" + "{'title': 'รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รมช.มนัญญา ประชุมตรวจติดตามการดำเนินงานขับเคลื่อนไทยไปด้วยกันจังหวัดอุทัยธานี เพื่อพัฒนาและแก้ไขปัญหาระดับจังหวัด สามารถขับเคลื่อนไปได้โดยเร็ว', 'context': 'วันพฤหัสบดีที่ 24 ธันวาคม 2563\\nรมช.มนัญญา ประชุมตรวจติดตามการดําเนินงานขับเคลื่อนไทยไปด้วยกันจังหวัดอุทัยธานี เพื่อพัฒนาและแก้ไขปัญหาระดับจังหวัด สามารถขับเคลื่อนไปได้โดยเร็ว\\nรมช.มนัญญา ประชุมตรวจติดตามการดําเนินงานขับเคลื่อนไทยไปด้วยกันจังหวัดอุทัยธานี เพื่อพัฒนาและแก้ไขปัญหาระดับจังหวัด สามารถขับเคลื่อนไปได้โดยเร็ว\\nนางสาวมนัญญา ไทยเศรษฐ์ รัฐมนตรีช่วยว่าการกระทรวงเกษตรและสหกรณ์ เป็นประธานการประชุมตรวจติดตามการดําเนินงานขับเคลื่อนไทยไปด้วยกันระดับพื้นที่จังหวัด (จังหวัดอุทัยธานี) ณ ห้องประชุมสะแกกรัง ศาลากลางจังหวัดอุทัยธานี พร้อมรับฟังสรุปปัญหาในแต่ละด้านที่สําคัญ โดยจังหวัดอุทัยธานีให้ความสําคัญกับแนวทางการขับเคลื่อนไทยไปด้วยกัน ให้เป็นวาระและภารกิจสําคัญของจังหวัด เพื่อพัฒนาและแก้ไขปัญหาระดับจังหวัดสามารถขับเคลื่อนไปได้โดยเร็ว ลดปัญหาและอุปสรรค รวมทั้งใช้ทรัพยากรต่างๆ ได้อย่างมีประสิทธิภาพ ทั้งนี้ ได้มอบนโยบายแนวทางการดําเนินงาน ให้ทุกหน่วยงานบูรณาการร่วมกัน โดยเฉพาะเรื่องการบริหารจัดการน้ําให้เกษตรกรสามารถทําการเกษตรได้ และประชาชนมีน้ําอุปโภคบริโภคเพียงพอ พร้อมส่งเสริมสนับสนุนให้ชาวจังหวัดอุทัยธานีประกอบอาชีพปลูกหม่อนเลี้ยงไหม เนื่องจากผ้าไหมจังหวัดอุทัยธานีเป็นที่ต้องการของตลาด โดยมีหัวหน้าส่วนราชการจังหวัดอุทัยธานี และเจ้าหน้าที่ที่เกี่ยวข้อง เข้าร่วมการประชุม\\nรมช.มนัญญา กล่าวว่า เป็นนโยบายของนายกรัฐมนตรี พลเอกประยุทธ์ จันทร์โอชา ได้ให้ความสําคัญกับการแก้ไขปัญหาความเดือดร้อนของประชาชน การยกระดับคุณภาพชีวิตความเป็นอยู่ของประชาชน และการเสริมสร้างศักยภาพในการพัฒนาประเทศ สืบเนื่องจากสถานการณ์การแพร่ระบาดของโรคติดเชื้อไวรัสโคโรนาสายพันธุ์ใหม่ (COVID-19) เมื่อปลายปี 2560 จนถึงปัจจุบัน ส่งผลกระทบอย่างมากต่อการดําเนินชีวิตของประชาชน เศรษฐกิจ และสังคมของประเทศ จึงเห็นควรให้มีการดําเนินงานติดตาม เร่งรัด ช่วยเหลือ เยียวยา และขับเคลื่อนการแก้ไขปัญหาดังกล่าวในระดับพื้นที่ โดยเริ่มจากปัญหาที่เป็นความเดือดร้อนเร่งด่วน เพื่อให้เกิดผลสัมฤทธิ์อย่างเป็นรูปธรรมและรวดเร็วทันเหตุการณ์ ด้วยการบูรณาการการทํางานร่วมกันของทุกภาคส่วนในพื้นที่แต่ละจังหวัดอย่างเป็นระบบตามหลักปรัชญาเศรษฐกิจพอเพียง และการดําเนินชีวิตวิถีใหม่ (New Normal)', 'url': 'https://www.thaigov.go.th/news/contents/details/37878', 'raw': 'รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รมช.มนัญญา ประชุมตรวจติดตามการดำเนินงานขับเคลื่อนไทยไปด้วยกันจังหวัดอุทัยธานี เพื่อพัฒนาและแก้ไขปัญหาระดับจังหวัด สามารถขับเคลื่อนไปได้โดยเร็ว\\nวันพฤหัสบดีที่ 24 ธันวาคม 2563\\nรมช.มนัญญา ประชุมตรวจติดตามการดําเนินงานขับเคลื่อนไทยไปด้วยกันจังหวัดอุทัยธานี เพื่อพัฒนาและแก้ไขปัญหาระดับจังหวัด สามารถขับเคลื่อนไปได้โดยเร็ว\\nรมช.มนัญญา ประชุมตรวจติดตามการดําเนินงานขับเคลื่อนไทยไปด้วยกันจังหวัดอุทัยธานี เพื่อพัฒนาและแก้ไขปัญหาระดับจังหวัด สามารถขับเคลื่อนไปได้โดยเร็ว\\nนางสาวมนัญญา ไทยเศรษฐ์ รัฐมนตรีช่วยว่าการกระทรวงเกษตรและสหกรณ์ เป็นประธานการประชุมตรวจติดตามการดําเนินงานขับเคลื่อนไทยไปด้วยกันระดับพื้นที่จังหวัด (จังหวัดอุทัยธานี) ณ ห้องประชุมสะแกกรัง ศาลากลางจังหวัดอุทัยธานี พร้อมรับฟังสรุปปัญหาในแต่ละด้านที่สําคัญ โดยจังหวัดอุทัยธานีให้ความสําคัญกับแนวทางการขับเคลื่อนไทยไปด้วยกัน ให้เป็นวาระและภารกิจสําคัญของจังหวัด เพื่อพัฒนาและแก้ไขปัญหาระดับจังหวัดสามารถขับเคลื่อนไปได้โดยเร็ว ลดปัญหาและอุปสรรค รวมทั้งใช้ทรัพยากรต่างๆ ได้อย่างมีประสิทธิภาพ ทั้งนี้ ได้มอบนโยบายแนวทางการดําเนินงาน ให้ทุกหน่วยงานบูรณาการร่วมกัน โดยเฉพาะเรื่องการบริหารจัดการน้ําให้เกษตรกรสามารถทําการเกษตรได้ และประชาชนมีน้ําอุปโภคบริโภคเพียงพอ พร้อมส่งเสริมสนับสนุนให้ชาวจังหวัดอุทัยธานีประกอบอาชีพปลูกหม่อนเลี้ยงไหม เนื่องจากผ้าไหมจังหวัดอุทัยธานีเป็นที่ต้องการของตลาด โดยมีหัวหน้าส่วนราชการจังหวัดอุทัยธานี และเจ้าหน้าที่ที่เกี่ยวข้อง เข้าร่วมการประชุม\\nรมช.มนัญญา กล่าวว่า เป็นนโยบายของนายกรัฐมนตรี พลเอกประยุทธ์ จันทร์โอชา ได้ให้ความสําคัญกับการแก้ไขปัญหาความเดือดร้อนของประชาชน การยกระดับคุณภาพชีวิตความเป็นอยู่ของประชาชน และการเสริมสร้างศักยภาพในการพัฒนาประเทศ สืบเนื่องจากสถานการณ์การแพร่ระบาดของโรคติดเชื้อไวรัสโคโรนาสายพันธุ์ใหม่ (COVID-19) เมื่อปลายปี 2560 จนถึงปัจจุบัน ส่งผลกระทบอย่างมากต่อการดําเนินชีวิตของประชาชน เศรษฐกิจ และสังคมของประเทศ จึงเห็นควรให้มีการดําเนินงานติดตาม เร่งรัด ช่วยเหลือ เยียวยา และขับเคลื่อนการแก้ไขปัญหาดังกล่าวในระดับพื้นที่ โดยเริ่มจากปัญหาที่เป็นความเดือดร้อนเร่งด่วน เพื่อให้เกิดผลสัมฤทธิ์อย่างเป็นรูปธรรมและรวดเร็วทันเหตุการณ์ ด้วยการบูรณาการการทํางานร่วมกันของทุกภาคส่วนในพื้นที่แต่ละจังหวัดอย่างเป็นระบบตามหลักปรัชญาเศรษฐกิจพอเพียง และการดําเนินชีวิตวิถีใหม่ (New Normal)'}\n" ] } ], @@ -120,22 +121,31 @@ }, "outputs": [ { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|███████████████████████████████████| 30380/30380 [00:05<00:00, 5841.57it/s]\n" - ] + "data": { + "application/vnd.jupyter.widget-view+json": { + "model_id": "1c20bfdee36a43d3bd8f669e847f99ec", + "version_major": 2, + "version_minor": 0 + }, + "text/plain": [ + " 0%| | 0/44680 [00:00, ?it/s]" + ] + }, + "metadata": {}, + "output_type": "display_data" } ], "source": [ "title=[]\n", "context=[]\n", "url=[]\n", + "raw=[]\n", "for i in tqdm(list_all_txt_files):\n", " d=read_file(i)\n", " title.append(d[\"title\"])\n", " context.append(d[\"context\"])\n", - " url.append(d[\"url\"])" + " url.append(d[\"url\"])\n", + " raw.append(d[\"raw\"])" ] }, { @@ -151,6 +161,7 @@ " {\n", " \"title\": title,\n", " \"context\": context,\n", + " \"raw\":raw,\n", " \"url\": url,\n", " }\n", ")" @@ -187,38 +198,44 @@ "
30380 rows × 3 columns
\n", + "44680 rows × 4 columns
\n", "" ], "text/plain": [ " title \\\n", - "0 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-โปร 10 เดือน 10 กล... \n", - "1 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-“จับกัง 1” ติดตาม ... \n", - "2 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล- ปลัดฯกอบชัย เปิดง... \n", - "3 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-ปัญหาการเข้าถึงข้อ... \n", - "4 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-SME D Bank ผนึกหน่... \n", + "0 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-โฆษกรัฐบาลแจงสิทธิ... \n", + "1 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-ออมสินร่วมงาน Thai... \n", + "2 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รัฐบาลแจงผลงานขับเ... \n", + "3 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-“อนุทิน” เปิดใช้เค... \n", + "4 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-“เฉลิมชัย” ประธานฟ... \n", "... ... \n", - "30375 รัฐบาลไทย- \n", - "30376 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-นายกฯ เป็นห่วงประช... \n", - "30377 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รมว.ทส. เยี่ยมชมพิ... \n", - "30378 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-โควิดไม่หยุดโคดดิ้... \n", - "30379 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-นายกรัฐมนตรี ยกสถา... \n", + "44675 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-ออมสินแจ้งเหตุการณ... \n", + "44676 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล- กระทรวงเกษตรฯ จัด... \n", + "44677 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รมว.มท. ประชุมร่วม... \n", + "44678 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-อิสราเอลยังต้องการ... \n", + "44679 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รมช.มนัญญา ประชุมต... \n", "\n", " context \\\n", - "0 วันศุกร์ที่ 9 ตุลาคม 2563\\nโปร 10 เดือน 10 กลั... \n", - "1 วันศุกร์ที่ 9 ตุลาคม 2563\\n“จับกัง 1” ติดตาม “... \n", - "2 วันศุกร์ที่ 9 ตุลาคม 2563\\nปลัดฯกอบชัย เปิดงาน... \n", - "3 วันศุกร์ที่ 9 ตุลาคม 2563\\nปัญหาการเข้าถึงข้อม... \n", - "4 วันศุกร์ที่ 9 ตุลาคม 2563\\nSME D Bank ผนึกหน่ว... \n", + "0 วันศุกร์ที่ 15 กรกฎาคม 2565\\nโฆษกรัฐบาลแจงสิทธ... \n", + "1 วันพฤหัสบดีที่ 9 ธันวาคม 2564\\nออมสินร่วมงาน T... \n", + "2 วันพฤหัสบดีที่ 6 มกราคม 2565\\nรัฐบาลแจงผลงานขั... \n", + "3 วันจันทร์ที่ 13 กันยายน 2564\\n“อนุทิน” เปิดใช้... \n", + "4 วันศุกร์ที่ 15 ตุลาคม 2564\\n“เฉลิมชัย” ประธานฟ... \n", + "... ... \n", + "44675 วันพฤหัสบดีที่ 24 ธันวาคม 2563\\nออมสินแจ้งเหตุ... \n", + "44676 วันพฤหัสบดีที่ 24 ธันวาคม 2563\\nกระทรวงเกษตรฯ ... \n", + "44677 วันพฤหัสบดีที่ 24 ธันวาคม 2563\\nรมว.มท. ประชุม... \n", + "44678 วันพฤหัสบดีที่ 24 ธันวาคม 2563\\nอิสราเอลยังต้อ... \n", + "44679 วันพฤหัสบดีที่ 24 ธันวาคม 2563\\nรมช.มนัญญา ประ... \n", + "\n", + " raw \\\n", + "0 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-โฆษกรัฐบาลแจงสิทธิ... \n", + "1 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-ออมสินร่วมงาน Thai... \n", + "2 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รัฐบาลแจงผลงานขับเ... \n", + "3 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-“อนุทิน” เปิดใช้เค... \n", + "4 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-“เฉลิมชัย” ประธานฟ... \n", "... ... \n", - "30375 วันพฤหัสบดีที่ 1 มกราคม 2513\\n \n", - "30376 วันเสาร์ที่ 6 กุมภาพันธ์ 2564\\nนายกฯ เป็นห่วงป... \n", - "30377 วันเสาร์ที่ 6 กุมภาพันธ์ 2564\\nรมว.ทส. เยี่ยมช... \n", - "30378 วันเสาร์ที่ 6 กุมภาพันธ์ 2564\\nโควิดไม่หยุดโคด... \n", - "30379 วันเสาร์ที่ 6 กุมภาพันธ์ 2564\\nนายกรัฐมนตรี ยก... \n", + "44675 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-ออมสินแจ้งเหตุการณ... \n", + "44676 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล- กระทรวงเกษตรฯ จัด... \n", + "44677 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รมว.มท. ประชุมร่วม... \n", + "44678 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-อิสราเอลยังต้องการ... \n", + "44679 รัฐบาลไทย-ข่าวทำเนียบรัฐบาล-รมช.มนัญญา ประชุมต... \n", "\n", " url \n", "0 https://www.thaigov.go.th/news/contents/detail... \n", @@ -296,13 +332,13 @@ "3 https://www.thaigov.go.th/news/contents/detail... \n", "4 https://www.thaigov.go.th/news/contents/detail... \n", "... ... \n", - "30375 https://www.thaigov.go.th/news/contents/detail... \n", - "30376 https://www.thaigov.go.th/news/contents/detail... \n", - "30377 https://www.thaigov.go.th/news/contents/detail... \n", - "30378 https://www.thaigov.go.th/news/contents/detail... \n", - "30379 https://www.thaigov.go.th/news/contents/detail... \n", + "44675 https://www.thaigov.go.th/news/contents/detail... \n", + "44676 https://www.thaigov.go.th/news/contents/detail... \n", + "44677 https://www.thaigov.go.th/news/contents/detail... \n", + "44678 https://www.thaigov.go.th/news/contents/detail... \n", + "44679 https://www.thaigov.go.th/news/contents/detail... \n", "\n", - "[30380 rows x 3 columns]" + "[44680 rows x 4 columns]" ] }, "execution_count": 8, @@ -317,91 +353,70 @@ { "cell_type": "code", "execution_count": 9, - "id": "0b896ed5-e375-4173-b976-7400df2be0c8", + "id": "af930fbf-62a7-4687-9bac-a414322ef032", "metadata": { "tags": [] }, "outputs": [], "source": [ - "df.to_parquet(\"dataset.parquet\", row_group_size=100, engine=\"pyarrow\")" + "from datasets import Dataset\n", + "\n", + "ds = Dataset.from_pandas(df)" ] }, { "cell_type": "code", "execution_count": 10, - "id": "af930fbf-62a7-4687-9bac-a414322ef032", + "id": "d7531bfb-bcc7-46a9-bfc9-ee97e3c24511", "metadata": { "tags": [] }, "outputs": [ { - "name": "stdout", - "output_type": "stream", - "text": [ - "Downloading and preparing dataset parquet/default to /home/wannaphong/.cache/huggingface/datasets/parquet/default-48a558d6a5154942/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec...\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "Downloading data files: 100%|███████████████████| 1/1 [00:00<00:00, 6061.13it/s]\n", - "Extracting data files: 100%|█████████████████████| 1/1 [00:00<00:00, 751.26it/s]\n", - " " - ] + "data": { + "application/vnd.jupyter.widget-view+json": { + "model_id": "4413ce9149c1479b9ddac3d250ba2537", + "version_major": 2, + "version_minor": 0 + }, + "text/plain": [ + "Uploading the dataset shards: 0%| | 0/2 [00:00, ?it/s]" + ] + }, + "metadata": {}, + "output_type": "display_data" }, { - "name": "stdout", - "output_type": "stream", - "text": [ - "Dataset parquet downloaded and prepared to /home/wannaphong/.cache/huggingface/datasets/parquet/default-48a558d6a5154942/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec. Subsequent calls will reuse this data.\n" - ] + "data": { + "application/vnd.jupyter.widget-view+json": { + "model_id": "c3c73d4b8f9844fe84ac8ed53023e620", + "version_major": 2, + "version_minor": 0 + }, + "text/plain": [ + "Creating parquet from Arrow format: 0%| | 0/23 [00:00, ?ba/s]" + ] + }, + "metadata": {}, + "output_type": "display_data" }, { - "name": "stderr", - "output_type": "stream", - "text": [ - "\r" - ] - } - ], - "source": [ - "from datasets import Dataset\n", - "\n", - "ds = Dataset.from_parquet(\"dataset.parquet\")" - ] - }, - { - "cell_type": "code", - "execution_count": 11, - "id": "d7531bfb-bcc7-46a9-bfc9-ee97e3c24511", - "metadata": { - "tags": [] - }, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "Pushing dataset shards to the dataset hub: 0%| | 0/1 [00:00, ?it/s]\n", - "Creating parquet from Arrow format: 0%| | 0/31 [00:00, ?ba/s]\u001b[A\n", - "Creating parquet from Arrow format: 13%|█ | 4/31 [00:00<00:00, 30.67ba/s]\u001b[A\n", - "Creating parquet from Arrow format: 26%|██ | 8/31 [00:00<00:00, 31.02ba/s]\u001b[A\n", - "Creating parquet from Arrow format: 39%|██▋ | 12/31 [00:00<00:00, 30.62ba/s]\u001b[A\n", - "Creating parquet from Arrow format: 52%|███▌ | 16/31 [00:00<00:00, 30.08ba/s]\u001b[A\n", - "Creating parquet from Arrow format: 65%|████▌ | 20/31 [00:00<00:00, 30.04ba/s]\u001b[A\n", - "Creating parquet from Arrow format: 77%|█████▍ | 24/31 [00:00<00:00, 29.94ba/s]\u001b[A\n", - "Creating parquet from Arrow format: 87%|██████ | 27/31 [00:00<00:00, 29.63ba/s]\u001b[A\n", - "Creating parquet from Arrow format: 100%|███████| 31/31 [00:01<00:00, 30.72ba/s]\u001b[A\n", - "\n", - "Upload 1 LFS files: 0%| | 0/1 [00:00, ?it/s]\u001b[A\n", - "Upload 1 LFS files: 100%|████████████████████████| 1/1 [01:41<00:00, 101.74s/it]\u001b[A\n", - "Pushing dataset shards to the dataset hub: 100%|█| 1/1 [01:47<00:00, 107.37s/it]\n" - ] + "data": { + "application/vnd.jupyter.widget-view+json": { + "model_id": "21dc6dc7dc664d6fb90f69ad4d9588c0", + "version_major": 2, + "version_minor": 0 + }, + "text/plain": [ + "Creating parquet from Arrow format: 0%| | 0/23 [00:00, ?ba/s]" + ] + }, + "metadata": {}, + "output_type": "display_data" } ], "source": [ - "ds.push_to_hub(\"pythainlp/thaigov-v2-corpus-22032023\")" + "ds.push_to_hub(\"pythainlp/thaigov-v2-corpus-31032024\")" ] }, { @@ -415,7 +430,7 @@ ], "metadata": { "kernelspec": { - "display_name": "Python 3 (ipykernel)", + "display_name": "Python 3.8.13 ('base')", "language": "python", "name": "python3" }, @@ -429,7 +444,12 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.10.6" + "version": "3.8.13" + }, + "vscode": { + "interpreter": { + "hash": "a1d6ff38954a1cdba4cf61ffa51e42f4658fc35985cd256cd89123cae8466a39" + } } }, "nbformat": 4,