Top #10 ❤️ Xem Nhiều Nhất Cách Vẽ Tree Diagram Syntax Mới Nhất 9/2022 ❣️ Top Like | Techcombanktower.com

Drawing Sentence Syntax Trees – Amy Reynolds

Staruml 5.0 User Guide (Modeling With Sequence Diagram)

Tính Toán Của Các Cầu Thang Xoắn Ốc

Chi Tiết Về Cách Tính Cầu Thang Xoắn Ốc Đơn Giản

Hướng Dẫn Vẽ Bánh Răng Siêu Nhanh Trong Autocad Mechanical

Hướng Dẫn Cách Kẻ Đường Thẳng Trong Microsoft Word

Now that you’ve learned about X-bar structure and determining constituency, you should be able to draw syntax trees. However, there are all sorts of different types of phrases and ways that they can connect, and you have a sentence you need to draw a tree for. What to do!? This page is designed to help guide you through drawing syntactic trees.

We will walk through how to make trees for the following sentences:

Amy bakes pies. 

Amy bakes pies in the summer.

Amy bakes pies for her friends.

Amy thinks that she will bake pies.

Step 1: The IP and CP phrases

As noted above, we automatically expect the head of the Inflection Phrase (IP) to contain the overall tense of the clause, denoted here by the (+/-) PAST feature. Other words that can appear in the head position of the IP include modal (e.g. could, should, would, might, etc.) auxiliaries. However, regardless of whether there is an actual word within the sentence, you should always show the complete IP structure, especially including I.

Step 2: Adding the Subject and Predicate

Step 3: Add other specifiers, complements and modifiers to the phrases

Now that we have the subject and pdicate inserted into the structure, it is important to next consider what happens to the rest of the words and phrases left in the sentence. For instance, for the sentence Amy bakes pies, we have Amy and bakes covered, but how does pies attach to the sentence?

We would say that in the summer is a modifier of the VP. Why? Here, it is not adding additional information about the pies, instead, it is telling us when the baking is taking place. We specifically know that it must be a modifier rather than a complement, because the verb does not require that additional information about the baking — not like it requires the direct object pies. Since in the summer is a modifier of the VP, we add another higher up V’ node, so that it can be a sister to the lower V’. Hence, we get the following structure:

Now if we changed the sentence to Amy bakes pies for her friends, should the PP for her friends be in the same location? There are two possibilities here: either Amy is baking for her friends, and what she is baking is pies; or there are pies for her friends that Amy is baking. In the first instance, it is the action (baking), that is being modified, and for her friends in that instance would be a modifier of the VP, as in the summer was in the structure above. In the second instance, the object that Amy is baking is pies for her friends. If that were the case,  for her friends would not be a modifier of the VP and instead would be a modifier of the NP, as shown in the structure below:

The slight differences in meaning between the two possible structures of the same sentence can be captured if we think about corresponding questions that could be asked. If you asked What does Amy bake for her friends? (where the PP is modifying the VP), an appropriate answer could be Pies, not cupcakes, where you are answering simply with nouns, no additional phrases added (because nothing else is branching from that NP). On the other hand, if you asked What does Amy bake? for this sentence, an appropriate answer could be Pies for her friends, not cupcakes for her family, which shows that the ppositional phrases are acting as modifiers distinguishing who the objects in question are for, not who she is baking for. In that instance, the PP would be a modifier of the NP, not the VP.

Step 4: Add CPs if there are any

Within your sentence, there may be multiple clauses. If that is the case, then you can expect a Complementizer Phrase to show up. The basic structure for a CP that occurs lower in the sentences’ tree is exactly like that CP that contains the entire sentence, described above. There are two types of CPs that can occur within a larger CP phrase: CPs for complement clauses, and CPs for relative clauses. Depending on the CP type, it will attach to the larger sentence in different ways. Because CPs for relative clauses show movement, they will be covered in the Drawing Question Syntax Trees. For now, we are going to cover the CPs that are complement clauses. How these in particular attach to the larger tree should be easy to remember: the CP for a complement clause should always occur as a complement to the phrase it is attaching to. Let’s consider the sentence Amy thinks that she will bake her pies. We already know the basic structure for Amy thinks. What about that she will bake her pies? This is what we call a complement clause, which contains a ‘mini-sentence’ of sorts — this same clause could stand alone as the sentence She will bake her pies.

Notice that the structure of that she will bake her pies is exactly like that of what we would make for the sentence she will bake her pies, except that the word that introduces the complement clause (that) occupies the head position of the CP. Overall, the entire CP attaches as a complement to the VP contained within the higher CP. In fact, it may be handy to remember that in English, at least, a complement clause will always attach to a VP as a complement — complement clauses do not attach to NPs. 

Now that you understand how to draw syntax trees for sentences, you are ready to learn how to draw trees for questions, as well.

Sự Thành Hình Của Kiến Trúc: 7 Sơ Đồ Phác Thảo Và Quá Trình Hình Thành Công Trình Của Mvrdv

Một Số Hệ Thức Về Cạnh Và Đường Cao Trong Tam Giác Vuông

Hình Chiếu Vuông Góc Của Đường Thẳng Lên Mặt Phẳng

Khai Thác Một Bài Toán Hình Học Lớp 7

Hướng Dẫn Giải Toán Hình Học 12 Chủ Đề Khối Tròn Xoay Hay, Chọn Lọc.

Sơ Đồ Cây (Tree Diagram) Là Gì? Minh Họa Sơ Đồ Cây

Đơn Giản Hóa Sự Phức Tạp Với Sơ Đồ Cây

Rau Má: Tác Dụng Và Cách Dùng Rau Má Tốt Cho Sức Khỏe Nhất

Làm Thế Nào Để Vẽ Một Bắp Cải Đẹp?

Viết Đoạn Văn Cảm Nhận Kỉ Niệm Chiều Hoàng Hôn Trong Nỗi Nhớ Của Con Hổ Trong Bài Thơ ”nhớ Rừng” Của Thế Lữ

Tả Cảnh Buổi Chiều Trên Cánh Đồng Đạt Điểm Cao

Định nghĩa

Sơ đồ cây trong tiếng Anh là Tree Diagram.

Sơ đồ cây là một sơ đồ được sử dụng trong việc ra quyết định chiến lược, định giá hoặc tính toán xác suất.

Sơ đồ cây bắt đầu tại một nút duy nhất, với các nhánh tỏa ra các nút bổ sung, đại diện cho các quyết định hoặc sự kiện loại trừ lẫn nhau.

* Loại trừ lẫn nhau là một thuật ngữ thống kê mô tả hai hoặc nhiều sự kiện không thể trùng khớp. Loại trừ lẫn nhau thường được sử dụng để mô tả một tình huống trong đó sự xuất hiện của một kết quả thay thế cho kết quả khác.

Minh họa sơ đồ cây

Ý nghĩa của sơ đồ cây

– Sơ đồ cây cho phép người dùng bắt đầu tại một điểm duy nhất và đưa ra các quyết định loại trừ lẫn nhau hoặc trải nghiệm các sự kiện loại trừ lẫn nhau để đi theo một đường dẫn xuống các nhánh của cây.

– Sử dụng sơ đồ cây rất đơn giản khi bạn gán các giá trị phù hợp cho mỗi nút. Các nút cơ hội, đại diện cho một kết quả có thể xảy ra, phải được chỉ rõ xác suất. Các nút câu hỏi phải được theo sau bởi các nút trả lời, chẳng hạn như “có” hoặc “không.”

– Thông thường, một giá trị sẽ được liên kết với một nút, chẳng hạn như chi phí hoặc mức chi trả.

– Sơ đồ cây kết hợp xác suất, quyết định, chi phí và mức chi trả của một quyết định và đưa ra câu trả lời chiến lược. Giá của một quyền chọn mua hoặc quyền chọn bán có thể được mô hình hóa bằng cách sử dụng cây quyết định với giá của chứng khoán cơ bản tại một thời điểm nhất định.

*Cây quyết định (Decision Tree) là một sơ đồ hoặc biểu đồ mà mọi người sử dụng để xác định quá trình hành động hoặc hiển thị xác suất thống kê. Mỗi nhánh của cây quyết định đại diện cho một quyết định, kết quả hoặc các phản ứng có thể xảy ra. Các nhánh xa nhất trên cây đại diện cho kết quả cuối cùng.

Một Phương Pháp Giải Mọi Bài Tập Di Truyền Phả Hệ

Nến Doji Và Các Biến Thể Của Nó. Cách Sử Dụng Doji Hiệu Quả.

Phân Tích Các Mô Hình Nến Đảo Chiều Có Độ Chính Xác Cao Nhất Trong Trade Coin

Đọc Câu Chuyện Sau: Ngụ Ngôn Về Ngọn Nến Một Tối M

Cách Vẽ Cây Nấm Trong Illustrantor

Bản Vẽ Use Case (Use Case Diagram)

Thực Hành Xây Dựng Bản Vẽ Use Case

Use Case Diagram Và 5 Sai Lầm Thường Gặp

Viết Đặc Tả Use Case Sao Đơn Giản Nhưng Hiệu Quả?

Hướng Dẫn Vẽ Use Case. Trung Tâm Đào Tạo Âm Nhạc Chuyên Nghiệp

Dạy Cách Vẽ Unicorn. Trung Tâm Đào Tạo Âm Nhạc

Trong bài trước chúng ta đã biết vai trò của bản vẽ Use Case là rất quan trọng, nó giúp chúng ta hiểu yêu cầu, kiến trúc chức năng của hệ thống và chi phối tất cả các bản vẽ còn lại. Trong bài này chúng ta sẽ tìm hiểu về các thành phần cấu tạo nên bản vẽ này, cách xây dựng và sử dụng nó.

1. Các thành phần trong bản vẽ Use Case

Đầu tiên, chúng ta xem một ví dụ về Use Case Diagarm.

Bây giờ chúng ta sẽ tìm hiểu kỹ hơn về các thành phần của bản vẽ.

1.1 Actor

Actor được dùng để chỉ người sử dụng hoặc một đối tượng nào đó bên ngoài tương tác với hệ thống chúng ta đang xem xét. Lưu ý, chúng ta hay bỏ quên đối tượng tương tác với hệ thống, ví dụ như Bank ở trên.

Actor được biểu diễn như sau:

Use Case là chức năng mà các Actor sẽ sử dụng. Nó được ký hiệu như sau:

1.3 Relationship(Quan hệ)

Relationship hay còn gọi là conntector được sử dụng để kết nối giữa các đối tượng với nhau tạo nên bản vẽ Use Case. Có các kiểu quan hệ cơ bản sau:

– Association

– Generalization

– Include

– Extend

1.4 System Boundary

System Boundary được sử dụng để xác định phạm vi của hệ thống mà chúng ta đang thiết kế. Các đối tượng nằm ngoài hệ thống này có tương tác với hệ thống được xem là các Actor.

2. Các bước xây dựng Use Case Diagram

Chúng ta đã nắm được các ký hiệu của bản vẽ Use Case, bây giờ là lúc chúng ta tìm cách lắp chúng lại để tạo nên bản vẽ hoàn chỉnh. Thực hiện các bước sau để xây dựng một bản vẽ Use Case:

+ Bước 1: Tìm các Actor

Trả lời các câu hỏi sau để xác định Actor cho hệ thống:

– Ai sử dụng hệ thống này?

– Hệ thống nào tương tác với hệ thống này?

Xem xét ví dụ về ATM ở trên chúng ta thấy:

Như vậy có 03 Actor: Customer, ATM Technician và Bank

+ Bước 2: Tìm các Actor

Trả lời câu hỏi các Actor sử dụng chức năng gì trong hệ thống? chúng ta sẽ xác định được các Use Case cần thiết cho hệ thống.

Xem xét ví dụ ở trên ta thấy:

Customer sử dụng các chức năng: Check Balance, Deposit, Withdraw và Transfer

ATM technician sử dụng: Maintenance và Repair

Bank tương tác với tất cả các chức năng trên.

Tóm lại, chúng ta phải xây dựng hệ thống có các chức năng: Check Balance, Deposit, Withdraw, Transfer, Maintenance và Repair để đáp ứng được cho người sử dụng và các hệ thống tương tác.

+ Bước 3: Xác định các quan hệ

Phân tích và các định các quan loại hệ giữa các Actor và Use Case, giữa các Actor với nhau, giữa các Use Case với nhau sau đó nối chúng lại chúng ta sẽ được bản vẽ Use Case.

Nhìn vào bản vẽ trên chúng ta nhận biết hệ thống cần những chức năng gì và ai sử dụng. Tuy nhiên, chúng ta chưa biết được chúng vận hành ra sao? Sử dụng chúng như thế nào? Để hiểu rõ hơn hệ thống chúng ta cần phải đặc tả các Use Case.

Có 2 cách để đặc tả Use Case.

Cách 1: Viết đặc tả cho các Use Case

Chúng ta có thể viết đặc tả Use Case theo mẫu sau:

Tên Use Case Mã số Use Case Mô tả tóm tắt// Hiển thị thông tin chi tiết của Account

Các bước thực hiện Điều kiện thoát Yêu cầu đặc biệt// Ghi rõ nếu có

Yêu cầu trước khi thực hiện// Phải đăng nhập

Điều kiện sau khi thực hiện

Cách 2: Sử dụng các bản vẽ để đặc tả

Chúng ta có thể dùng các bản vẽ như Activity Diagram, Sequence Diagram để đặc tả Use case. Các bản vẽ này chúng ta sẽ bàn ở những bài tiếp theo.

4. Sử dụng UseCase Diagram

– Phân tích và hiểu hệ thống

– Thiết kế hệ thống.

– Làm cơ sở cho việc phát triển, kiểm tra các bản vẽ như Class Diagram, Activity Diagram, Sequence Diagram, Component Diagram.

– Làm cơ sở để giao tiếp với khách hàng, các nhà đầu tư.

– Giúp cho việc kiểm thử chức năng, kiểm thử chấp nhận.

5. Kết luận

Đến đây, chúng ta đã tìm hiểu được bản vẽ đầu tiên và rất quan trọng (use case diagram), các bạn cần tiếp tục thực hành để nắm rõ hơn về bản vẽ này cũng như cách xây dựng và sử dụng chúng trong quá trình phát triển sản phẩm phần mềm.

Để giúp các bạn hiểu rõ hơn về bản vẽ Use Case trong bài tiếp theo chúng ta sẽ thực hiện qua từng bước bài thực hành xây dựng Use Case Diagram.

Bài tiếp: Thực hành xây dựng bản vẽ Use Case

Bài trước: Cơ bản về phân tích và thiết kế hướng đối tượng

7 Cách Vẽ Tranh 20/11 Sáng Tạo, Đơn Giản Mà Đẹp Tặng Thầy Cô

Gợi Ý Cách Vẽ Tranh Đề Tài 20

Bài 5. Cách Vẽ Tranh Đề Tài

6 Cách Vẽ Anime Tay Cầm Thứ Gì Đó

Vẽ Bắt Tay Anime Như Thế Nào Cho Đúng Và Đẹp

Classification & Regression Tree (Cr&t)

+666 Mẫu Tranh Tô Màu Ngày Tết Cho Bé Đơn Giản Nhất

Trường Mầm Non Hồng Ngọc

Giáo Án Tạo Hình Vẽ Một Số Loại Rau – Chủ Điểm Các Loại Rau

+999 Mẫu Tranh Tô Màu Hình Cây Xanh Đơn Giản Cho Bé Mầm Non

Thư Viện Bản Vẽ Cad 200 Mẫu Cây Xanh Đô Thị

Bigdatauni.com

Follow Fanpage

Contact

Lưu ý bài viết nghiêng nhiều về lý thuyết nhiều hơn thực hành vì mục đích chia sẻ kiến thức nền tảng của Data mining cụ thể là các thuật toán phân loại đến những bạn đang tiếp cận, theo học lĩnh vực này, biết về Decision Tree (CART) nhưng chưa nắm kiến thức cơ bản. Tuy nhiên, trong quá trình diễn giải về thuật toán, chúng tôi vẫn sẽ cung cấp ví dụ để thông qua đó các bạn sẽ dễ hiểu hơn, có cái nhìn tổng quan hơn về phương pháp tiếp cận của các mô hình Classification trong khai phá dữ liệu. Đầu tiên trước khi đi vào nói về CART, chúng ta sẽ cùng tìm hiểu về sơ qua về thuật toán Cây quyết định.

Decision Tree là một thuật toán thuộc loại Supervised Learning, phương pháp học có giám sát, kết quả hay biến mục tiêu của Decision Tree chủ yếu là biến phân loại. Các thuật toán được xây dựng giống hình dạng một các cây có ngọn cây, thân cây, lá cây kết nối bằng các cành cây, và mỗi thành phần đều có ý nghĩa riêng của nó, như các yếu tố tác động lên quyết định sau cùng.

Xét về khía cạnh trong lĩnh vực dữ liệu, hồi quy (regression) và phân loại (classification) là hai phương pháp Data mining có thể được thực hiện thông qua Decision tree hay nói cách khác Decision tree có thể được áp dụng cho cả 2 dạng phân tích trong các dự án nghiên cứu khác nhau. Vì tính chất này mà khi nhắc đến Decision tree, cây quyết định, thông thường thì người ta thường gọi Classification & Regression Tree viết tắt là CART. Trong bài viết lần này chúng tôi chỉ đề cập đến CART phục vụ cho phân loại dữ liệu với biến định tính, còn Regression chúng tôi sẽ gửi đến các bạn trong các bài viết sắp tới.

(Nguồn hình Towardsdatascience)

Decision tree đơn giản trong việc ra quyết định chọn lựa giữa đi chơi và ở nhà trên cơ sở xem xét các tình huống có thể xảy ra của thời tiết hay các vấn đề khác. Nếu giải thích ở khía cạnh dữ liệu, thì “Work to do?”, “Outlook”, “Friends busy?” chính là các biến độc lập có thể tác động đến biến mục tiêu ví dụ đặt tên là “Decision” chứa các giá trị Stay in, Go to beach, Go running, Go to movies. “Work to do?” có 2 giá trị là Yes và No, nếu Yes thì người này chắc chắn ở nhà và không còn quyết định nào khác trừ ở nhà và làm việc nên chỉ có 1 nhánh. Còn nếu No thì có thể người này ra ngoài chơi, tuy nhiên còn phải xét đến thời tiết. Tương tự như thế mà cái cây được hình thành cho đến khi không còn trường hợp để xét và quyết định khác cần đưa ra. Các bạn nhìn kỹ sẽ thấy, mỗi giá trị trong một biến độc lập đều có thể tác động lên quyết định sau cùng tạo nên sự liên kết, hay mối liên hệ với biến mục tiêu. Nhìn trên hình chúng ta có thể thấy một cây quyết định bao gồm:

“Root node”: điểm ngọn chứa giá trị của biến đầu tiên được dùng để phân nhánh.

“Internal node”: các điểm bên trong thân cây là các biến chứa các thuộc tính, giá trị dữ liệu được dùng để xét cho các phân nhánh tiếp theo

“Leaf node”: là các lá cây chứa giá trị của biến phân loại sau cùng.

“Branch” là quy luật phân nhánh, nói đơn giản là mối quan hệ giữa giá trị của biến độc lập (Internal node) và giá trị của biến mục tiêu (Leaf node).

Bên trên là trường hợp ứng dụng Decision Tree trong cuộc sống hàng ngày, vậy còn trong Data mining, hay Machine learning thì sao?

Ví dụ bên trên minh họa cho ứng dụng của Decision tree trong lĩnh vực ngân hàng dự báo khả năng khách hàng có thể không trả được nợ “Default”, hoặc thanh toán được “nợ” “No default” dựa trên các thông tin về khoản tiết kiệm “Savings”, thu nhập “Income”, và tài sản “Assets”. Nếu savings = medium, tức khách hàng có khoản tiết kiệm trung bình thì chắc chắn sẽ không có nợ xấu, nếu khách hàng có khoản tiết kiệm ít chúng ta phải xét thêm liệu tài sản của khách hàng có nhiều hay không trường hợp do khách hàng sử dụng tiền tiết kiệm để mua sắm nên vẫn có tài sản thế chấp, ngược lại nếu giá trị tài sản thấp, khả năng cao khách hàng khó trả được nợ. Tương tự vậy chúng ta xét tiếp cho thu nhập.

Đừng lầm tưởng rằng chỉ cần nhìn lên sơ đồ trên mà các bạn có để dự báo, phân loại chính xác khả năng khách hàng nợ xấu ví dụ nhiều bạn sẽ chủ quan cho rằng tiết kiệm nhiều cùng với thu nhập cao chắc chắn sẽ có khả năng trả nợ. Các bạn khác sẽ thắc mắc tại sao từ khoản tiết kiệm trung bình mà cây quyết định có thể khẳng định khách hàng sẽ trả được nợ tức “No default” và không xét tiếp yếu tố khác. Hoặc tại sao cây quyết định lại không đề cập đến các biến độc lập khác? Đầu tiên thuật toán Decision tree là thuật toán phân loại, Classification, nhớ lại các bài viết trước chúng tôi đã đề cập thì khi thực hiện phân tích phân loại trong Data mining, chúng ta phải có trước một tập dữ liệu đầy đủ, trong đó có biến mục tiêu và các giá trị, thuộc tính của nó. Ví dụ ở đây, chúng ta phải có trước tập dữ liệu khách hàng trước đây mà ngân hàng từng giao dịch, và có kết quả phân loại những khách hàng nào không trả được nợ, hay thanh toán hết nợ. Dựa vào đó để xem xét các đặc điểm, yếu tố, nguyên nhân nào dẫn đến kết quả phân loại ấy, trình tự ra sao, và tiến hành thực hiện thuật toán Decision Tree. Sau đó khi có khách hàng mới với dữ liệu cá nhân thu thập sẵn, với Decision tree, ngân hàng có thể đưa ra dự báo rủi ro tín dụng từ nhóm khách hàng mới này thông qua việc phân loại khách hàng vào các nhóm có rủi ro hoặc không có rủi ro.

Quá trình phân chia nhánh cây trong mô hình cây quyết định đều dựa trên các công thức tính toán, định lượng rõ ràng, sao cho quá trình này sẽ đem lại kết quả tối ưu nhất. Chúng tôi sẽ trình bày cụ thể ngay sau phần này.

Nhiệm vụ sau cùng của Decision tree hay bất kỳ thuật toán Classification nào khác chính là phân loại đối tượng dữ liệu chưa được phân loại trước đó vào các nhóm, các lớp phù hợp. Xét về số nhánh thì có 2 dạng cây quyết định bao gồm cây chỉ phân được 2 nhánh và cây phân được nhiều nhánh khác nhau. Các ví dụ ở trên là dạng cây phân được nhiều nhánh, thì phổ biến hiện nay có CHAID, và C4.5, C5.0 là các thuật toán xây dựng Decision tree nhiều nhánh.

Ở phần 1 bài viết lần này chúng tôi sẽ đề cập ban đầu đến thuật toán CART dùng cho Classification, cây quyết định chỉ phân được 2 nhánh mỗi lần. Tương tự như CART, chúng ta còn có QUEST nhưng khác biệt ở biến mục tiêu, giá trị ở của phân nhánh cuối cùng của QUEST chỉ có thể là biến định tính: Categorical, và biến thay phiên: Nominal hoặc Flag như “Có” hoặc “Không”, “No Default” hoặc “Default”, còn CART, biến mục tiêu có thể là bất kỳ biến từ định lượng, đến định tính, hay thay phiên.

Tóm lại, Decision tree là một trong những phương pháp Data mining, cụ thể Classification được sử dụng nhiều nhất trong các dự án nghiên cứu dữ liệu, là phương pháp Supervised learning – học có giám sát hiệu quả nhất vì nó mang lại kết quả dự báo, phân loại chính xác, ổn định, dễ diễn giải. Khác với các phương pháp hồi quy thông thường, Decision tree còn có khả năng thể hiện cả mối liên hệ phi tuyến giữa các biến dữ liệu một cách hiệu quả do đó được ứng dụng trong mọi khía của lĩnh vực khoa học dữ liệu, và là mảng kiến thức quan trọng mà bất kỳ chuyên gia phân tích nào phải có.

Trước khi triển khai thuật toán Decision trees, thì quy trình phân tích hay mô hình dữ liệu phải thỏa mãn các yêu cầu sau:

Tập dữ liệu phải đạt đủ chất lượng trước khi đưa vào phân tích, được chia thành các tập training và test sao cho phù hợp, với tập training thì phải có đầy đủ biến phân loại, biến mục tiêu (target variable), còn test data thì không có.

Tập dữ liệu training phải dồi dào, đa dạng về các biến, thuộc tính dữ liệu để quá trình huấn luyện cho mô hình diễn ra tối ưu và kết quả phân loại chính xác.

Các lớp, các nhóm hay giá trị của biến mục tiêu phải rời rạc, rõ ràng. Thông thường không thể áp dụng phân tích cây quyết định cho một biến mục tiêu liên tục (continuous variable). Thay vào đó, biến mục tiêu phải nhận các giá trị được phân định rõ ràng là thuộc về một lớp, nhóm cụ thể nào đó hoặc không thuộc về một lớp, nhóm cụ thể nào đó. Ví dụ phân loại khách hàng theo thu nhập, giả sử phạm vi giá trị của biến mục tiêu tức thu nhập của khách hàng từ 3 triệu đến hơn 100 triệu thì chúng ta nên phân thành các nhóm thu nhập như thế nào?

Bây giờ chúng ta sẽ đi vô chi tiết thuật toán CART, dựa trên ví dụ đơn giản ứng dụng trong việc phân loại khách hàng có rủi ro tín dụng (không có khả năng thanh toán nợ) hay không có rủi ro tín dụng (có khả năng thanh toán nợ), giống như ví dụ trong bài viết về thuật toán KNN (K nearest neighbor).

Thuật toán KNN và ví dụ đơn giản trong ngành ngân hàng

Thuật toán cây quyết định được xây dựng để cố gắng tìm ra một tập hợp các “nhánh lá” tối ưu nhất, nghĩa là nếu các đối tượng trong tập dữ liệu có cùng 100% một thuộc tính A của một biến nào đó mà đều được phân loại theo một thuộc tính B bất kỳ của biến mục tiêu, thì gọi là “nhánh lá” thuần khiết, trong Data mining có thuật ngữ là “pure leaf node”.

Vậy bằng cách nào mà thuật toán có thể xác định được tính đồng nhất, hoặc ngược loại không đồng nhất của các dữ liệu trong node? Và làm cách nào để phân chia các nhánh tiếp theo nếu không có “pure leaf node”?

Phương pháp CART được giới thiệu lần đầu tiên vào năm 1985 bởi nhà thống kê Leo Breiman và các cộng sự của ông. CART chủ yếu được dùng để xây dựng Decision tree chỉ phân theo hai nhánh mỗi một lần. CART chia bộ dữ liệu training thành những tập con, bên trong có các đối tượng dữ liệu có cùng thuộc tính làm cơ sở cho việc phân loại.

Công thức hệ số GINI:

Công thức Entropy:

Công thức dựa trên xác định tỷ lệ sai sót trong phân loại:

Trong bài viết lần này, chúng tôi sẽ trình bày thuật toán CART theo công thức đầu tiên, còn các công thức còn lại chúng tôi sẽ trình bày ở bài viết tiếp theo ví dụ như trong bài viết về thuật toán C4.5 chúng tôi sẽ nói về công thức Entropy.

Quay trở lại với công thức đầu tiên, “Goodness of best split”

tL là node bên trái của phân nhánh đầu tiên của root node trong cây quyết định

tR là node bên phải của phân nhánh đầu tiên của root node trong cây quyết định

PL là tỷ lệ của số quan sát của node bên trái tL trên tổng số quan sát của tập dữ liệu tranining

PR là tỷ lệ của số quan sát của node bên phải tR trên tổng số quan sát của tập dữ liệu tranining

P(j/tL) là tỷ lệ của số quan sát có thuộc tính j (của biến mục tiêu) trên tổng số quan sát trong node bên trái.

P(j/tR) là tỷ lệ của số quan sát có thuộc tính j (của biến mục tiêu) trên tổng số quan sát trong node bên phải.

Cách phân nhánh nào có giá trị cao nhất được tính từ công thức trên sẽ được dùng để xây dựng cây quyết định.

Để hiểu rõ hơn về cách thức xây dựng một thuật toán CART đơn giản chúng ta cùng xem qua ví dụ sau, đây cũng là ứng dụng chủ yếu của các thuật toán Decision tree trong lĩnh vực ngân hàng: dự báo khả năng khách hàng mới có thể mang lại rủi ro tín dụng cho tổ chức, dựa trên việc phân loại các khách hàng cũ đã xác định được rủi ro tín dụng theo những đặc điểm cụ thể.

Ví dụ sau đây được tham khảo từ giáo trình “Discovering Knowledge in Data: An introduction to Data mining” của Daniel T.Larose (phần 2).

Giả sử chúng ta có một tập dữ liệu training cho model Decision tree như sau:

Ngân hàng đã chuyển đổi dữ liệu định lượng ở biến tổng giá trị Khoản tiết kiệm, và tổng giá trị Tài sản hiện có thành dữ liệu định tính với các mức từ Thấp, Trung bình, Cao.

CART chỉ phân được 2 nhánh, một bên trái, một bên phải, nên đầu tiên chúng ta phải xác định biến nào sẽ là root node trong các biến Khoản tiết kiệm, Tài sản hiện có, Thu nhập. Lưu ý biến Rủi ro tín dụng là biến mục tiêu, không được dùng để xét phân nhánh cho cây quyết định mà là kết quả cuối cùng, là điểm dừng cuối cùng của cây quyết định. Vậy dựa trên dữ liệu có được chúng ta có thể có các phân tập dữ liệu thành các phần như sau:

Cách phân thứ 1:

Node bên trái, Khoản tiết kiệm thấp, chúng ta xem có 3 khách hàng có khoản tiết kiệm thấp. PL = 3/8 = 0.375.

Node bên phải, Khoản tiết kiệm thuộc cao và trung bình thì chúng ta có 5 khách hàng. PR = 5/8 = 0.625

Tiếp tục, trong 3 khách hàng có khoản tiết kiệm thấp thì có 2 người được phân loại có rủi ro tín dụng, 1 người được phân loại không có rủi ro tín dụng. P (Có rủi ro tín dụng ở node trái) = 2/3 = 0.6667, P (Không có rủi ro tín dụng ở node trái) = 1/3 = 0.3333

Trong 5 khách hàng có khoản tiết kiệm thuộc cao và trung bình, thì có 4 người được phân loại không có rủi ro tín dụng, 1 người được phân loại có rủi ro tín dụng. P (Có rủi ro tín dụng ở node phải) = 1/5 = 0.2, P (Không có rủi ro tín dụng ở node phải) = 4/5 = 0.8

Ráp từng phần vào công thức, vậy cách phân 1 sẽ có giá trị là: Φ = 2*0.375*0.625* [trị tuyệt đối của (0.6667 – 0.2) + trị tuyệt đối của (0.333 – 0.8)] = 0.4378

Lưu ý ký hiệu K trong bảng là tỷ lệ số quan sát trong node trái Không có rủi ro tín dụng, C là Có rủi ro tín dụng.

Theo kết quả có được chúng ta thấy cách phân thứ 4 là có giá trị Goodness of split cao nhất là 0.6248. Vậy theo root node chính là giá trị Tài sản hiện có, phân ra 2 nhánh với node bên trái là Tài sản hiện có = thấp, node bên phải là Tài sản hiện có = {Cao, trung bình}, tại node bên trái, chúng ta phân nhánh tiếp xuống node Rủi ro tín dụng rồi ngắt nhánh vì trong node này có 2 khách hàng có rủi ro tín dụng, đạt 100%, và đây là pure node cần xác định. Vậy sau này khi phân loại rủi ro tín dụng cho khách hàng mới mở khoản vay, nếu khách hàng này có giá trị Tài sản hiện có thấp thì ngân hàng cần xem xét vì họ có khả năng mang lại rủi ro tín dụng

Bảng kết quả xác định cách phân nhánh tối ưu đầu tiên của cây quyết định Chúng ta có thể vẽ cây quyết định với cách phân nhánh đầu tiên có được:

Chúng ta tiếp tục xét tiếp cho 6 khách hàng còn lại ở node bên phải, nguyên nhân là trong số khách hàng này có khách hàng có rủi ro tín dụng và có khách hàng không có rủi ro tín dụng do đó từ đây chúng ta phải phân nhánh tiếp.

Từ bảng các cách phân nhánh mà chúng ta thiết lập ở đầu ví dụ, chúng ta loại có cách phân nhánh thứ 4, và giữ lại các cách phân nhánh còn lại, và bây giờ chúng ta chỉ còn 6 khách hàng để xét.

Vậy chúng ta tiếp tục sử dụng công thức trên để tính tiếp Goodness of split cho cách phân 1, 2, 3, 5, 6, 7, 8, 9, lưu ý giá trị sẽ khác so với bảng kết quả đầu tiên do mẫu cần xét bây giờ còn 6. Nếu tính đúng như BigDataUni hướng dẫn, các bạn sẽ có kết quả giống như sau:

Lưu ý ký hiệu K trong bảng là tỷ lệ số quan sát trong node trái Không có rủi ro tín dụng, C là Có rủi ro tín dụng.

Dựa trên bảng trên, chúng ta có thể chọn cách phân thứ 3 hoặc thứ 7 đều được, vì giá trị Goodness đều cao nhất là 0.4444. Ở ví dụ này chúng ta sẽ chọn tiếp cách phân thứ 3 cho lượt phân nhánh tiếp theo. Vậy node bên phải chứa các khách hàng 1, 3, 4, 5, 6, 8 sẽ là node Khoản tiết kiệm, phân nhánh bên trái là khoản tiết kiệm cao có khách hàng 3 và 6, trong số 2 khách hàng này có người có rủi ro tín dụng và có người không nên phải xét tiếp, còn phân nhánh bên phải là khoản tiết kiệm trung bình, thấp là khách hàng 1, 4, 5, 8, tất cả đều không có rủi ro tín dụng, nên node ở nhánh này là pure node, và phân nhánh ngừng ở đây. Các bạn có thể vẽ tiếp CART như sau:

Tiếp tục ở node bên trái chứa khách hàng 3, 6, cả hai đều có cùng khoản tiết kiệm và thu nhập, (các bạn xem lại ở bảng dữ liệu khách hàng ở trên) nên chúng ta phải xét đến giá trị tài sản hiện có, thì thấy, khách hàng thứ 3 với tài sản trung bình thì mang lại rủi ro tín dụng còn khách hàng 6 thì ngược lại.

Với thuật toán CART đã xây dựng hoàn chỉnh như trên, ngân hàng đã có thể phân loại khách hàng mới và xem xét liệu họ có mang lại rủi ro tín dụng hay không nếu mở khoản vay cho họ.

Đến đây là kết thúc bài viết về CART cơ bản sử dụng công thức Goodness of split để tính cách phân nhánh tối ưu. Ở bài viết sắp tới chúng tôi sẽ trình bày các bạn về thuật toán CART, C4.5 với công thức Entropy và GINI index, mời các bạn ửng hộ.

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.

Ngắm Rừng Phong Thu Đẹp Như Tranh Vẽ Ở Nhật Bản

Câu 1 Left(1 (15 Điểm) 1 Cho Các Câ…

4 Bước Vẽ Tranh Phong Cảnh Quê Hương Đơn Giản

Hướng Dẫn Cách Tự Vẽ Tranh Tường Hình Cây

Vẽ Tranh Tường Cái Cây

🌟 Home
🌟 Top